V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ifsclimbing
V2EX  ›  Python

美团的反爬虫太厉害了,各种下毒😭

  •  
  •   ifsclimbing · 203 天前 · 9941 次点击
    这是一个创建于 203 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  198 天前
    还是要逆向 app 啊
    43 条回复    2021-07-07 12:53:06 +08:00
    Jwyt
        1
    Jwyt  
       203 天前
    具体说下?
    lawsiki
        2
    lawsiki  
       203 天前
    具体说下?
    Jooooooooo
        3
    Jooooooooo  
       203 天前
    大公司都是一个大团队专门搞这个
    youngce
        4
    youngce  
       203 天前
    给美团点赞,最近烦死爬虫了
    leido
        5
    leido  
       203 天前
    @youngce 美团自己也爬别人
    youngce
        6
    youngce  
       203 天前
    @leido #5 那就只给美团反爬的团队点赞
    Cyen
        7
    Cyen  
       203 天前
    没有具体的了?
    ifsclimbing
        8
    ifsclimbing  
    OP
       203 天前
    @lawsiki
    @Jwyt
    @Cyen

    比如商品的销量
    no1xsyzy
        9
    no1xsyzy  
       203 天前
    @youngce 正因为别人反爬技术强,导致反反爬技术越来越强。
    假设一个几乎没有人会反爬的世界,那是不是你会点基础的反爬就能把所有爬虫拦截在外了?
    所以好像你也不该感谢反爬团队(
    kidult
        10
    kidult  
       202 天前   ❤️ 2
    正常的用户都跟贼一样防着,别说爬虫了
    photon006
        11
    photon006  
       202 天前
    用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。
    arthas2234
        12
    arthas2234  
       202 天前
    矛和盾的关系,打不过就加入
    paradoxs
        13
    paradoxs  
       202 天前   ❤️ 1
    其实美团完全可以直接让法务部处理的,还是太善良了。
    paradoxs
        14
    paradoxs  
       202 天前
    最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。
    ifsclimbing
        15
    ifsclimbing  
    OP
       202 天前
    TomVista
        16
    TomVista  
       202 天前
    面向牢饭编程.dog
    zhengfan2016
        17
    zhengfan2016  
       202 天前
    饿了么?
    zocome
        18
    zocome  
       202 天前
    @kidult #10 淘宝:有被冒犯到
    ifsclimbing
        19
    ifsclimbing  
    OP
       202 天前
    @zhengfan2016 饿了么没美团难
    ifsclimbing
        20
    ifsclimbing  
    OP
       202 天前
    @zocome 没试过淘宝
    akira
        21
    akira  
       202 天前
    只要普通用户可以正常访问,就一定有方案可以爬
    pwelyn
        22
    pwelyn  
       202 天前
    道高一尺 魔高一丈 继续做对抗
    ifsclimbing
        23
    ifsclimbing  
    OP
       202 天前
    @akira 是的,就是成本问题
    littlewing
        24
    littlewing  
       202 天前
    之前看过一个帖子,数字部分用字体做反扒的
    Zhancha
        25
    Zhancha  
       202 天前   ❤️ 1
    @no1xsyzy 你这逻辑是典型的 zz 逻辑,如果没有黑客是不是所有的系统就安全了。
    zjmdp
        26
    zjmdp  
       202 天前
    我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽
    yangyifan
        27
    yangyifan  
       202 天前
    @zjmdp chromeDriver 的 特征 修改了吗?
    zjmdp
        28
    zjmdp  
       202 天前
    @yangyifan 是下面两个设置吗?
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_argument("disable-blink-features=AutomationControlled")
    zjmdp
        29
    zjmdp  
       202 天前
    @yangyifan 还有下面这段
    self.driver.execute_cdp_cmd(
    "Page.addScriptToEvaluateOnNewDocument",{
    "source":'''
    Object.defineProperty(navigator,'webdriver',{
    get: () => undefined
    })
    '''
    }
    )
    Cielsky
        30
    Cielsky  
       202 天前
    @no1xsyzy 什么逻辑啊,反爬技术强说明他们爬虫技术也强啊。
    no1xsyzy
        31
    no1xsyzy  
       202 天前
    @Zhancha 没有被我绕进去,这很好;但是缺乏一些专(bī)业(gé)性。
    coolmenu
        32
    coolmenu  
       202 天前
    用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。
    Canace
        33
    Canace  
       202 天前
    具体说下?
    karatsuba
        34
    karatsuba  
       202 天前
    @coolmenu 龟龟,每人给一快钱也十万了
    ifsclimbing
        35
    ifsclimbing  
    OP
       202 天前
    @coolmenu 好办法
    yangyifan
        36
    yangyifan  
       202 天前
    @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。
    ifsclimbing
        37
    ifsclimbing  
    OP
       202 天前
    @yangyifan 头大
    zjmdp
        38
    zjmdp  
       201 天前
    @yangyifan 我是按网上的写法,直接二进制替换了字符串,看来坑不止这些。
    ml1344677
        39
    ml1344677  
       201 天前
    曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。
    HashV2
        40
    HashV2  
       201 天前
    @youngce #6 反爬团队和爬虫团队可能是同一拨人
    TheBestSivir
        41
    TheBestSivir  
       201 天前
    美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
    起码在美团外卖,很早就不搞爬虫了爬别人了
    ifsclimbing
        42
    ifsclimbing  
    OP
       201 天前
    @TheBestSivir 美团厉害
    yangyifan
        43
    yangyifan  
       201 天前
    @zjmdp 肯定的,要是有 那么简单,就不会被反爬了。自己去琢磨一下源码吧,会有很多很多地方值得去研究的。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4423 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:22 · PVG 14:22 · LAX 22:22 · JFK 01:22
    ♥ Do have faith in what you're doing.