美团的反爬虫太厉害了,各种下毒 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ifsclimbing
V2EX    互联网

美团的反爬虫太厉害了,各种下毒

  •  
  •   ifsclimbing 2021-07-05 10:42:08 +08:00 14259 次点击
    这是一个创建于 1561 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言    2021-07-09 18:22:57 +08:00
    还是要逆向 app 啊
    43 条回复    2021-07-07 12:53:06 +08:00
    Dockerfile
        1
    Dockerfile  
       2021-07-05 10:44:33 +08:00
    具体说下?
    lawsiki
        2
    lawsiki  
       2021-07-05 10:45:43 +08:00
    具体说下?
    Jooooooooo
        3
    Jooooooooo  
       2021-07-05 10:52:02 +08:00
    大公司都是一个大团队专门搞这个
    youngce
        4
    youngce  
       2021-07-05 10:57:13 +08:00
    给美团点赞,最近烦死爬虫了
    leido
        5
    leido  
       2021-07-05 10:58:22 +08:00
    @youngce 美团自己也爬别人
    youngce
        6
    youngce  
       2021-07-05 11:00:27 +08:00
    @leido #5 那就只给美团反爬的团队点赞
    Cyen
        7
    Cyen  
       2021-07-05 11:04:30 +08:00
    没有具体的了?
    ifsclimbing
        8
    ifsclimbing  
    OP
       2021-07-05 11:25:53 +08:00
    @lawsiki
    @Jwyt
    @Cyen

    比如商品的销量
    no1xsyzy
        9
    no1xsyzy  
       2021-07-05 13:16:11 +08:00
    @youngce 正因为别人反爬技术强,导致反反爬技术越来越强。
    假设一个几乎没有人会反爬的世界,那是不是你会点基础的反爬就能把所有爬虫拦截在外了?
    所以好像你也不该感谢反爬团队(
    kidult
        10
    kidult  
       2021-07-05 14:26:16 +08:00   2
    正常的用户都跟贼一样防着,别说爬虫了
    photon006
        11
    photon006  
       2021-07-05 14:27:28 +08:00
    用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。
    arthas2234
        12
    arthas2234  
       2021-07-05 14:29:50 +08:00
    矛和盾的关系,打不过就加入
    paradoxs
        13
    paradoxs  
       2021-07-05 14:33:31 +08:00   1
    其实美团完全可以直接让法务部处理的,还是太善良了。
    paradoxs
        14
    paradoxs  
       2021-07-05 14:34:08 +08:00
    最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。
    ifsclimbing
        15
    ifsclimbing  
    OP
       2021-07-05 14:42:04 +08:00
    TomVista
        16
    TomVista  
       2021-07-05 15:13:27 +08:00
    面向牢饭编程.dog
    zhengfan2016
        17
    zhengfan2016  
       2021-07-05 15:17:58 +08:00
    饿了么?
    zocome
        18
    zocome  
       2021-07-05 15:21:04 +08:00
    @kidult #10 淘宝:有被冒犯到
    ifsclimbing
        19
    ifsclimbing  
    OP
       2021-07-05 15:22:21 +08:00
    @zhengfan2016 饿了么没美团难
    ifsclimbing
        20
    ifsclimbing  
    OP
       2021-07-05 15:22:36 +08:00
    @zocome 没试过淘宝
    akira
        21
    akira  
       2021-07-05 15:28:55 +08:00
    只要普通用户可以正常访问,就一定有方案可以爬
    pwelyn
        22
    pwelyn  
       2021-07-05 15:34:52 +08:00
    道高一尺 魔高一丈 继续做对抗
    ifsclimbing
        23
    ifsclimbing  
    OP
       2021-07-05 15:35:24 +08:00
    @akira 是的,就是成本问题
    littlewing
        24
    littlewing  
       2021-07-05 15:59:10 +08:00
    之前看过一个帖子,数字部分用字体做反扒的
    JWilling
        25
    JWilling  
       2021-07-05 16:18:35 +08:00   1
    @no1xsyzy 你这逻辑是典型的 zz 逻辑,如果没有黑客是不是所有的系统就安全了。
    zjmdp
        26
    zjmdp  
       2021-07-05 18:00:43 +08:00
    我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽
    Geebarwan
        27
    Geebarwan  
       2021-07-05 18:01:23 +08:00
    @zjmdp chromeDriver 的 特征 修改了吗?
    zjmdp
        28
    zjmdp  
       2021-07-05 18:19:32 +08:00
    @yangyifan 是下面两个设置吗?
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_argument("disable-blink-features=AutomationControlled")
    zjmdp
        29
    zjmdp  
       2021-07-05 18:20:30 +08:00
    @yangyifan 还有下面这段
    self.driver.execute_cdp_cmd(
    "Page.addScriptToEvaluateOnNewDocument",{
    "source":'''
    Object.defineProperty(navigator,'webdriver',{
    get: () => undefined
    })
    '''
    }
    )
    Cielsky
        30
    Cielsky  
       2021-07-05 19:15:24 +08:00
    @no1xsyzy 什么逻辑啊,反爬技术强说明他们爬虫技术也强啊。
    no1xsyzy
        31
    no1xsyzy  
       2021-07-06 00:35:33 +08:00
    @Zhancha 没有被我绕进去,这很好;但是缺乏一些专(bī)业(gé)性。
    coolmenu
        32
    coolmenu  
       2021-07-06 07:10:49 +08:00
    用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。
    Canace
        33
    Canace  
       2021-07-06 09:28:56 +08:00
    具体说下?
    karatsuba
        34
    karatsuba  
       2021-07-06 10:15:11 +08:00
    @coolmenu 龟龟,每人给一快钱也十万了
    ifsclimbing
        35
    ifsclimbing  
    OP
       2021-07-06 12:37:41 +08:00
    @coolmenu 好办法
    Geebarwan
        36
    Geebarwan  
       2021-07-06 12:40:16 +08:00
    @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。
    ifsclimbing
        37
    ifsclimbing  
    OP
       2021-07-06 13:38:16 +08:00
    @yangyifan 头大
    zjmdp
        38
    zjmdp  
       2021-07-06 17:41:12 +08:00
    @yangyifan 我是按网上的写法,直接二进制替换了字符串,看来坑不止这些。
    ml1344677
        39
    ml1344677  
       2021-07-06 19:05:52 +08:00
    曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。
    HashV2
        40
    HashV2  
       2021-07-07 09:45:11 +08:00
    @youngce #6 反爬团队和爬虫团队可能是同一拨人
    TheBestSivir
        41
    TheBestSivir  
       2021-07-07 10:43:56 +08:00
    美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
    起码在美团外卖,很早就不搞爬虫了爬别人了
    ifsclimbing
        42
    ifsclimbing  
    OP
       2021-07-07 11:06:36 +08:00
    @TheBestSivir 美团厉害
    Geebarwan
        43
    Geebarwan  
       2021-07-07 12:53:06 +08:00
    @zjmdp 肯定的,要是有 那么简单,就不会被反爬了。自己去琢磨一下源码吧,会有很多很多地方值得去研究的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5526 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 07:32 PVG 15:32 LAX 00:32 JFK 03:32
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86