
1 Dockerfile Jul 5, 2021 具体说下? |
2 lawsiki Jul 5, 2021 具体说下? |
3 Jooooooooo Jul 5, 2021 大公司都是一个大团队专门搞这个 |
4 ynkkdev Jul 5, 2021 给美团点赞,最近烦死爬虫了 |
7 Cyen Jul 5, 2021 没有具体的了? |
8 ifsclimbing OP |
9 no1xsyzy Jul 5, 2021 |
10 kidult Jul 5, 2021 正常的用户都跟贼一样防着,别说爬虫了 |
11 photon006 Jul 5, 2021 用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。 |
12 arthas2234 Jul 5, 2021 矛和盾的关系,打不过就加入 |
13 paradoxs Jul 5, 2021 其实美团完全可以直接让法务部处理的,还是太善良了。 |
14 paradoxs Jul 5, 2021 最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。 |
15 ifsclimbing OP @paradoxs 怕 |
16 TomVista Jul 5, 2021 面向牢饭编程.dog |
17 zhengfan2016 Jul 5, 2021 饿了么? |
19 ifsclimbing OP @zhengfan2016 饿了么没美团难 |
20 ifsclimbing OP @zocome 没试过淘宝 |
21 akira Jul 5, 2021 只要普通用户可以正常访问,就一定有方案可以爬 |
22 pwelyn Jul 5, 2021 道高一尺 魔高一丈 继续做对抗 |
23 ifsclimbing OP @akira 是的,就是成本问题 |
24 littlewing Jul 5, 2021 之前看过一个帖子,数字部分用字体做反扒的 |
26 zjmdp Jul 5, 2021 我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽 |
28 zjmdp Jul 5, 2021 @yangyifan 是下面两个设置吗? options.add_experimental_option('excludeSwitches', ['enable-automation']) options.add_argument("disable-blink-features=AutomationControlled") |
29 zjmdp Jul 5, 2021 @yangyifan 还有下面这段 self.driver.execute_cdp_cmd( "Page.addScriptToEvaluateOnNewDocument",{ "source":''' Object.defineProperty(navigator,'webdriver',{ get: () => undefined }) ''' } ) |
32 coolmenu Jul 6, 2021 用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。 |
33 Canace Jul 6, 2021 具体说下? |
35 ifsclimbing OP @coolmenu 好办法 |
36 Geebarwan Jul 6, 2021 @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。 |
37 ifsclimbing OP @yangyifan 头大 |
39 ml1344677 Jul 6, 2021 曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。 |
41 TheBestSivir Jul 7, 2021 美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI 起码在美团外卖,很早就不搞爬虫了爬别人了 |
42 ifsclimbing OP @TheBestSivir 美团厉害 |