![]() | 1 Dockerfile 2021-07-05 10:44:33 +08:00 具体说下? |
![]() | 2 lawsiki 2021-07-05 10:45:43 +08:00 具体说下? |
3 Jooooooooo 2021-07-05 10:52:02 +08:00 大公司都是一个大团队专门搞这个 |
4 youngce 2021-07-05 10:57:13 +08:00 给美团点赞,最近烦死爬虫了 |
![]() | 7 Cyen 2021-07-05 11:04:30 +08:00 没有具体的了? |
8 ifsclimbing OP |
![]() | 9 no1xsyzy 2021-07-05 13:16:11 +08:00 |
![]() | 10 kidult 2021-07-05 14:26:16 +08:00 ![]() 正常的用户都跟贼一样防着,别说爬虫了 |
11 photon006 2021-07-05 14:27:28 +08:00 用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。 |
![]() | 12 arthas2234 2021-07-05 14:29:50 +08:00 矛和盾的关系,打不过就加入 |
![]() | 13 paradoxs 2021-07-05 14:33:31 +08:00 ![]() 其实美团完全可以直接让法务部处理的,还是太善良了。 |
![]() | 14 paradoxs 2021-07-05 14:34:08 +08:00 最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。 |
15 ifsclimbing OP @paradoxs 怕 |
![]() | 16 TomVista 2021-07-05 15:13:27 +08:00 面向牢饭编程.dog |
17 zhengfan2016 2021-07-05 15:17:58 +08:00 饿了么? |
19 ifsclimbing OP @zhengfan2016 饿了么没美团难 |
20 ifsclimbing OP @zocome 没试过淘宝 |
![]() | 21 akira 2021-07-05 15:28:55 +08:00 只要普通用户可以正常访问,就一定有方案可以爬 |
![]() | 22 pwelyn 2021-07-05 15:34:52 +08:00 道高一尺 魔高一丈 继续做对抗 |
23 ifsclimbing OP @akira 是的,就是成本问题 |
24 littlewing 2021-07-05 15:59:10 +08:00 之前看过一个帖子,数字部分用字体做反扒的 |
26 zjmdp 2021-07-05 18:00:43 +08:00 我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽 |
28 zjmdp 2021-07-05 18:19:32 +08:00 @yangyifan 是下面两个设置吗? options.add_experimental_option('excludeSwitches', ['enable-automation']) options.add_argument("disable-blink-features=AutomationControlled") |
29 zjmdp 2021-07-05 18:20:30 +08:00 @yangyifan 还有下面这段 self.driver.execute_cdp_cmd( "Page.addScriptToEvaluateOnNewDocument",{ "source":''' Object.defineProperty(navigator,'webdriver',{ get: () => undefined }) ''' } ) |
32 coolmenu 2021-07-06 07:10:49 +08:00 用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。 |
![]() | 33 Canace 2021-07-06 09:28:56 +08:00 具体说下? |
35 ifsclimbing OP @coolmenu 好办法 |
36 Geebarwan 2021-07-06 12:40:16 +08:00 @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。 |
37 ifsclimbing OP @yangyifan 头大 |
![]() | 39 ml1344677 2021-07-06 19:05:52 +08:00 曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。 |
![]() | 41 TheBestSivir 2021-07-07 10:43:56 +08:00 美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI 起码在美团外卖,很早就不搞爬虫了爬别人了 |
42 ifsclimbing OP @TheBestSivir 美团厉害 |