
比如我要爬取的网站是 https://xxx.com,在 log 信息中看到得到的网页有很多 https://xxx.com?mdtp=30&p=8+++++++++++++++++++ 而且+号是不断的增加的,网站返回的是同一个页面。使用 linkExtractor 去过滤吗?
1 prasanta 2017-06-02 09:28:07 +08:00 把它处理掉 |
2 KeepPro 2017-06-02 09:29:54 +08:00 via Android 这说明人家并不想让你爬 |
3 734506700qq 2017-06-02 09:36:25 +08:00 啥网站啊,这么溜,这个反爬虫机制真 low |
4 zhangzixu OP @734506700qq 高校的,哈哈 |
5 cranelee13 2017-06-02 10:21:46 +08:00 via iPhone 用正则过滤链接吧,很好解决。 |