1 simapple 2015-06-01 14:37:37 +08:00 但凡有一点工具基础,防采集 基本上不成立,实在不行 做个chrome插件 一页一页的翻 总可以吧 |
![]() | 2 shootsoft 2015-06-01 14:40:47 +08:00 via Android 用HTML增加随机水印,经常更换模板,用redis记录每个IP访问的次数,超过一定次数的时候就block,再不行你就随机把文字替换成文字图片... |
![]() | 3 wy315700 2015-06-01 14:42:47 +08:00 ![]() 防采集 == 搜索引擎也很难采集 |
4 thankyourtender 2015-06-01 14:44:00 +08:00 法律途径就可以解决,报警 |
![]() | 5 mhycy 2015-06-01 14:45:49 +08:00 网址无规律就挡掉一批写采集规则的了 搜索引擎是按照链接爬取的,采集是按照URL规律爬取的. |
6 zhangchax 2015-06-01 14:53:23 +08:00 其实整页用图片输出是个不错的防采集方法 就是代价比较大... |
![]() | 7 dingzi 2015-06-01 14:54:48 +08:00 最后结论防不胜防 |
![]() | 9 binux 2015-06-01 14:57:32 +08:00 防爬的代价是爬的10倍 |
![]() | 10 shootsoft 2015-06-01 16:45:30 +08:00 via Android |
![]() | 11 cszhiyue 2015-06-01 17:15:50 +08:00 点进去看了一下。。运来是图片站 |
![]() | 12 Mizzi 2015-06-01 17:28:10 +08:00 用微信扫码验证 |
![]() | 13 dong3580 2015-06-01 17:36:10 +08:00 ![]() 这个问题貌似我回答过不少次,对于防采集,给点方法,不过也都是得不偿失: 1.页头加上刷新重载,可以刷掉一个低级的爬虫(例如:webup等); 2.动态生成关键数据的标签,注意,生成的标签要缺HTML标签半边之类的,也就是故意让页面报错,浏览器都会自动处理,不影响阅读体验或者页面布局即可。这样,用xpath的爬虫会报错。(例如:火车头,用xpath方式写的爬虫,用正则的影响不大吧) 3.上面两种如果采集你的页面,正则过滤所有标签样式 也是没法防的。 4.只要有入口一样采集,链接没规律一样可以采集,只是难度加大了而已,动态链接倒是可以让爬虫蛋碎一下,不过对于搜索引擎不太好。其他的,将文字转成图片,加验证码的,都是不合适的方式和或者会改变体验。当然,1,2方式实际上对自己的网站也是非常不友善,正如 @binux 所说的,代价太大,防爬之路任重道远,流氓有文化了你还能咋办。 |
![]() | 14 lyragosa 2015-06-01 17:38:29 +08:00 很难。 最好的办法是无视,眼不见心不烦。 |
15 sohoer 2015-06-01 17:47:20 +08:00 只有在网站数据量很大如:10W、100W级,并且爬虫需要比较快的更新数据时如:每天一次、两次或更多次 反爬才有意义,不然防的也只是小白。 |