怎么最大限度的做防采集？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3793 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT，最近网站被采集的厉害，怎么才能有效的防采集！
我知道肯定不可能完全做到防止，但是能防一步一分防一部分。

采集

限度

防止

15 条回复 2015-06-01 17:47:20 +08:00

simapple

2015-06-01 14:37:37 +08:00

但凡有一点工具基础，防采集基本上不成立，实在不行做个chrome插件一页一页的翻总可以吧

shootsoft

2015-06-01 14:40:47 +08:00 via Android

用HTML增加随机水印，经常更换模板，用redis记录每个IP访问的次数，超过一定次数的时候就block，再不行你就随机把文字替换成文字图片...

wy315700

2015-06-01 14:42:47 +08:00

防采集 == 搜索引擎也很难采集

thankyourtender

2015-06-01 14:44:00 +08:00

法律途径就可以解决，报警

mhycy

2015-06-01 14:45:49 +08:00

网址无规律就挡掉一批写采集规则的了
搜索引擎是按照链接爬取的,采集是按照URL规律爬取的.

zhangchax

2015-06-01 14:53:23 +08:00

其实整页用图片输出是个不错的防采集方法
就是代价比较大...

dingzi

2015-06-01 14:54:48 +08:00

最后结论防不胜防

haopic

2015-06-01 14:56:09 +08:00

@shootsoft redis限制IP怎么做？

binux

2015-06-01 14:57:32 +08:00

防爬的代价是爬的10倍

shootsoft

2015-06-01 16:45:30 +08:00 via Android

@haopic 来一个请求，在redis里面记录一下当前IP在当前小时/天的访问次数，就跟每个IP只能投一次票一样，可以设置24小时之后自动过期，可以重新访问。 @binux 说的对，你要付出的代价是很大的，这套逻辑需要比较大内存的机器来做，或者是redis集群

cszhiyue

2015-06-01 17:15:50 +08:00

点进去看了一下。。运来是图片站

Mizzi

2015-06-01 17:28:10 +08:00

用微信扫码验证

dong3580

2015-06-01 17:36:10 +08:00

这个问题貌似我回答过不少次，对于防采集，给点方法，不过也都是得不偿失：
1.页头加上刷新重载，可以刷掉一个低级的爬虫(例如:webup等);
2.动态生成关键数据的标签，注意，生成的标签要缺HTML标签半边之类的，也就是故意让页面报错，浏览器都会自动处理，不影响阅读体验或者页面布局即可。这样，用xpath的爬虫会报错。（例如：火车头，用xpath方式写的爬虫，用正则的影响不大吧）
3.上面两种如果采集你的页面，正则过滤所有标签样式也是没法防的。
4.只要有入口一样采集，链接没规律一样可以采集，只是难度加大了而已，动态链接倒是可以让爬虫蛋碎一下，不过对于搜索引擎不太好。其他的，将文字转成图片，加验证码的，都是不合适的方式和或者会改变体验。当然，1，2方式实际上对自己的网站也是非常不友善，正如 @binux 所说的，代价太大，防爬之路任重道远，流氓有文化了你还能咋办。

lyragosa

2015-06-01 17:38:29 +08:00

很难。
最好的办法是无视，眼不见心不烦。

sohoer

2015-06-01 17:47:20 +08:00

只有在网站数据量很大如:10W、100W级，并且爬虫需要比较快的更新数据时如:每天一次、两次或更多次
反爬才有意义，不然防的也只是小白。