请问怎样禁止这个叫wumii无觅的网站对内容的抓取

This topic created in 4547 days ago, the information mentioned may be changed or developed.

这个叫wumii无觅的网站未经允许随意抓取我们的原创内容，我们一发文章基本上秒速就被抓去，跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式，一种是用框架直接打开我们网页，一种是下面这种直接抓内容到他们网站上。

http://www.wumii.com/item/c0CpGgOA

请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它？或者仅仅屏蔽掉这个网站的ip就可以？

无觅

wumii

抓取

25 replies 1970-01-01 08:00:00 +08:00

ooh

Dec 15, 2013

关键是找出他的机器ip,给他点porn？

sanddudu

Dec 15, 2013

如果对方还有良心，UA里会用 XX-Spider 这样的字符表示
完全无节操，模拟客户端访问，那就在发一篇文章之后看着请求日志，如果发现有可疑ip就查日志

GASALA

Dec 15, 2013

@ooh 嗯，我在日志文件里面没办法确定哪个是他们的。

GASALA

Dec 15, 2013

@sanddudu 嗯，常规几个搜索引擎的都有标识，但是这个网站实在没有看到有明显的标识，看来只能一个一个排除？那工作量好大，日志文件很大。

ooh

Dec 15, 2013

@GASALA 哎，你看看他们网站ip是多少，找找看日志里面有没有，一般来说他访问时间很固定，可能一天就那么几次，也有可能是手动触发，所以说要找到他很难，可以试试检查header各个参数来揪出来，问题是恐怕不止一个在爬吧，让他去吧

GASALA

Dec 15, 2013

@ooh 查过了，日志里面没有网站所在的ip。嗯，工作量好大，看来只能随他去了

sanddudu

Dec 15, 2013

@GASALA 看了下，估计不止一个爬虫。这下难说了，通过能沟通的渠道看看。

Kirkcong

Dec 15, 2013

直接律师函即可，这样就不适用避风港原则了。

Livid

MOD

PRO

Dec 15, 2013

给 2 个小时的日志样本来看看吧。

zeinima

Dec 15, 2013

取证保存公证
找个律师发封律师信

zeinima

Dec 15, 2013

法制不健全的受害者就是普通人

snowhs

Dec 15, 2013

> 我们希望加入的人有以下特征
> 1. 正直。

摘自 http://www.wumii.com/about/jobs

我咳嗽刚好一点又笑到发作了...

snowhs

Dec 15, 2013

btw, 我就引用一下内容，不对事情本身发表意见。

rove

Dec 15, 2013

跑个题，Greader以前也可以对内容直接抓取

lovejoy

Dec 15, 2013

虎嗅？发律师函吧，不标明是spider，而且你们访问量应该比较大，日志确实难分析，或者明天发篇文章黑下对方？

abbatuu

Dec 15, 2013

技术仅仅是一个层面的东西
你还可以选择
1 工商局投诉深圳二木科技有限公司
2 为它做一些广告当然是负面的每一篇文章内容前增加一句注释 wumii无良盗取内容
3 联合其他被盗受损的客户寻求法律支持

binux

Dec 15, 2013

发一篇文章，首先限制奇数IP不可见，5分钟后放开。如果在这时间内对方抓去了，那就排除掉一半了，如此往复

binux

Dec 15, 2013

突然想到这个太麻烦了。。
直接文章里面插入一个编码，每次访问都不同，抓去之后看他抓的那个编码对应的请求信息就完了。

yingluck

Dec 15, 2013

@binux 好办法! 还可以与IP运算与客户端信息运算直接显示在文章中到时候直接看这个随机数就行了

isy

Dec 16, 2013

@binux 这样岂不是文章缓存不了？访问量大的会不会直接死掉。

binux

Dec 16, 2013

@isy 看在哪层做咯，应用服务器出来的结果依旧缓存起来，增加一层专门添加这个串，性能不会太差
比如用openresty

txlty

Dec 16, 2013

有个办法是批量连接访客IP的80端口，如果哪个IP是通的，就有服务器嫌疑。

其实这个问题在技术上无解。如果采集程序在工作场所的PC上，由PC端上传入库。工作场所是adsl拨号产生的动态IP，怎么封？

txlty

Dec 16, 2013

如果采集方使用的不是100%模拟浏览器（不请求图片、不执行JS），那么是有办法抓出采集者IP的。

访问文章页面->记录访客IP，（延迟n秒后）通过页面一段JS以ajax方式发出一个请求，响应端收到请求后删除IP记录或标记IP为正常访问。
这样，留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。

wzxjohn

Dec 16, 2013 via Android

看了大家的方法让我顿时觉得，原来还能这么玩！受教了！

underone

Dec 16, 2013

直接微博上去@林承仁比较有效吧
在无觅初创的时候，还是很用过一阵的，没想到现在变成这样……