请问怎样禁止这个叫wumii无觅的网站对内容的抓取 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GASALA
V2EX    问与答

请问怎样禁止这个叫wumii无觅的网站对内容的抓取

  •  
      GASALA 2013-12-15 16:40:56 +08:00 5424 次点击
    这是一个创建于 4320 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这个叫wumii无觅的网站未经允许随意抓取我们的原创内容,我们一发文章基本上秒速就被抓去,跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式,一种是用框架直接打开我们网页,一种是下面这种直接抓内容到他们网站上。

    http://www.wumii.com/item/c0CpGgOA

    请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它?或者仅仅屏蔽掉这个网站的ip就可以?
    25 条回复    1970-01-01 08:00:00 +08:00
    ooh
        1
    ooh  
       2013-12-15 16:48:13 +08:00   1
    关键是找出他的机器ip,给他点porn?
    sanddudu
        2
    sanddudu  
       2013-12-15 16:50:09 +08:00   1
    如果对方还有良心,UA里会用 XX-Spider 这样的字符表示
    完全无节操,模拟客户端访问,那就在发一篇文章之后看着请求日志,如果发现有可疑ip就查日志
    GASALA
        3
    GASALA  
    OP
       2013-12-15 16:50:31 +08:00
    @ooh 嗯,我在日志文件里面没办法确定哪个是他们的。
    GASALA
        4
    GASALA  
    OP
       2013-12-15 16:52:50 +08:00
    @sanddudu 嗯,常规几个搜索引擎的都有标识,但是这个网站实在没有看到有明显的标识,看来只能一个一个排除?那工作量好大,日志文件很大。
    ooh
        5
    ooh  
       2013-12-15 16:56:16 +08:00
    @GASALA 哎,你看看他们网站ip是多少,找找看日志里面有没有,一般来说他访问时间很固定,可能一天就那么几次,也有可能是手动触发,所以说要找到他很难,可以试试检查header各个参数来揪出来,问题是恐怕不止一个在爬吧,让他去吧
    GASALA
        6
    GASALA  
    OP
       2013-12-15 16:57:42 +08:00
    @ooh 查过了,日志里面没有网站所在的ip。嗯,工作量好大,看来只能随他去了
    sanddudu
        7
    sanddudu  
       2013-12-15 16:58:23 +08:00
    @GASALA 看了下,估计不止一个爬虫。这下难说了,通过能沟通的渠道看看。
    Kirkcong
        8
    Kirkcong  
       2013-12-15 17:08:36 +08:00
    直接律师函即可,这样就不适用避风港原则了。
    Livid
        9
    Livid  
    MOD
    PRO
       2013-12-15 17:09:35 +08:00
    给 2 个小时的日志样本来看看吧。
    zeinima
        10
    zeinima  
       2013-12-15 20:44:45 +08:00
    取证保存公证
    找个律师发封律师信
    zeinima
        11
    zeinima  
       2013-12-15 20:45:04 +08:00
    法制不健全的受害者就是普通人
    snowhs
        12
    snowhs  
       2013-12-15 21:44:53 +08:00
    > 我们希望加入的人有以下特征
    > 1. 正直。

    摘自 http://www.wumii.com/about/jobs

    我咳嗽刚好一点又笑到发作了...
    snowhs
        13
    snowhs  
       2013-12-15 21:48:26 +08:00
    btw, 我就引用一下内容,不对事情本身发表意见。
    rove
        14
    rove  
       2013-12-15 21:54:01 +08:00
    跑个题,Greader以前也可以对内容直接抓取
    lovejoy
        15
    lovejoy  
       2013-12-15 22:52:15 +08:00
    虎嗅 ? 发律师函吧,不标明是spider,而且你们访问量应该比较大,日志确实难分析,或者明天发篇文章黑下对方?
    abbatuu
        16
    abbatuu  
       2013-12-15 23:32:48 +08:00   2
    技术仅仅是一个层面的东西
    你还可以选择
    1 工商局投诉 深圳二木科技有限公司
    2 为它做一些广告 当然是负面的 每一篇文章内容前增加一句注释 wumii无良 盗取内容
    3 联合其他被盗受损的客户 寻求法律支持
    binux
        17
    binux  
       2013-12-15 23:40:48 +08:00
    发一篇文章,首先限制奇数IP不可见,5分钟后放开。如果在这时间内对方抓去了,那就排除掉一半了,如此往复
    binux
        18
    binux  
       2013-12-15 23:45:06 +08:00   3
    突然想到这个太麻烦了。。
    直接文章里面插入一个编码,每次访问都不同,抓去之后看他抓的那个编码对应的请求信息就完了。
    yingluck
        19
    yingluck  
       2013-12-15 23:58:34 +08:00
    @binux 好办法! 还可以与IP运算 与客户端信息运算 直接显示在文章中 到时候直接看这个随机数就行了
    isy
        20
    isy  
       2013-12-16 00:07:00 +08:00
    @binux 这样岂不是文章缓存不了?访问量大的会不会直接死掉。
    binux
        21
    binux  
       2013-12-16 00:12:22 +08:00
    @isy 看在哪层做咯,应用服务器出来的结果依旧缓存起来,增加一层专门添加这个串,性能不会太差
    比如用openresty
    txlty
        22
    txlty  
       2013-12-16 04:28:17 +08:00   1
    有个办法是批量连接访客IP的80端口,如果哪个IP是通的,就有服务器嫌疑。

    其实这个问题在技术上无解。如果采集程序在工作场所的PC上,由PC端上传入库。工作场所是adsl拨号产生的动态IP,怎么封?
    txlty
        23
    txlty  
       2013-12-16 04:53:39 +08:00   1
    如果采集方使用的不是100%模拟浏览器(不请求图片、不执行JS),那么是有办法抓出采集者IP的。

    访问文章页面->记录访客IP,(延迟n秒后)通过页面一段JS以ajax方式发出一个请求,响应端收到请求后 删除IP记录 或 标记IP为正常访问。
    这样,留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。
    wzxjohn
        24
    wzxjohn  
       2013-12-16 09:42:36 +08:00 via Android
    看了大家的方法让我顿时觉得,原来还能这么玩!受教了!
    underone
        25
    underone  
       2013-12-16 10:21:08 +08:00   1
    直接微博上去@林承仁 比较有效吧
    在无觅初创的时候,还是很用过一阵的,没想到现在变成这样……
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5581 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 05:55 PVG 13:55 LAX 22:55 JFK 01:55
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86