大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaoyustudio
V2EX    问与答

大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况?

  •  
  •   xiaoyustudio 2016-01-29 02:50:18 +08:00 2905 次点击
    这是一个创建于 3543 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?

    15 条回复    2016-01-29 12:44:32 +08:00
    580a388da131
        1
    580a388da131  
       2016-01-29 03:14:23 +08:00
    修改 robots 后有 一段时间内蜘蛛还回来
    Andy1999
        2
    Andy1999  
       2016-01-29 04:28:09 +08:00 via iPhone
    谷歌也不遵守,悉听尊便吧
    Khlieb
        3
    Khlieb  
       2016-01-29 04:43:55 +08:00 via Android
    坐等大神出来分析
    czb
        4
    czb  
       2016-01-29 05:41:11 +08:00 via Android
    有验证是真的 spider 吗
    ryd994
        5
    ryd994  
       2016-01-29 06:29:32 +08:00 via Android
    怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了
    要屏蔽就要屏蔽所有(至少绝大部分)爬虫
    DesignerSkyline
        6
    DesignerSkyline  
       2016-01-29 08:19:15 +08:00
    只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之
    xrui
        7
    xrui  
    &nbs;  2016-01-29 08:24:34 +08:00 via Android
    对,直接 403
    keinx
        8
    keinx  
       2016-01-29 09:03:56 +08:00
    蜘蛛是会来爬的,但是不一定收录。
    Hello1995
        9
    Hello1995  
       2016-01-29 09:17:01 +08:00 via Android
    @ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。
    xiaoyustudio
        10
    xiaoyustudio  
    OP
       2016-01-29 10:36:34 +08:00
    @czb IP 地址查了一下确实是百度的...
    xujif
        11
    xujif  
       2016-01-29 11:19:36 +08:00
    难道不知道现在很多采集程序都把自己标记为 spider 吗
    libook
        12
    libook  
       2016-01-29 12:15:39 +08:00
    我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
    阴谋论:别的厂商的爬虫用了百度的 UA ?
    还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。
    xiaoyustudio
        13
    xiaoyustudio  
    OP
       2016-01-29 12:35:42 +08:00
    @czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了 如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!
    wy315700
        14
    wy315700  
       2016-01-29 12:38:56 +08:00
    robots.txt 只是规定了不收录,但是没有规定不爬取
    TheCure
        15
    TheCure  
       2016-01-29 12:44:32 +08:00
    是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

    比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

    如果你 disallow 根目录,那是不会来爬了
    估计百度一开始的实现有问题,后来规模大了问题很难修改?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1120 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 18:01 PVG 02:01 LAX 11:01 JFK 14:01
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86