Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?
![]() | 1 580a388da131 2016-01-29 03:14:23 +08:00 修改 robots 后有 一段时间内蜘蛛还回来 |
2 Andy1999 2016-01-29 04:28:09 +08:00 via iPhone 谷歌也不遵守,悉听尊便吧 |
![]() | 3 Khlieb 2016-01-29 04:43:55 +08:00 via Android 坐等大神出来分析 |
![]() | 4 czb 2016-01-29 05:41:11 +08:00 via Android 有验证是真的 spider 吗 |
![]() | 5 ryd994 2016-01-29 06:29:32 +08:00 via Android 怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了 要屏蔽就要屏蔽所有(至少绝大部分)爬虫 |
6 DesignerSkyline 2016-01-29 08:19:15 +08:00 只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之 |
![]() | 7 xrui &nbs; 2016-01-29 08:24:34 +08:00 via Android 对,直接 403 |
8 keinx 2016-01-29 09:03:56 +08:00 蜘蛛是会来爬的,但是不一定收录。 |
![]() | 9 Hello1995 2016-01-29 09:17:01 +08:00 via Android @ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。 |
![]() | 10 xiaoyustudio OP @czb IP 地址查了一下确实是百度的... |
![]() | 11 xujif 2016-01-29 11:19:36 +08:00 难道不知道现在很多采集程序都把自己标记为 spider 吗 |
![]() | 12 libook 2016-01-29 12:15:39 +08:00 我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。 阴谋论:别的厂商的爬虫用了百度的 UA ? 还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。 |
![]() | 13 xiaoyustudio OP |
![]() | 14 wy315700 2016-01-29 12:38:56 +08:00 robots.txt 只是规定了不收录,但是没有规定不爬取 |
![]() | 15 TheCure 2016-01-29 12:44:32 +08:00 是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录 比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的 如果你 disallow 根目录,那是不会来爬了 估计百度一开始的实现有问题,后来规模大了问题很难修改? |