为了给服务器减轻压力,如何屏蔽各大搜索引擎蜘蛛?或者各大蜘蛛IP段?

1 liuchen9586 Jan 17, 2015 网站根目录下建立个robots.txt文件 然后内容写上 User-agent: * Disallow: / 就行了 |
2 Chipper Jan 17, 2015 在网站的根目录里建立一个robots文件即可。 |
3 xfspace Jan 17, 2015 |
4 fising Jan 17, 2015 via iPad 除了robots文件,最好能在服务器层面deny |
5 typcn Jan 17, 2015 我之前尝试过拒绝 UA 中含有 360 的请求,结果 360 搜索非常正常地收录了我的最新内容。 |
6 kiritoalex Jan 17, 2015 via Android @typcn 360爬虫不遵循robots协议,只能屏蔽IP |
7 hjc4869 Jan 17, 2015 via iPhone @kiritoalex 360不支持https吧 |
8 kiritoalex Jan 17, 2015 via iPhone @hjc4869 应该是 |
9 kiritoalex Jan 17, 2015 via iPhone 最有效的方式是屏蔽搜索引擎整个的IP段,对于遵循robots的爬虫可以直接放robots.txt.不遵循的也只好屏蔽整个IP段了(比如腾讯搜搜和360的爬虫) |
10 overlords Jan 17, 2015 使用dnspod的用户可以在给搜索引擎特地执行一个IP;如127.0.0.1 搞定了; |
11 miao Jan 17, 2015 好吧. 我的网站巴不得天天爬虫来爬 |
12 mornlight Jan 17, 2015 robots 有个缓存期,如果需要立马有效的话,nginx里屏蔽UA |
13 enjoyzhou Jan 18, 2015 只是减少服务器压力,可以通过搜索引擎站长平台调整抓取频率,无需全部禁止的 |
14 ctsed Jan 18, 2015 http://zhanzhang.baidu.com/pressure/index # 站点管理 > 抓取频次 https://www.google.com/webmasters/tools/settings # 网站设置 > 抓取速度 |
15 kimmykuang Jan 20, 2015 国内很多spider是不遵守robots协议的,比如360,明着不要脸的,我们现在采用的方法还是用go实现了一套逻辑去分析用户行为,最终还是为了去ban spider ip,结合着fail2ban使用 |