某乎的 robots 皮一下很开心？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2716 天前的主题，其中的信息可能已经有所发展或是发生改变。

前面的部分都挺正常，最后皮一下很开心？

robots

开心

正常

皮

17 条回复 2018-05-15 18:32:32 +08:00

opengps

2018-05-13 07:21:00 +08:00 via Android

不欢迎预期之外的小搜索引擎？

Telegram

2018-05-13 09:34:11 +08:00 via iPhone

@opengps #1 关键是人家小搜索引擎的爬虫根本不鸟他的 robots 限制

lukefan

2018-05-13 09:59:07 +08:00

淘宝、百度、facebook 等纷纷表示确实很开心

cairnechen

2018-05-13 10:07:12 +08:00

不知道是不是我的理解偏差，robots 是不是就和君子协定差不多啊

maemual

2018-05-13 10:09:01 +08:00

@cairnechen #4 是

pkookp8

2018-05-13 10:13:53 +08:00 via Android

是我理解错了么，百度家的也是这样

cairnechen

2018-05-13 10:23:55 +08:00

@maemual 那为什么淘宝的 robots 对百度会有约束力呢？

whileFalse

2018-05-13 10:25:26 +08:00

皮一下你不开心？

maemual

2018-05-13 10:36:18 +08:00

@cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。

queshengyao

2018-05-13 20:39:54 +08:00 via iPhone

@maemual 请问一下淘宝是如何禁止百度爬虫的？我一直以为是百度遵守了 robots 协议

oonnnoo

2018-05-13 22:01:51 +08:00

GitHub，除了 EtaoSpider，国内其他 bot 都被包含在*中，更皮

maemual

2018-05-13 23:18:54 +08:00

@queshengyao #10 封一把百度爬虫的 UA 就好了啊。

queshengyao

2018-05-14 08:53:03 +08:00 via iPhone

@maemual 我用 postman 试了一下，用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀

maemual

2018-05-14 08:57:40 +08:00 via iPhone

@queshengyao UA 只是举个例子，还有很多手段啊，比如封百度爬虫的 IP 段之类的

queshengyao

2018-05-14 09:34:24 +08:00 via iPhone

@maemual 嗯这我知道，要封爬虫有很多方式，但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的，所以想知道是百度没遵守 robots 协议，然后淘宝另外用了手段封禁吗？

maemual

2018-05-14 10:27:38 +08:00

@queshengyao #15 robots 只是个声明，不是个强制手段，以百度的尿性，能遵循这种君子协定？

MinonHeart

2018-05-15 18:32:32 +08:00

github 也这么做。爬虫多了，知乎的土豆服务器可能扛不住