试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。
1 Jooooooooo 2021-12-02 17:24:16 +08:00 ![]() |
![]() | 2 Xusually 2021-12-02 17:25:56 +08:00 确实很奇怪,之前是有的。 |
![]() | 3 cairnechen 2021-12-02 17:30:21 +08:00 User-agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: / 去年 11 月 10 号因为未知原因下线了 |
![]() | 4 muzuiget 2021-12-02 17:32:06 +08:00 robots.txt 只是君子协定。 |
5 ytll21 2021-12-02 17:37:37 +08:00 ![]() 京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。 |
6 ytll21 2021-12-02 17:39:23 +08:00 恩,这只是我的一点不成熟的想法,欢迎指正 dodge |
![]() | 7 k9982874 2021-12-02 17:41:00 +08:00 ![]() 放 robots.txt 对国内搜索引擎反而是一份 sitemap |
![]() | 8 liuzhaowei55 2021-12-02 18:10:49 +08:00 via Android 各家爬虫会使用特别的 ua ,针对 ua 做了处理吧 |
![]() | 9 locoz 2021-12-02 18:24:18 +08:00 有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。 |
11 gam2046 2021-12-02 19:19:48 +08:00 ![]() 赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。 至于京东的第三方商家,京东自己都不太管他们死活。 而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。 |
![]() | 12 karloku 2021-12-02 19:41:12 +08:00 爬虫和搜索引擎分开说 我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛. |
![]() | 13 wqhui 2021-12-02 20:06:12 +08:00 robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。 |
![]() | 14 pengtdyd 2021-12-02 20:54:07 +08:00 我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。 |
![]() | 15 12101111 2021-12-02 23:27:26 +08:00 Google 5900x site: jd.com 第一条 https://item.jd.com/100016046842.html 第二条 https://item.jd.com/10031652556617.html 显然是允许被爬的 |
![]() | 16 swulling 2021-12-03 00:36:21 +08:00 via iPhone ![]() 京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。 淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。 |
![]() | 17 mineralsalt 2021-12-03 00:56:47 +08:00 ![]() robots: "不要 不要 不要" 爬虫: "叫吧, 你越叫我越兴奋" |
![]() | 19 mostkia 2021-12-03 09:08:08 +08:00 这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。 |
20 realskywalker 2021-12-03 09:53:44 +08:00 你让我不爬我就不爬? |
![]() | 21 < href="/member/chenzheyu" class="dark">chenzheyu 2021-12-03 10:15:53 +08:00 @wzw 谁说的,直接至少国际站直接就会被发现是爬虫 |
![]() | 24 solar 2021-12-03 15:28:47 +08:00 robots.txt 只是个君子协议而已,并没有法律效力或强制性的。 |
25 jiafeiblog 2022-04-22 10:00:56 +08:00 amazon 还是有反爬的,只是人家的容忍度要高得多 |