京东没有 robots.txt 是怎样防止爬虫抓取的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
3kkkk
V2EX    程序员

京东没有 robots.txt 是怎样防止爬虫抓取的

  •  
  •   3kkkk 2021-12-02 17:19:45 +08:00 7193 次点击
    这是一个创建于 1413 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。

    25 条回复    2022-04-22 10:00:56 +08:00
    Jooooooooo
        1
    Jooooooooo  
       2021-12-02 17:24:16 +08:00   2
    这...爬虫真想爬你还用 robots 拦吗.

    都是有个专门的反爬团队做反爬相关的东西

    而且搜索引擎明明收录了京东, 随便一搜就能搜到, 比如 java site:jd.com
    Xusually
        2
    Xusually  
       2021-12-02 17:25:56 +08:00
    确实很奇怪,之前是有的。
    cairnechen
        3
    cairnechen  
       2021-12-02 17:30:21 +08:00
    User-agent: *
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User-agent: EtaoSpider
    Disallow: /
    User-agent: HuihuiSpider
    Disallow: /
    User-agent: GwdangSpider
    Disallow: /
    User-agent: WochachaSpider
    Disallow: /

    去年 11 月 10 号因为未知原因下线了
    muzuiget
        4
    muzuiget  
       2021-12-02 17:32:06 +08:00
    robots.txt 只是君子协定。
    ytll21
        5
    ytll21  
       2021-12-02 17:37:37 +08:00   5
    京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。
    ytll21
        6
    ytll21  
       2021-12-02 17:39:23 +08:00
    恩,这只是我的一点不成熟的想法,欢迎指正 dodge
    k9982874
        7
    k9982874  
       2021-12-02 17:41:00 +08:00   1
    放 robots.txt 对国内搜索引擎反而是一份 sitemap
    liuzhaowei55
        8
    liuzhaowei55  
       2021-12-02 18:10:49 +08:00 via Android
    各家爬虫会使用特别的 ua ,针对 ua 做了处理吧
    locoz
        9
    locoz  
       2021-12-02 18:24:18 +08:00
    有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。
    vanton
        10
    vanton  
       2021-12-02 18:28:25 +08:00
    @ytll21 #5

    没错,淘宝现在是广告平台
    gam2046
        11
    gam2046  
       2021-12-02 19:19:48 +08:00   8
    赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。

    至于京东的第三方商家,京东自己都不太管他们死活。

    而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。
    karloku
        12
    karloku  
       2021-12-02 19:41:12 +08:00
    爬虫和搜索引擎分开说

    我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛.
    wqhui
        13
    wqhui  
       2021-12-02 20:06:12 +08:00
    robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。
    pengtdyd
        14
    pengtdyd  
       2021-12-02 20:54:07 +08:00
    我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。
    12101111
        15
    12101111  
       2021-12-02 23:27:26 +08:00
    Google 5900x site: jd.com
    第一条 https://item.jd.com/100016046842.html
    第二条 https://item.jd.com/10031652556617.html
    显然是允许被爬的
    swulling
        16
    swulling  
       2021-12-03 00:36:21 +08:00 via iPhone   3
    京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。

    淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。
    mineralsalt
        17
    mineralsalt  
       2021-12-03 00:56:47 +08:00   5
    robots: "不要 不要 不要"
    爬虫: "叫吧, 你越叫我越兴奋"
    wzw
        18
    wzw  
       2021-12-03 07:17:08 +08:00 via iPhone
    @ytll21 亚马逊,好像就没有反爬
    mostkia
        19
    mostkia  
       2021-12-03 09:08:08 +08:00
    这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。
    realskywalker
        20
    realskywalker  
       2021-12-03 09:53:44 +08:00
    你让我不爬我就不爬?
    chenzheyu
        21
    < href="/member/chenzheyu" class="dark">chenzheyu  
       2021-12-03 10:15:53 +08:00
    @wzw 谁说的,直接至少国际站直接就会被发现是爬虫
    wzw
        22
    wzw  
       2021-12-03 10:28:31 +08:00
    @chenzheyu 别爬那么快, 应该还好吧, 限制没那么严格
    efaun
        23
    efaun  
       2021-12-03 13:44:46 +08:00
    @mostkia #19 我在电脑上用高德必现那个玩意, 拖动一次地图来一次, 辣鸡
    solar
        24
    solar  
       2021-12-03 15:28:47 +08:00
    robots.txt 只是个君子协议而已,并没有法律效力或强制性的。
    jiafeiblog
        25
    jiafeiblog  
       2022-04-22 10:00:56 +08:00
    amazon 还是有反爬的,只是人家的容忍度要高得多
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1169 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:39 PVG 01:39 LAX 10:39 JFK 13:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86