为什么在未设置 robots.txt 的情况下, Google 搜索不到上海人大官方网站 www.shrd.gov.cn 的任何内容但是 Bing 却能搜索到大部分公开内容 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
qqqfreeboycn V2EX    Google

为什么在未设置 robots.txt 的情况下, Google 搜索不到上海人大官方网站 www.shrd.gov.cn 的任何内容但是 Bing 却能搜索到大部分公开内容

  •  
  •   qqqfreeboycn 226 天前 via Android 3723 次点击
    这是一个创建于 226 天前的主题,其中的信息可能已经有所发展或是发生改变。
    搜索 site:www.shrd.gov.cn Google 的搜索结果为 0 ,Bing 的搜索结果包括了大部分公开内容,https://www.shrd.gov.cn 并未设置 robots.txt
    20 条回复    2025-05-18 11:45:49 +08:00
    mooyo
        1
    mooyo  
       226 天前 via iPhone
    我记得 23 还是 24 年的时候有个新闻说 google 以后不会再主动索引新网站,站长不去提交就不会爬取
    qqqfreeboycn
        2
    qqqfreeboycn  
    OP
       226 天前 via Android
    @mooyo 不可能吧,而且这个网站也不算新网站呀,起码十几年了
    winzkh
        3
    winzkh  
       226 天前
    说不定是对方 ban 了 google 爬虫的 ip 段
    qqqfreeboycn
        4
    qqqfreeboycn  
    OP
       226 天前 via Android
    @winzkh ……有这个必要吗……
    pingdog
        5
    pingdog  
       226 天前 via Android   2
    所有 gov.cn 都屏蔽了非中国 IP ,不然也不会衍生出"回国 VPN"业务

    2015 之前很宽松,之后就不多说了
    zx123ok
        6
    zx123ok  
    PRO
       226 天前 via Android
    我正好是用境外 SIM 卡看 V 站,点你的链接发现无法访问,切换国内 IP 可以访问。
    结合以前观察,国内部分网站会屏蔽境外 IP 访问。
    所以猜测,可能是 bing 有国内 IP 段的爬虫,而 Google 没有。

    另外刚试验了下,广东人大可以境外 IP 访问,Google 也可以搜索到。
    qqqfreeboycn
        7
    qqqfreeboycn  
    OP
       226 天前 via Android
    @fuzzsh 但是 Google 十几年来一直是有中国境内的爬虫服务器的,203 开头的
    qqqfreeboycn
        8
    qqqfreeboycn  
    OP
       226 天前 via Android
    @zx123ok 我使用日本与香港 IP 地址是可以正常访问的,而且 Google 十几年来一直是有中国境内的爬虫服务器的,203 开头的
    lifei6671
        9
    lifei6671  
       226 天前
    @fuzzsh 我测试,外网 VPS 是可以访问 gov.cn 网站。
    c1985382
        10
    c1985382  
       226 天前 via iPhone
    没有具体验证,但是我想他们要屏蔽境外 IP 一点也不奇怪,因为之前 Google 快照存有他们大量的谎言,比如之前招标监控设备需要识别维吾尔族人功能,结果被老外抓住证据。
    mytsing520
        11
    mytsing520  
    PRO
       226 天前
    测试下来,该网站在海外可以访问,那么只有一种原因就是 Google 的爬虫被拉黑了
    从我抓取到的日志来看,Google 的爬虫访问中国大陆网站,现在基本上都是集中在 66.249 这个段上
    mytsing520
        12
    mytsing520  
    PRO
       226 天前
    要么就是 Google 自己拒绝爬取该网站
    qqqfreeboycn
        13
    qqqfreeboycn  
    OP
       226 天前 via Android
    @mytsing520 是的,203 那些谷翔段爬虫的地址使用频率日渐减少,现在到底还有没有在使用都没法验证,因为谷歌的快照功能都已经关闭了,看不出网页快照是被哪个爬虫爬取的了
    cnrting
        14
    cnrting  
       226 天前 via iPhone
    有没有可能是古歌自己的问题
    qqqfreeboycn
        15
    qqqfreeboycn  
    OP
       226 天前 via Android
    @cnrting 我也在排除可能是哪些问题
    realpg
        16
    realpg  
    PRO
       226 天前
    除非一些特殊涉外的网站

    99%的 gov.cn 网站出于安全考虑屏蔽一切非国内访问

    当然 IP 地址数据的更新有滞后性 同时一些 APNIC 的后分配再分配的 IP 以及一些 APNIC 的碎段有例外
    国内云大厂私下买的一些非内地 IP 在内地广播 为了防止导致无法访问 补充后有时候存在过度补充 会有一些漏网之鱼
    qqqfreeboycn
        17
    qqqfreeboycn  
    OP
       226 天前 via Android
    @realpg 上海人大官方网站 www.shrd.gov.cn 在境外正常访问
    realpg
        18
    realpg  
    PRO
       226 天前
    @qqqfreeboycn #17
    那只能说明上海自认为自己国际化大都市 对中央网信办的规定不执行而已...
    qqqfreeboycn
        19
    qqqfreeboycn  
    OP
       226 天前 via Android
    @realpg 你用 Google 搜索 site:gov.cn 的结果还是有一大把的,而且绝大多数也可以在境外访问,这说明 gov.cn 屏蔽境外访问的情况还是黑名单阶段,而非白名单
    zizon
        20
    zizon  
       226 天前
    境外访问 robots.txt 500.
    索引不到也合理吧
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4899 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 03:56 PVG 11:56 LAX 19:56 JFK 22:56
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86