百度对于纯 HTTPS 站点非常不友好 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KasuganoSoras
V2EX    站长

百度对于纯 HTTPS 站点非常不友好

  •  
  •   KasuganoSoras 2019-01-23 01:03:05 +08:00 1992 次点击
    这是一个创建于 2528 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我的网站原本是用的国外的服务器搭的,因为经常被 GFWED 以及速度慢,前不久迁到了国内的服务器。

    而由于域名没有备案,也不能备案( org 域名)只能用 HTTPS 绕开审查,再配合 HSTS,只要让用户访问一次 https 链接就行了。

    一开始好好的,百度收录正常,排名也在第一页,我就没多留意。过了段时间,有人突然跟我说百度搜不到我的网站了,我去查了一下,还真搜不到了。

    再用 site: 参数搜索,发现快照内容居然变成了机房的无备案阻断页,也就是说百度居然爬到 HTTP 上去了。。

    img

    从这里我就感觉百度对于纯 HTTPS 站点很不友好啊,人家谷歌都是大力推广 HTTPS,即使 HTTP 不能访问也一样能收录,还会优先爬取 HTTPS 站点,甚至特殊端口都能爬上去。

    img

    最后没办法,只能加了个 CloudFlare CDN 做跳转。。

    然而我辛辛苦苦做的 SEO 又付之一炬了,现在百度搜索相关的关键字基本上都排到很后面去了,权重也掉了。

    所以建议各位,如果在意百度的排名,没备案不要用国内服务器建站……

    24 条回复    2019-03-20 10:32:22 +08:00
    edsheeran
        1
    edsheeran  
       2019-01-23 01:37:32 +08:00 via iPhone   1
    在 v 站只有 google 这一个搜索引擎
    580a388da131
        2
    580a388da131  
       2019-01-23 01:40:25 +08:00 via iPhone
    很好奇你为啥要开着 80
    KasuganoSoras
        3
    KasuganoSoras  
    OP
       2019-01-23 01:41:35 +08:00   1
    @580a388da131 我 80 没开,是机房自带的阻断页,只要访问了 80 都会提示未备案
    Trumeet
        4
    Trumeet  
       2019-01-23 01:45:24 +08:00 via Android
    很好奇为啥要用百度(
    KasuganoSoras
        5
    KasuganoSoras  
    OP
       2019-01-23 01:46:53 +08:00
    @Trumeet 因为网站主要还是面向一些没钱却想开 Minecraft 服务的中小学生,而他们一般都不会用 Google 或者说根本不知道 Google。
    Trumeet
        6
    Trumeet  
       2019-01-23 04:15:54 +08:00 via Android
    @KasuganoSoras 很好奇是什么类型网站
    phy25
        7
    phy25  
       2019-01-23 06:45:41 +08:00 via Android
    您这不叫纯 HTTPS 网站,百度这策略叫 HTTP 优先。
    lhx2008
        8
    lhx2008  
       2019-01-23 07:57:07 +08:00 via Android
    可能百度的蜘蛛没有内置 HSTS,但是我不知道楼主如何得出 HTTPS 不友好的结论,因为 HTTP 都没做跳转,如果浏览器没有 HSTS 或者 HSTS 还没更新,显示测试页应该是意料之中。
    Vegetable
        9
    Vegetable  
       2019-01-23 08:08:59 +08:00 via iPhone
    @lhx2008 这个页面这机房的。开了跳转也没用,请求根本到不了服务器,直接就被拦掉了。我不清楚关掉 80 能不能解决
    ZE3kr
        10
    ZE3kr  
       2019-01-23 08:10:36 +08:00 via iPhone
    @Vegetable 关掉 80 端口后就没有这个页面,访问 80 端口是超时错误
    nlysh007
        11
    nlysh007  
       2019-01-23 08:21:41 +08:00
    百度站长后台有 https 认证,认证完,搜索显示的都是 https...
    MonoLogueChi
        12
    MonoLogueChi  
       2019-01-23 08:23:08 +08:00 via Android
    不会这样啊,我的都很正常,另外,你这个可以叫纯 https 站吗,http 跳 https 都没有
    VYSE
        13
    VYSE  
       2019-01-23 08:30:33 +08:00 via Android   1
    额,LZ 这个 HSTS 有问题啊,http 仍然返回机房页,其实不含 HSTS 头,也没跳转,所以无论在哪首次登陆,如果不显式走 https,而是默认 http,HSTS 下发一定不成功。
    说白了 HSTS 是没法保证首登必须走 https,只保证首登选择了 http 后下次走 https,并且得客户端符合标准。
    也就是说首次爬取目标地址是 http 的话就 GG 了,目测百度爬虫并没有分布式共享 HSTS 的能力,也不太可能强求,毕竟两次爬取极有可能是两个爬虫实例。
    botian
        14
    botian  
       2019-01-23 08:52:00 +08:00
    我的博客自从加上 https 后就没有被收录过
    bgm004
        15
    bgm004  
       2019-01-23 09:03:21 +08:00 via Android
    我的博客 https 正常啊。http 会 301 到 https
    momocraft
        16
    momocraft  
       2019-01-23 09:46:23 +08:00
    如果 http 重定向到 https 并带 HSTS 会不会好点

    我怀疑有的潜在访问者也试过 http
    chinvo
        17
    chinvo  
       2019-01-23 09:49:18 +08:00
    你的 http 访问没有重定向到 https,在用户访问 http 的情况下 hsts 不生效的

    而且你的 https 还不是标准端口,权值就更低了
    privil
        18
    privil  
       2019-01-23 10:04:20 +08:00
    你这样的站点,其实就是游走在边缘试探,分分钟机房就关你机器访问了,国内不备案也是心大
    alvin666
        19
    alvin666  
       2019-01-23 10:06:57 +08:00 via Android
    国内域名不备案分分钟被关啊
    KasuganoSoras
        20
    KasuganoSoras  
    OP
       2019-01-23 17:37:07 +08:00 via iPhone
    @VYSE 对的,我的意思就是,百度像 Google,Google 是优先爬 https 页面,而百度是优先爬 http。
    @chinvo 网站的端口是 443,4443 那个是我的软件的 API 请求地址,不知道为啥也给谷歌收录了

    另外我看到好像有国内的免备案 301 跳转服务器,不知道靠谱不
    VYSE
        21
    VYSE  
       2019-01-23 17:48:40 +08:00
    @KasuganoSoras #20 我觉得这里面可能 Google 做的好的是, 假设两个 URL 除了 protocol 不同, 会合并优先只显示 https 索引内容, 但是假设有人显式提交 URL, 比如 http://www.natfrp.org/xxx, 极有可能还会有一个备案页索引在那
    KasuganoSoras
        22
    KasuganoSoras  
    OP
       2019-01-23 17:51:53 +08:00
    @VYSE #21 其实和机房也有关系,如果备案阻断页返回个 404 或者其他非 200 的状态,百度也不会把阻断页收录进去,但是它现在返回的是 200,所以百度就把它当成普通网页收录了。
    我现在换了 CloudFlare 了,花了几十块钱的万网云解析企业版白买了,还不给退款
    nicoljiang
        23
    nicoljiang  
    PRO
       2019-01-28 22:56:17 +08:00
    @580a388da131 典型一知半解还喜欢说
    mostkia
        24
    mostkia  
       2019-03-20 10:32:22 +08:00
    的确似乎是这样子的,我以前专门做过测试,通过查看过服务器日志和会话文件。在开通 https 但 80 端口不通时,完全没有爬虫进来,sess 会话文件根本没有出现过爬虫的记录文件(我的站点,访客进入即激活一个后台回话程序)。但如果同时开通了 80 和 443 时,一段时间内就有十几个蜘蛛会话文件产生(文件大小能够看出来,普通访客进入会加载 js 代码,sess 会话会大一些)。这样的测试进行过好几次,,结果都是这样子的,排除了小概率的情况,基本得出结论,百度目前暂时还不收入纯 https 网页。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4573 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 41ms UTC 01:06 PVG 09:06 LAX 17:06 JFK 20:06
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86