
我的网站原本是用的国外的服务器搭的,因为经常被 GFWED 以及速度慢,前不久迁到了国内的服务器。
而由于域名没有备案,也不能备案( org 域名)只能用 HTTPS 绕开审查,再配合 HSTS,只要让用户访问一次 https 链接就行了。
一开始好好的,百度收录正常,排名也在第一页,我就没多留意。过了段时间,有人突然跟我说百度搜不到我的网站了,我去查了一下,还真搜不到了。
再用 site: 参数搜索,发现快照内容居然变成了机房的无备案阻断页,也就是说百度居然爬到 HTTP 上去了。。

从这里我就感觉百度对于纯 HTTPS 站点很不友好啊,人家谷歌都是大力推广 HTTPS,即使 HTTP 不能访问也一样能收录,还会优先爬取 HTTPS 站点,甚至特殊端口都能爬上去。

最后没办法,只能加了个 CloudFlare CDN 做跳转。。
然而我辛辛苦苦做的 SEO 又付之一炬了,现在百度搜索相关的关键字基本上都排到很后面去了,权重也掉了。
所以建议各位,如果在意百度的排名,没备案不要用国内服务器建站……
1 edsheeran 2019-01-23 01:37:32 +08:00 via iPhone 在 v 站只有 google 这一个搜索引擎 |
2 580a388da131 2019-01-23 01:40:25 +08:00 via iPhone 很好奇你为啥要开着 80 |
3 KasuganoSoras OP @580a388da131 我 80 没开,是机房自带的阻断页,只要访问了 80 都会提示未备案 |
4 Trumeet 2019-01-23 01:45:24 +08:00 via Android 很好奇为啥要用百度( |
5 KasuganoSoras OP @Trumeet 因为网站主要还是面向一些没钱却想开 Minecraft 服务的中小学生,而他们一般都不会用 Google 或者说根本不知道 Google。 |
6 Trumeet 2019-01-23 04:15:54 +08:00 via Android @KasuganoSoras 很好奇是什么类型网站 |
7 phy25 2019-01-23 06:45:41 +08:00 via Android 您这不叫纯 HTTPS 网站,百度这策略叫 HTTP 优先。 |
8 lhx2008 2019-01-23 07:57:07 +08:00 via Android 可能百度的蜘蛛没有内置 HSTS,但是我不知道楼主如何得出 HTTPS 不友好的结论,因为 HTTP 都没做跳转,如果浏览器没有 HSTS 或者 HSTS 还没更新,显示测试页应该是意料之中。 |
9 Vegetable 2019-01-23 08:08:59 +08:00 via iPhone @lhx2008 这个页面这机房的。开了跳转也没用,请求根本到不了服务器,直接就被拦掉了。我不清楚关掉 80 能不能解决 |
11 nlysh007 2019-01-23 08:21:41 +08:00 百度站长后台有 https 认证,认证完,搜索显示的都是 https... |
12 MonoLogueChi 2019-01-23 08:23:08 +08:00 via Android 不会这样啊,我的都很正常,另外,你这个可以叫纯 https 站吗,http 跳 https 都没有 |
13 VYSE 2019-01-23 08:30:33 +08:00 via Android 额,LZ 这个 HSTS 有问题啊,http 仍然返回机房页,其实不含 HSTS 头,也没跳转,所以无论在哪首次登陆,如果不显式走 https,而是默认 http,HSTS 下发一定不成功。 说白了 HSTS 是没法保证首登必须走 https,只保证首登选择了 http 后下次走 https,并且得客户端符合标准。 也就是说首次爬取目标地址是 http 的话就 GG 了,目测百度爬虫并没有分布式共享 HSTS 的能力,也不太可能强求,毕竟两次爬取极有可能是两个爬虫实例。 |
14 botian 2019-01-23 08:52:00 +08:00 我的博客自从加上 https 后就没有被收录过 |
15 bgm004 2019-01-23 09:03:21 +08:00 via Android 我的博客 https 正常啊。http 会 301 到 https |
16 momocraft 2019-01-23 09:46:23 +08:00 如果 http 重定向到 https 并带 HSTS 会不会好点 我怀疑有的潜在访问者也试过 http |
17 chinvo 2019-01-23 09:49:18 +08:00 你的 http 访问没有重定向到 https,在用户访问 http 的情况下 hsts 不生效的 而且你的 https 还不是标准端口,权值就更低了 |
18 privil 2019-01-23 10:04:20 +08:00 你这样的站点,其实就是游走在边缘试探,分分钟机房就关你机器访问了,国内不备案也是心大 |
19 alvin666 2019-01-23 10:06:57 +08:00 via Android 国内域名不备案分分钟被关啊 |
20 KasuganoSoras OP |
21 VYSE 2019-01-23 17:48:40 +08:00 @KasuganoSoras #20 我觉得这里面可能 Google 做的好的是, 假设两个 URL 除了 protocol 不同, 会合并优先只显示 https 索引内容, 但是假设有人显式提交 URL, 比如 http://www.natfrp.org/xxx, 极有可能还会有一个备案页索引在那 |
22 KasuganoSoras OP @VYSE #21 其实和机房也有关系,如果备案阻断页返回个 404 或者其他非 200 的状态,百度也不会把阻断页收录进去,但是它现在返回的是 200,所以百度就把它当成普通网页收录了。 我现在换了 CloudFlare 了,花了几十块钱的万网云解析企业版白买了,还不给退款 |
23 nicoljiang PRO @580a388da131 典型一知半解还喜欢说 |
24 mostkia 2019-03-20 10:32:22 +08:00 的确似乎是这样子的,我以前专门做过测试,通过查看过服务器日志和会话文件。在开通 https 但 80 端口不通时,完全没有爬虫进来,sess 会话文件根本没有出现过爬虫的记录文件(我的站点,访客进入即激活一个后台回话程序)。但如果同时开通了 80 和 443 时,一段时间内就有十几个蜘蛛会话文件产生(文件大小能够看出来,普通访客进入会加载 js 代码,sess 会话会大一些)。这样的测试进行过好几次,,结果都是这样子的,排除了小概率的情况,基本得出结论,百度目前暂时还不收入纯 https 网页。 |