Github pages 拒绝百度爬虫怎么办? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ihancheng
V2EX    问与答

Github pages 拒绝百度爬虫怎么办?

  • &bsp;
  •   ihancheng 2018-05-28 20:01:08 +08:00 via Android 10780 次点击
    这是一个创建于 2774 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 github pages 做了一个博客,这几天做了 seo 优化,谷歌和必应都已经收录了我的网站,但是百度死活不行。在百度站长平台抓取也总抓去失败(猜测应该是 github 拒绝百度爬虫访问造成的)。

    那么问题来了,怎么才能在百度搜到我的博客呢?

    48 条回复    2020-03-16 07:13:30 +08:00
    yuanfnadi
        1
    yuanfnadi  
       2018-05-28 20:02:19 +08:00 via iPhone
    自己部署
    ihancheng
        2
    ihancheng  
    OP
       2018-05-28 20:06:39 +08:00 via Android
    @yuanfnadi ??
    70nY
        3
    70nY  
       2018-05-28 20:08:26 +08:00
    我是 coding 上再部署一份 然后 DNSpod 设置国内的 IP 走 coding 上的那份
    EricXuu
        4
    EricXuu  
       2018-05-28 20:09:10 +08:00 via Android
    国内部署到 coding.net 或者啥上面,然后域名分开解析。
    Pyjamas
        5
    Pyjamas  
       2018-05-28 20:14:10 +08:00
    没啥办法,我本来也挂在 Github Pages 上,后来就因为这个部署到自己服务器上了,然后才知道百度索引非要备案,最后也没让百度爬,想想算了
    ihancheng
        6
    ihancheng  
    OP
       2018-05-28 20:31:14 +08:00 via Android
    @Pyjamas 百度真的是非常折腾人了… 无力吐槽!!
    ihancheng
        7
    ihancheng  
    OP
       2018-05-28 20:32:25 +08:00 via Android
    @70nY 谢谢!意思是 github 和 coding 上的内容一样?
    ihancheng
        8
    ihancheng  
    OP
       2018-05-28 20:34:06 +08:00 via Android
    @EricXuu 那每次发文,都得更新两次>_< 好累
    WoadZS
        9
    WoadZS  
       2018-05-28 20:35:49 +08:00 via Android
    @ihancheng 如果是 hexo 的话可以直接在配置文件里面写上两个部属地址,直接同步部署了
    oonnnoo
        10
    oonnnoo  
       2018-05-28 20:41:19 +08:00 via Android
    github 把 baidu 禁了,所以在百度是搜不到 github 上的内容了
    Athrob
        11
    Athrob  
       2018-05-28 20:43:58 +08:00 via iPhone
    百度不要也罢
    yksoft1
        12
    yksoft1  
       2018-05-28 20:50:28 +08:00
    还记得当年劫持 hm.baidu.com 的脚本打 github 的“大炮”么?虽然并非百度自己干的,但这样之后 github 肯定对百度不友善了。
    xttttt
        13
    xttttt  
       2018-05-28 21:08:20 +08:00
    我感觉 GitHub 做的非常好 禁止百度没错啊
    EricXuu
        14
    EricXuu  
       2018-05-28 21:31:02 +08:00 via Android
    @ihancheng 9 楼正解。或者 git push 到两个地址即可,并不增加太多工作量
    EricXuu
        15
    EricXuu  
       2018-05-28 21:32:05 +08:00 via Android
    @ihancheng 而且国内访问 github pages 的速度不太理想吧
    wql
        16
    wql  
       2018-05-28 21:34:07 +08:00 via Android   4
    谁叫百度当年脚本被人劫持了……太敏感不多说了。
    70nY
        17
    70nY  
       2018-05-28 22:13:52 +08:00
    @ihancheng 是的我是 HEXO 所以部署起来比较方便写两个地址就可以了
    Lentin
        18
    Lentin  
       2018-05-28 22:16:15 +08:00
    套一层 cloudflare
    Raincal
        19
    Raincal  
       2018-05-28 23:19:36 +08:00
    就算部署在 coding 上 收录速度也特别慢 不知道是不是没备案的缘故
    ihancheng
        20
    ihancheng  
    OP
       2018-05-28 23:41:25 +08:00 via Android
    @WoadZS 谢谢!
    ihancheng
        21
    ihancheng  
    OP
       2018-05-28 23:42:31 +08:00 via Android
    @EricXuu 我觉得速度挺好的啊,没什么延迟,和访问普通网站差不多。
    ihancheng
        22
    ihancheng  
    OP
       2018-05-28 23:43:39 +08:00 via Android
    @Raincal 我只是觉得部署在 coding 太麻烦了,而且据说还有过度广告。
    ihancheng
        23
    ihancheng  
    OP
       2018-05-28 23:44:40 +08:00 via Android
    @Lentin 没用过,有空试试。谢谢你!
    yingos
        24
    yingos  
       2018-05-28 23:57:08 +08:00 via iPhone
    我是套的 cf 不过最近感觉访问速度越来越慢了
    param
        25
    param  
       2018-05-28 23:58:29 +08:00 via Android
    @Pyjamas 百度索引还要备案的?过分了。那不备案的国外网站都怎么办?
    ihancheng
        26
    ihancheng  
    OP
       2018-05-29 00:11:55 +08:00 via Android
    @yingos 负优化?
    Pyjamas
        27
    Pyjamas  
       2018-05-29 00:34:10 +08:00
    @param 一般都备案了吧。。。

    我一进站长平台就会跳一个框:

    > 经检测,您的站点符合百度新站保护要求,请先填写您网站的备案号,填写完成后您可以使用链接提交工具中的“新站保护”提交方式提交数据,百度将对此部分数据的抓取收录提供优待,为期 2 个月;备案信息可在站点属性工具中查看及修改。
    ihancheng
        28
    ihancheng  
    OP
       2018-05-29 00:54:57 +08:00 via Android
    我的域名是 cc 的,不能备案=_= 不能用腾讯的免费 cdn
    param
        29
    param  
       2018-05-29 01:14:28 +08:00 via Android
    @Pyjamas 那是因为网站放在国内才需要备案
    lodisy
        30
    lodisy  
       2018-05-29 03:46:51 +08:00 via Android
    百度不要也罢 国内就开放了搜狗和 bing
    pexcn
        31
    pexcn  
       2018-05-29 04:02:00 +08:00 via iPhone
    挺好的,我还故意把百度蜘蛛屏蔽掉了
    HayesTsai
        32
    HayesTsai  
       2018-05-29 09:07:05 +08:00
    歪个楼,请教下楼主怎么做 seo 优化啊,我也刚在 pages 上搭建了一个个人博客
    love4taylor
        33
    love4taylor  
    PRO
       2018-05-29 09:20:25 +08:00   1
    ihancheng
        34
    ihancheng  
    OP
       2018-05-29 09:28:35 +08:00 via Android
    @pexcn 老哥这波操作 666
    ihancheng
        35
    ihancheng  
    OP
       2018-05-29 09:49:47 +08:00
    @HayesTsai

    你就用搜索引擎搜跟 seo 有关的教程,你要相信你能用搜索引擎搜到的,seo 一定做得不错的,要不然怎么能被搜到呢,哈哈,对吧?(这个逻辑没毛病~)

    这几天我搜过没有 100 个网页也有几十个了。大概就是在站长工具(谷歌、必应、搜狗 ...)提交自己的网站,做 sitemap,百度推送(主动、自动、手动推送),关键字,优化内部链接……

    http://www.dajipai.cc/archives/ec8af0f7.html
    http://hunao.info/2016/06/01/Hexo-Seo%E4%BC%98%E5%8C%96%E8%AE%A9%E4%BD%A0%E7%9A%84%E5%8D%9A%E5%AE%A2%E5%9C%A8google%E6%90%9C%E7%B4%A2%E6%8E%92%E5%90%8D%E7%AC%AC%E4%B8%80/
    http://www.arao.me/2015/hexo-next-theme-optimize-seo/
    yuluofanchen
        37
    yuluofanchen  
       2018-05-29 11:11:34 +08:00
    是二级域名吗?

    https://xxx.github.io/

    把你的域名 添加到百度站长平台,然后把页面改造成 MIP 加速,发点外链。一个月内能收录。
    ihancheng
        38
    ihancheng  
    OP
       2018-05-29 11:49:32 +08:00 via Android
    @yuluofanchen 我买的 cc 域名,cname 解析到 github.io
    yuluofanchen
        39
    yuluofanchen  
       2018-05-29 12:03:42 +08:00
    @ihancheng 一样整,到百度站长平台添加这个网站,然后点 [抓取诊断] ,可能抓 10 次有 1 次成功。不管了。多成功几次,移动和 PC 端多抓取几次诊断。网站首页是 MIP 页面,然后整点外链。一个月内还是可以收录的。

    不过这样子太慢,还是撸个服务器整上吧。
    ihancheng
        40
    ihancheng  
    OP
       2018-05-29 13:37:04 +08:00 via Android
    @yuluofanchen 准备部署 coding
    Trumeet
        41
    Trumeet  
       2018-05-29 14:02:49 +08:00 via Android
    GitHub 禁百度。建议还是别管百度了(
    chuhemiao
        42
    chuhemiao  
       2018-05-29 14:40:47 +08:00
    github coding 双部署。
    nG29DOMuRYTWfcSr
        43
    nG29DOMuRYTWfcSr  
       2018-05-29 15:43:49 +08:00 via Android
    我看了楼上所有的回答,其实很多回答是不正确的,GitHub 并没有禁用百度的索引。我是 spacevim 这个项目的维护者,你可以在百度搜 site:spacevim.org

    其实关于网站的 seo 真心没必要折腾,如果你的质量写得好,有十个人替你转发一次,比得上百度上被搜到上百次。
    ihancheng
        44
    ihancheng  
    OP
       2018-05-29 19:16:12 +08:00   1
    coding 部署后,在百度站长工具成功抓取网页后,前 200K 部分内容:( coding 真的好讨厌……)

    // var DATA = [
    // {
    // title: '岂能尽如人意,但求无愧于心',
    // detail: '“服务”才是外包最大的竞争力。',
    // },
    // {
    // title: '客户重要还是项目重要?',
    // detail: '谁给钱谁重要。',
    // },
    // {
    // title: '外包尾款迟迟收不回来,哥儿几个的工资哪儿找?',
    // detail: '托管在码市上的钱跑不掉。',
    // },
    // {
    // title: '不靠谱的外包可以做到让你心理崩塌。',
    // detail: '理性分析,远离傻逼。',
    // },
    // {
    // title: '程序员靠什么挣钱?',
    // detail: '靠面对需求时的好脾气。'
    // },
    // {
    // title: '你写过最漂亮的代码值多少钱?',
    // detail: '需求方说了算。',
    Foolt
        45
    Foolt  
       2018-05-29 20:55:50 +08:00   1
    github 没有禁百度,百度也没有禁 github,你用 site 命令搜索一下就就知道了。

    百度收录不同谷歌和必应,百度收录比较慢,做多几个外链吧,比如说把文章转载到 CSDN 博客留下外链。
    songxin
        46
    songxin  
       2018-06-22 11:05:36 +08:00
    使用 Nginx 反向代理,伪造百度爬虫的 user agent 就行了。具体可以看
    [Github Pages 百度索引收录工具]( https://3gods.com/baiduindex.html)
    ihancheng
        47
    ihancheng  
    OP
       2018-06-22 12:23:35 +08:00 via Android
    @songxin 很不错哦!感谢作者!
    JennyWoW
        48
    JennyWoW  
       2020-03-16 07:13:30 +08:00
    CDN 基本是不管用的,Nginx 反向代理确实可以,如果没有服务器,看到有人提到 zeit.co ,百度收录很快 https://zpjiang.me/2020/01/15/let-baidu-index-github-page/
    /div> 关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2449 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 14:11 PVG 22:11 LAX 06:11 JFK 09:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86