网页内容如何不被百度收录 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zzlettle
V2EX    问与答

网页内容如何不被百度收录

  •  
  •   zzlettle 2016-12-08 14:43:14 +08:00 3216 次点击
    这是一个创建于 3260 天前的主题,其中的信息可能已经有所发展或是发生改变。
    因为我想做一个论坛,里面的内容可能包含一些时事新闻,当然这些新闻不会是不靠谱内容。但现在我就是不知道哪些会被无缘无故的被当作-铭-感-辞-,从而导致网站被 Qiang.为了能够放心的做内容
    所以我想可能最好的办法是把页面的内容,不要被百度搜录,或者不要被搜索到里面的内容。反正我也知道一般的小网站不可能被百度排名靠前,不寄希望百度来引流量。我打算通过小圈子,口碑慢慢扩散。或者谷歌来的流量。
    好像用前端框架 js 渲染出来的内容,不会被搜索到页面的真正内容。
    我打算对不同的 ip 页面显示做不同的处理。国外的访问,特别是对谷歌我就正常的现实。就是 html 的。如果是国内的,就用 js 来渲染,其实如果是正常用浏览器打开看内容都是一样的。目的是,这样国内的搜索就不会看到页面真正的内容,而是一堆 js 代码。
    不知道这个想法是否合理。有什么技术来实现这个想法。
    28 条回复    2016-12-19 20:57:48 +08:00
    v9ox
        1
    v9ox  
       2016-12-08 14:44:13 +08:00
    论坛搞成登陆之后可见的 百度没有账号 就没法爬了吧
    zzlettle
        2
    zzlettle  
    OP
       2016-12-08 14:49:20 +08:00
    @v9ox 登录以后才能看到真正的内容,对用户体验不好啊。我希望就像 V2EX 一样,是个人打开页面就能看到内容了。但对于百度,他们来爬的话,我希望用一些技术手段,让他们看不到内容,而只是看到 js 代码。
    qiayue
        3
    qiayue  
    PRO
       2016-12-08 14:51:42 +08:00
    1 、 robots.txt
    2 、<meta name="robots" cOntent="robotterms" />
    yankebupt
        4
    yankebupt  
       2016-12-08 14:55:13 +08:00 via Android
    国内有的拿用户浏览器协助爬防不住,建议技术手段强制用户用 chrome 或支持 inprivate 的浏览器隐私模式访问 https ,防止被爬。
    v9ox
        5
    v9ox  
       2016-12-08 14:56:01 +08:00
    @zzlettle 要是百度耍流氓模拟人工访问你怎么办...
    zzlettle
        6
    zzlettle  
    OP
       2016-12-08 15:17:35 +08:00
    @yankebupt
    @v9ox 我说的意思不是真正的不让人打开网站。因为我网站不是要做什么反动内容。只不过有些内容有些不好定义。你只要是人工打开网页,就能看到。但我们伟大的 wfg 他不可能用人工去查看每个网站内容吧,肯定是用机器里来搜查,这样就会把我页面的内容搜出来。然后可能就被 Qing 了。我主要是防止这样的事情发生。
    ys0290
        7
    ys0290  
       2016-12-08 15:22:35 +08:00 via iPhone
    楼主 too naive
    mcfog
        8
    mcfog  
       2016-12-08 15:23:30 +08:00
    你觉得墙是用百度来找有问题的网站的么?
    choury
        9
    choury  
       2016-12-08 15:24:43 +08:00
    @zzlettle 这个名单还真是大部分是人工加的
    v9ox
        10
    v9ox  
       2016-12-08 15:25:17 +08:00
    @zzlettle 我的意思就是百度的爬虫如果让你识别不出是不是爬虫 你怎么办...
    qiayue
        11
    qiayue  
    PRO
       2016-12-08 15:26:13 +08:00
    楼主你真是牛逼,能让百度专门为你修改爬虫代码
    wxm
        12
    wxm  
       2016-12-08 16:56:42 +08:00
    @qiayue 哈哈哈哈
    J0022ZjV7055oN64
        13
    J0022ZjV7055oN64  
       2016-12-08 17:03:53 +08:00 via Android
    (:3_)_不是可以 robots 禁止爬虫吗 虽然百度不一定遵守 好像可以通过 nginx 设置(参见 ss 站禁止爬虫)
    zzlettle
        14
    zzlettle  
    OP
       2016-12-08 17:27:18 +08:00
    @choury 有故事的人啊!
    @qiayue 我的意是,最好不要想普通的 html 直接把内容显示出来的网站那样

    我在这里就想问下,有什么办法来实现我的目的
    Lonely
        15
    Lonely  
       2016-12-08 17:30:53 +08:00 via iPhone
    找百度合作
    sneezry
        16
    sneezry  
       2016-12-08 17:31:38 +08:00
    zxgngl
        17
    zxgngl  
       2016-12-08 17:32:05 +08:00
    @zzlettle 本站现在不登陆的情况下,好像只能看个首页。
    ferrum
        18
    ferrum  
       2016-12-08 17:40:32 +08:00
    首先在根目录下添加个 robots.txt ,把百度的爬虫禁了先。别管人家遵不遵守,万一人家确实是按规矩办事呢?

    然后采用前后端分离的方式开发你的网站,即内容通过 Ajax 获取,而不是直接返回 HTML 。百度爬虫现在还爬不了 JS 生成的内容。
    hundan
        19
    hundan  
       2016-12-08 17:43:16 +08:00 via Android
    然而,被墙不只是因为百度啊,怕被墙可以用国外 CDN ,如果觉得速度有影响,可以再用国内 CDN 解析到国外 CDN
    wenzichel
        20
    wenzichel  
       2016-12-08 17:45:22 +08:00
    网页中的内容用 ajax 获取,或者先把内容写到 js 里,然后再用 js 填充到页面上
    Hanxv
        21
    Hanxv  
       2016-12-08 17:54:59 +08:00
    http://hanxv.pw/robots.txt

    https://www.baidu.com/s?wd=site:hanxv.pw

    怎做,都是爬的。 robots 屏蔽了不, pw 被玩成什了它居然爬。

    不我的使用基本上是搜索不到的了。
    ( 就算不用 robots , pw 的重 www
    wenymedia
        22
    wenymedia  
       2016-12-08 19:04:57 +08:00 via Android
    数据客户端渲染 不要服务端渲染 不就好了
    Hello1995
        23
    Hello1995  
       2016-12-08 19:33:16 +08:00 via iPhone
    屏蔽 UA ,特别注意包含 Spider 、 Bot 两个字眼的。针对百度就是 Baiduspider (注意设置不区分大小写),你可以把 UA 带有这个字眼的访问 301 回百度首页。
    techmoe
        25
    techmoe  
       2016-12-08 19:46:26 +08:00 via Android
    同意 16 楼做法,直接在 dns 里把百度 ip 段甩 127
    badcode
        26
    badcode  
       2016-12-09 03:27:26 +08:00
    <meta name="robots" cOntent="noarchive" />
    <meta http-equiv="Cache-Control" cOntent="no-transform" />
    <meta http-equiv="Cache-Control" cOntent="no-siteapp" />
    <meta name="robots" cOntent="index,nofollow" />

    robots 加屏蔽 UA, spider, Bot ,返 403 ,

    还好,故意开始测试过一段时间,
    关键字首页前三,现在好像都找不到了?
    看日志,其实还是每天都在爬!爬虫都能自己"改" UA
    yankebupt
        27
    yankebupt  
       2016-12-19 20:32:10 +08:00 via Android
    不好意思翻老贴了,因为想到一个很贱的方法,就是刻意用隐藏文字 spam 热门关键字,(真正的关键字反而做反爬脚本处理),让搜索引擎的爬虫把你误判成一个恶意 seo 的垃圾网站,有可能排名就靠后了。当然防不了真人工就是了
    zzlettle
        28
    zzlettle  
    OP
       2016-12-19 20:57:48 +08:00
    @yankebupt 这个方法搞的好像更复杂了,感觉。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     948 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:24 PVG 06:24 LAX 14:24 JFK 17:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86