这里有 SAE 的童鞋吗?网站被各家搜索引擎给轮 X 了,怎么破? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
abelyao
V2EX    问与答

这里有 SAE 的童鞋吗?网站被各家搜索引擎给轮 X 了,怎么破?

  •  1
     
  •   abelyao 2014-10-09 10:19:08 +08:00 4014 次点击
    这是一个创建于 4024 天前的主题,其中的信息可能已经有所发展或是发生改变。
    估计这个域名以前是有网站的,
    现在我绑定到 SAE 上面,
    百度 / Google / Bing 等几个搜索引擎的蜘蛛,每天访问几百次特定页面,
    消耗了我很多云豆,
    有什么办法可以屏蔽吗?

    21 条回复    2014-10-09 20:23:54 +08:00
    LemonZest
        1
    LemonZest  
       2014-10-09 10:23:20 +08:00
    robots.txt
    abelyao
        2
    abelyao  
    OP
       2014-10-09 10:26:36 +08:00
    @sunshower 就访问记录来看,只有 bing 偶尔才访问一次 robots.txt
    dong3580
        3
    dong3580  
       2014-10-09 10:50:09 +08:00
    @sunshower
    更新robots.txt基本不起作用,试过整整两个月之后,世界才清净了。
    试了试写邮件反馈,也是没用的。
    唯一的方法不知道是不是暂时屏蔽他们的ip.
    loading
        4
    loading  
       2014-10-09 10:53:57 +08:00
    你这个url有东西吗?返回403
    kenjey01
        5
    kenjey01  
       2014-10-09 10:56:33 +08:00
    每天几百次 会消耗很多云豆吗? 404基本没有多少流量消耗
    abelyao
        6
    abelyao  
    OP
       2014-10-09 11:03:52 +08:00
    @dong3580 他们的 IP 太多了,哎!
    abelyao
        7
    abelyao  
    OP
       2014-10-09 11:04:29 +08:00
    @loading 没有对应的 url,返回 403 可以让搜索引擎歇一歇吗?
    abelyao
        8
    abelyao  
    OP
       2014-10-09 11:05:16 +08:00
    @kenjey01 云豆目前来说是足够的,但是占了几百页日志,严重影响我分析网站的一些情况…
    ab
        9
    ab  
       2014-10-09 11:08:42 +08:00
    没有这个问题...
    mornlight
        10
    mornlight  
       2014-10-09 11:14:25 +08:00
    robots.txt 肯定会有用的,但是搜素引擎会缓存robots的内容,你更新后很久他们才跟着更新。
    另外,如果针对百度的话可以到百度站长平台里试一试,能调节Spider频率
    abelyao
        11
    abelyao  
    OP
       2014-10-09 11:30:02 +08:00
    @mornlight 暂时先添加 robots.txt 了
    typcn
        12
    typcn  
       2014-10-09 12:03:09 +08:00
    @abelyao 为毛要用日志分析..... 用第三方分析就完了,正好还能过滤不支持 js 的 bot,话说我以前也是用的sae bae 后来感觉性能太渣就开始用 vps 了
    Execution
        13
    Execution  
       2014-10-09 12:12:34 +08:00
    花时间去整这些什么e的时间,够撸主上几个性价比vps了,撸的还带劲。
    dong3580
        14
    dong3580  
       2014-10-09 13:13:38 +08:00
    @abelyao
    我想了想一个解决方法,前提如果你的代码使用MVC方式写的,可以在路由中加入全局代码,404的话跳转到某个静态页面。
    截一段我的代码给你参考。
    ```C#
    protected void Application_Error(object s, EventArgs e)
    {
    Exception ex = Server.GetLastError();
    if (ex.GetType().Name == "HttpException")
    {
    HttpException exception = (HttpException)ex;
    if (exception.GetHttpCode() == 404)
    {
    Response.StatusCode = 404;
    Response.Redirect("/Home/Error?code=PageNotExist");
    }
    }
    Server.ClearError();
    }
    ```

    如果使用了IIS部署的,直接可以在iis设置里面加上404的跳转地方,这样就不会销耗什么流量了。
    (猜想其他部署的方式也可以实现吧)
    knightluffy
        15
    knightluffy  
       2014-10-09 13:24:24 +08:00
    用https吧。。估计只有Google的蜘蛛能进了。。
    zts1993
        16
    zts1993  
       2014-10-09 15:43:45 +08:00
    SAE防火墙啊。。。
    我也被艹过。。。好惨的说。、
    mornlight
        17
    mornlight  
       2014-10-09 16:11:10 +08:00
    @knightluffy SAE 的自定义域名能使用https?我前几天还在微博上跟SAE的架构负责人吐槽过
    abelyao
        18
    abelyao  
    OP
       2014-10-09 18:14:23 +08:00
    @zts1993 防火墙研究了半天,不懂如何屏蔽搜索引擎啊,请指点一下!
    sandideas
        19
    sandideas  
       2014-10-09 19:18:33 +08:00 via Android
    @abelyao 把所有爬虫ip拉黑名单
    zts1993
        20
    zts1993  
       2014-10-09 20:23:32 +08:00
    @abelyao 屏蔽p
    zts1993
        21
    zts1993  
       2014-10-09 20:23:54 +08:00
    屏蔽ip段
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2615 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 15:32 PVG 23:32 LAX 08:32 JFK 11:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86