被 Google 爬虫攻击了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zeacev
V2EX    Google

被 Google 爬虫攻击了

  •  
  •   zeacev 2015-12-07 09:46:48 +08:00 6081 次点击
    这是一个创建于 3680 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搬瓦工的一个乞丐版 VPS ,每个月 200G 流量一直够用的,自从上个月 IP 被 X 换了个机房之后,流出流量一直居高不下,想着每秒 1MB 多一点就算了, 200G 让它去爬,反正我也用不了。没想到昨晚想 Google 找点东西,等了好久都上不去,本地 ping 一下无响应,第一反映不是又被 X 了吧?换个墙外的 IP 再次 ping 了下,还是没反应。登录 VPS 控制面板看了下,超流量被挂起。

    看了下挂起之前最后的流量记录,已经超过 2M 每秒, 200G 已经用到了 200.16G , Google 这东西每天都要用,不能没有,于是想着是换一个 VPS 还是升级套餐,看了网上各家 vps ,最后决定还是升级 VPS 套餐靠谱,补足了剩下几个月的费用之后升级到了 300G 的套餐。

    恢复之后第一件事就是把那个该死的 Google Bot IP 给 deny 了!

    这是在 Nginx 上 deny 之前的截图:
    Google-bot

    deny 之后的截图:
    deny-google-bot

    话说, Google 这爬虫怎么比灵丹妙药还见效,我刚 deny 了一个,一下子又来了 3 只!

    我就一小小的博客,上面 10 篇文章不到, robots.txt 这么写的:

    User-agent: *
    Allow: /p/
    Disallow: /

    他没事爬这么勤快干嘛,它 Google 流量不用钱,我烧不起啊。

    我这小博客就靠 Google 导流量,把它完全 deny 我又舍不得。

    怎么处理它更好?

    第 1 条附言    2015-12-07 11:39:52 +08:00

    找到原因了,反代的 Google 被 Google 抓取了,反代的那个域名 nginx 配置文件加了这一行解决了:

    if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)){ return 403; }

    15 条回复    2015-12-07 15:57:30 +08:00
    des
        1
    des  
       2015-12-07 09:53:55 +08:00   1
    爬这么勤有可能是被攻击了
    KyleMeow
        2
    KyleMeow  
       2015-12-07 09:55:48 +08:00   1
    设置 crawl-delay ,减少抓取频率
    47jm9ozp
        3
    47jm9ozp  
       2015-12-07 09:57:07 +08:00   1
    TX RX 一样多,你是不是开了 google 反向代理然后被人滥用了?
    47jm9ozp
        4
    47jm9ozp  
       2015-12-07 09:58:14 +08:00   1
    @ooxxcc 似乎是反向代理了 google 然后被 google 的爬虫爬了?
    KyleMeow
        5
    KyleMeow  
       2015-12-07 10:01:05 +08:00   1
    Google 似乎有些不同,不遵循 crawl-delay ,但是抓取速度可以在 Search Console 设置。参见 https://support.google.com/webmasters/answer/48620?hl=zh-Hans
    KyleMeow
        6
    KyleMeow  
       2015-12-07 10:06:35 +08:00   1
    另外 GoogleBot 的 IP 段非常非常多,不要采用阻止某个 IP 的方法来减少抓取。
    zeacev
        7
    zeacev  
    OP
       2015-12-07 10:44:58 +08:00
    @ooxxcc 看你这么一说,难道是这个原因?反代了个 Google 自己在方便 X 强的时候用,从没公开过
    47jm9ozp
        8
    47jm9ozp  
       2015-12-07 10:58:16 +08:00   1
    @zeacev 看 iftop 显示很像 google 爬虫在爬反代的内容……试试给反代加个 robots.txt 或者限制大陆地区使用?
    zeacev
        9
    zeacev  
    OP
       2015-12-07 11:11:36 +08:00
    @ooxxcc 非常感谢,就是这个原因。

    我把那个反代的域名给停了,流量马上就下来了
    feather12315
        10
    feather12315  
       2015-12-07 11:36:46 +08:00 via Android   1
    @zeacev 试试填写 robots … txt, 禁止爬反代内容
    zeacev
        11
    zeacev  
    OP
       2015-12-07 11:41:37 +08:00
    @des
    @KyleMeow
    @ooxxcc
    @feather12315

    解决了,反代的那个域名 nginx 增加一行配置就行了
    zeacev
        12
    zeacev  
    OP
       2015-12-07 11:44:10 +08:00
    @feather12315 加 robots.txt 见效慢,这个月只剩 100G 流量了,等他 robots.txt 生效我怕我这剩下的流量不够他爬的,直接返回 403 省事
    66CCFF
        13
    66CCFF  
       2015-12-07 13:32:07 +08:00 via iPhone
    我之前一个自用的静态内容也被 Google 爬了一次, 500Mbps 的速度爬了一个多小时,吓得我还以为被 D 了。
    加 robots.txt 确实需要一段时间才会生效。
    feather12315
        14
    feather12315  
       2015-12-07 14:17:34 +08:00 via Android
    @66CCFF
    @zeacev 长见识了。想想当初真是明智,稀里糊涂的在配置反代的时候就加了 403
    Eleutherios
        15
    Eleutherios  
       2015-12-07 15:57:30 +08:00
    @zeacev 你要是不公开反代,不如加一个密码。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2336 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 04:53 PVG 12:53 LAX 20:53 JFK 23:53
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86