谁知道类似"Mozilla/3 (X8 Windows) AppleWebKit.... " 这样的 user agent 是怎么回事? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
seerhut
V2EX    问与答

谁知道类似"Mozilla/3 (X8 Windows) AppleWebKit.... " 这样的 user agent 是怎么回事?

  •  
  •   seerhut 2016-06-03 10:12:04 +08:00 2467 次点击
    这是一个创建于 3424 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天发现访问日志中大量的此类 user agent , IP 还很分散,全国各地都有。这是什么新的浏览器么?还是分布式爬虫?

    "Mozilla/3 (X13 Windows) AppleWebKit/513.17 (KHTML, like Gecko) Chrome/ Safari/513.17"
    "Mozilla/3 (X8 Windows) AppleWebKit/551.44 (KHTML, like Gecko) Chrome/ Safari/551.44"
    "Mozilla/4 (X6 Windows) AppleWebKit/541.47 (KHTML, like Gecko) Chrome/ Safari/541.47"
    "Mozilla/5 (X13 Windows) AppleWebKit/520.66 (KHTML, like Gecko) Chrome/ Safari/520.66"
    4 条回复    2016-06-03 12:05:02 +08:00
    fcicq
        1
    fcicq  
       2016-06-03 10:31:08 +08:00   1
    这必然是坏爬虫无疑... 现代浏览器大多 Mozilla/5.0 开头. AppleWebKit 大多数后面跟的 537.36. Chrome/ 后面没版本号. 槽点也太多了.
    notgod
        2
    notgod  
       2016-06-03 10:51:19 +08:00
    自定义的 ua
    不过这个定义的有些傻
    seerhut
        3
    seerhut  
    OP
       2016-06-03 11:10:51 +08:00
    @fcicq
    @notgod
    关键是已经出现了数百个使用此 user agent 的 IP ,但访问的接口没有任何可爬取的内容,请求也没有恶意内容。。。。

    我开始怀疑是某些分布式监控系统出现了异常,把我们的地址加入监控了
    notgod
        4
    notgod  
       2016-06-03 12:05:02 +08:00
    @seerhut

    PS : 爬虫不会识别是不是有可爬取的内容

    爬虫只是归因所有的 URL 链接
    你应该检查下 这些接口的 url 是不是在哪里公开泄露了 在什么地方有公开贴出来
    被爬虫存档到链接库里 然后被爬虫识别到了 导致的这个问题

    另外注意下 查看下日志 这些 IP 最开始爬的时候 有无读取 robots.txt 文件
    如果有的话 加个 robots.txt 禁止所有爬虫爬取
    大部分爬虫还是会遵守规则的

    监控集群的话 是没这种规模的
    监控一般最大一个区域部署 /24 对外的公网 IP 用于请求
    你那动不动就几百个 IP 明显不是监控
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     889 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 22:20 PVG 06:20 LAX 15:20 JFK 18:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86