新浪微博爬虫老是被封,换了 IP 和 cookie 也不行 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
goodluck
V2EX    问与答

新浪微博爬虫老是被封,换了 IP 和 cookie 也不行

  •  
  •   goodluck 2016-04-14 10:18:15 +08:00 9695 次点击
    这是一个创建于 3496 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这几天抓取新浪微博,每个请求随机一个代理,每半小时换一个账号,过了几个小时,立马几十个账号被冻结。很郁闷。。。有高手知道怎么对付新浪微博的反爬虫么?

    19 条回复    2016-04-14 22:12:58 +08:00
    bzzhou
        1
    bzzhou  
       2016-04-14 10:28:20 +08:00
    > 每个请求随机一个代理,每半小时换一个账号

    这种请求不封你才怪
    shiny
        2
    shiny  
    PRO
       2016-04-14 10:29:35 +08:00
    抓的是 m.weibo.cn 还是 weibo.com
    CheungKe
        3
    CheungKe  
       2016-04-14 10:38:29 +08:00
    放慢速度。
    看 robots.txt ,你这么做是违法的
    ksc010
        4
    ksc010  
       2016-04-14 10:43:06 +08:00
    @bzzhou 是啊别换代理 减慢速度 一个帐号固定使用一个代理就行
    每请求 n 次就暂停几个小时 然后换下一批帐号
    hcwhan
        5
    hcwhan  
       2016-04-14 10:56:57 +08:00 via Android
    主要还是每个账号一直换 ip 的问题吧 可以抓几次后 换账号的同时换 ip 每个账号 ip 不换
    mfinal
        6
    mfinal  
       2016-04-14 11:03:38 +08:00   1
    经验之谈(仅针对 mobile 版):
    微博的反爬虫还是很厉害的(阈值为:人点的太快都会 /sad )
    高速状态下(多线程)数分钟就挂,低速的话(几秒 per resquest )一个账号可以持续数小时。
    还是多账号延长冷却吧~

    还是等高手作答
    mapleray
        7
    mapleray  
       2016-04-14 11:39:43 +08:00   2
    告诉一个最简单的方法,用 google bot 的 header,频率控制好就行
    UnisandK
        8
    UnisandK  
       2016-04-14 12:15:34 +08:00
    同一个账号一直换 IP 你这不作死吗
    badcode
        9
    badcode  
       2016-04-14 12:17:13 +08:00
    @mapleray 想起也是*度,谷歌,屏蔽它们的 UA(spider),

    它们会用"正常"的 UA 看一下,然后再用 spider 走一遍

    看日志看 ip 知道的
    goodluck
        10
    goodluck  
    OP
       2016-04-14 13:19:07 +08:00
    @shiny 我抓的是 weibo.com
    goodluck
        11
    goodluck  
    OP
       2016-04-14 13:20:09 +08:00
    @CheungKe 感谢您,爬虫违法的这东西太虚,我不担心这个。
    goodluck
        12
    goodluck  
    OP
       2016-04-14 13:20:56 +08:00
    @ksc010 我是每天计划抓 20 万用户的信息,慢速的不行,速度必须要快
    goodluck
        13
    goodluck  
    OP
       2016-04-14 13:21:34 +08:00
    @hcwhan 好的,我试试您的方法。
    goodluck
        14
    goodluck  
    OP
       2016-04-14 13:24:30 +08:00
    @mfinal 是的,我现在根据这几天的经验,猜测的是新浪的反爬虫不是实时的,没过 2 个小时左右的频率,新浪就会封一批账号,现在我在测是新浪的规则,目前来看,换代理的原因比较小,因为前几天我用一个账号不换代理也是 game over.
    goodluck
        15
    goodluck  
    OP
       2016-04-14 13:26:03 +08:00
    @mapleray 感谢您的建议,第一次听说这个东西,我会尝试的。
    goodluck
        16
    goodluck  
    OP
       2016-04-14 13:27:20 +08:00
    @badcode 厉害,这你都看得见。。。
    msg7086
        17
    msg7086  
       2016-04-14 13:29:58 +08:00
    虽然可能性并不大,但是违规爬虫的话人家完全可以挖掘出你个人信息然后按照网络攻击什么的来起诉你。
    theFool
        18
    theFool  
       2016-04-14 16:50:15 +08:00
    最近也在爬微博, 很好奇 lz 代理是怎么来的。
    我在网上找到的代理都被封了。
    如果方便的话能指点下关键词吗。 谢谢。:)
    goodluck
        19
    goodluck  
    OP
       2016-04-14 22:12:58 +08:00
    @shiny 请问你用的手机端,能不被封么?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     822 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 22:00 PVG 06:00 LAX 14:00 JFK 17:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86