新浪微群爬虫/微博爬虫 附带用户关系爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
davidlau

新浪微群爬虫/微博爬虫 附带用户关系爬虫

  •  
  •   davidlau
    liuslevis May 5, 2014 4665 views
    This topic created in 4376 days ago, the information mentioned may be changed or developed.
    毕业设计的一部分,注释详细,多线程增量式爬取,用到Python+SQLite。
    如觉有用请Star,谢谢!
    https://github.com/liuslevis/weiquncrawler
    9 replies    2014-05-07 11:00:51 +08:00
    aisensiy
        1
    aisensiy  
       May 5, 2014
    wap 也有反爬虫机制的吧,我抓了2000页的微博就不能抓了,要过些时候才可以,楼主有什么办法么
    Linxing
        2
    Linxing  
       May 5, 2014   1
    @aisensiy 可以学习下大胆晒的爬虫,用 http://www.samair.ru/proxy-by-country/China-01.htm 上面的代理
    dong3580
        3
    dong3580  
       May 5, 2014
    @aisensiy
    模拟浏览器登录行为,一定要补全所有的user-agent,并且,不要一直爬,多线程速度太快了,容易被封ip,可以选择性的使用单线程,另外加个时间间隔,每爬固定页数暂停几分钟。
    aisensiy
        4
    aisensi  
       May 5, 2014
    @dong3580 我用的 scrapy 添加了每秒 10 个请求的限制~但似乎还是不可避免。
    dong3580
        5
    dong3580  
       May 5, 2014
    @aisensiy
    我用的C#爬。。。不过都是爬几个小时休1个小时,不然容易被封。而且只开一个线程,太多线程电脑没法看网页了。
    你算算每秒10个请求,假设成功,也就是10个页面,假设一个页面100K,10个就是1000K,一分钟就是1000x60=60 000K,大约60M,一小时就是 60x60=3600M,大约3.6G,这还不算其他人,就你一个人每小时需要下载微博上纯html 数据3.6G,你让人家服务器饶你么,直接关你到小黑屋。
    aisensiy
        6
    aisensiy  
       May 5, 2014
    @dong3580 嗯 我算过 我其实是侥幸心理 我想关掉所有限制 然后在很短时间内把东西抓完...因为我是那种一次性工作,不需要持续抓取 T_T
    davidlau
        7
    davidlau  
    OP
       May 5, 2014
    @aisensiy
    a)一般20分钟被block,(程序给予提示,自动停止), 手动切代理换IP 用goagent
    b)换完IP后 马上爬某些页面(尤其是总N页的中间部分N/2)会失效,猜测一个新的用户突然频繁访问中间的几页概率小,所以Block。这种情况随机慢速顺序N/2附近部分页面,模仿正常用户访问;直到有有效页面返回,再从N/2开始爬。
    c)再不行,去喝杯茶 40Min后回来继续
    d)在不行,2h后回来

    熟悉这个pattern,并且有大量IP代理,可以用自定义脚本操纵爬虫爬取
    pyshift
        8
    pyshift  
       May 5, 2014
    巧了。爬虫这么受欢迎,都选这个做毕设吗。我这边用的python/java+mysql的,因为想多了解下python就用python也写了一份,程序大同小异。但是我的单线程,而且爬取的手动加参数约束下。要不太快被封好蛋疼。
    davidlau
        9
    davidlau  
    OP
       May 7, 2014
    @pyshift 用它来学习python、数据库、网络知识,是不错的选择
    About     Help     Advertise     Blog     API     FAQ     Solana     3262 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 38ms UTC 13:39 PVG 21:39 LAX 06:39 JFK 09:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86