新手刚学 gevent,请帮忙看看我写的代码 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
JianBingXia

新手刚学 gevent,请帮忙看看我写的代码

  •  
  •   JianBingXia 2016 年 9 月 22 日 4960 次点击
    这是一个创建于 3503 天前的主题,其中的信息可能已经有所发展或是发生改变。

    麻烦帮我看看下面的代码,我这里在最后会报错,不知什么原因.

    gevent.hub.LoopExit: ('This operation would block forever', <Hub at 0x2f62af8 select default pending=0 ref=0>)

    还有我这段代码有什么问题吗?有哪些地方可以优化,求赐教.

    我是新手,代码可能比较 low,求"教做人".

    谢谢. (还请jiandan同学放过....我就是学习下)

    # -*- coding:utf-8 -*- import gevent import gevent.queue import requests from lxml import etree url_queue = gevent.queue.JoinableQueue(100) headers = { 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' } def spider(): while True: url = url_queue.get() if url is None: url_queue.task_done() break try: html = requests.get(url, headers=headers, timeout=1).content selector = etree.HTML(html) title = selector.xpath('//a[@href="%s"]/text()' % url)[0] print(title) except Exception as e: print(e) if __name__ == '__main__': urls = [ 'http://jandan.net/2016/09/22/migrants-choice.html', 'http://jandan.net/2016/09/22/farting-really-good.html', 'http://jandan.net/2016/09/22/special-cleaner.html', 'http://jandan.net/2016/09/22/hand-mobile-phone.html', 'http://jandan.net/2016/09/22/beer-you-order.html', 'http://jandan.net/2016/09/22/pigeons-can-read.html', 'http://jandan.net/2016/09/22/snake-inter-species.html', 'http://jandan.net/2016/09/21/north-koreas-internet-2.html', 'http://jandan.net/2016/09/21/mona-lisa-overrated.html', 'http://jandan.net/2016/09/21/antikythera-ancient-skeleton.html', 'http://jandan.net/2016/09/21/mentality-fish.html', 'http://jandan.net/2016/09/21/things-smuggled-space.html', 'http://jandan.net/2016/09/21/water-bear.html', 'http://jandan.net/2016/09/21/oldest-fishing-hooks.html', 'http://jandan.net/2016/09/21/b-21-raider.html', 'http://jandan.net/2016/09/21/paper-cuts-hurt.html', 'http://jandan.net/2016/09/21/cat-ecological-disaster.html', 'http://jandan.net/2016/09/21/pluto-owns-heart.html', 'http://jandan.net/2016/09/21/a-teenage-girl.html', 'http://jandan.net/2016/09/21/light-drive-men.html', 'http://jandan.net/2016/09/21/ai-analyses-mammograms.html', 'http://jandan.net/2016/09/21/burnt-cheese.html', 'http://jandan.net/2016/09/21/black-hole-spaghetti.html', 'http://jandan.net/2016/09/21/womens-pubic-hair.html' ] for url in urls: url_queue.put(url) threads = [] for i in range(1, 3): threads.append(gevent.spawn(spider)) gevent.joinall(threads) 
    第 1 条附言    2016 年 9 月 22 日

    上面判断queue为空应该改成

    if url_queue.empty(): url_queue.task_done() break url = url_queue.get() 

    这样就不报错了

    但是我还是不知道这样使用协程gevent是否正确?

    怎么感觉对IO阻塞没有起到任何作用呢?

    12 条回复    2016-09-23 09:48:33 +08:00
    Sylv
        1
    Sylv  
       2016 年 9 月 22 日 via iPhone
    哈,邀请煎蛋网首席技术官 colt 前来围观 @kungfuchicken
    JianBingXia
        2
    JianBingXia  
    OP
       2016 年 9 月 22 日
    @Sylv 666
    sylecn
        3
    sylecn  
       2016 年 9 月 22 日
    看到好几个问题:

    1. 为什么要自己写 Queue ,不用 gevent.pool?
    2. 为什么用了 reqeusts 但是没有做 monkey patching ?这样引入 gevent 的好处全没了。
    3. spider() 的 while 循环,队列和 gevent thread 的使用,这里是一团糟。

    如果只是为了功能,建议全部用 gevent.pool 重写。如果想自己学着用 blocking queue ,需要先继续学习,然后重写。可以多看看别人的代码。学习内容不需要局限在 python 和 gevent. 多线程的东西都是相通的。
    JianBingXia
        4
    JianBingXia  
    OP
       2016 年 9 月 22 日
    @sylecn 十分感谢,我这就去"补课"
    qwer1234asdf
        5
    qwer1234asdf  
       2016 年 9 月 22 日 via iPhone
    @sylecn 如楼主代码所示,即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对
    qwer1234asdf
        6
    qwer1234asdf  
       2016 年 9 月 22 日 via iPhone
    @sylecn 另外,文档也声明猴子布丁是 evil 的,我目前也在一个爬虫中用到了 gevent ,遇到了两个问题:其一,我的爬虫运行时会有插入数据库的操作,打上布丁后,一直报数据库连接池益处的错误,这个倒是通过增大连接池解决了。另一个问题是,爬虫跑着的时候,会莫名其妙的报段错误,没打布丁前,从未出现过这个问题……
    qwer1234asdf
        7
    qwer1234asdf  
       2016 年 9 月 22 日 via iPhone
    @sylecn 最后,我以为,楼主这种方式,携程的粒度比较大……我也是类似的方式,不过没有用到 queue 之类的……爬到了数据直接入库和存盘
    kungfuchicken
        8
    kungfuchicken  
       2016 年 9 月 22 日   2
    已经关注,反爬虫系统规则跟着楼主更新....
    sylecn
        9
    sylecn  
       2016 年 9 月 22 日
    >> 即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对

    @qwer1234asdf 这个程序主要的阻塞就是在 requests.get(),这里没有做 monkey patching 等同于整个程序是同步的。你可以把正确实现的版本,使用 monkey patching 和不使用,执行时间做一个对比。取决于你的网络状况和使用的 gevent 线程数,使用 monkey patching 的版本应该快好几倍。

    在 gevent, tornado 这种基于 coroutine 的异步机制下,只要一个严重耗时的地方阻塞,其它地方不阻塞就失去意义了,因为所有代码都是在一个 OS 级别的 thread 来执行的。

    >> 文档也声明猴子布丁是 evil 的 以及你的数据库问题

    gevent 不是万能的。测试其它软件库和 gevent 的兼容性是软件作者的责任。如果同时使用 gevent 和数据库,就要用支持 gevent 的数据库连接资源池。这些在 gevent 文档或者示范代码里面有。

    >> 最后,我以为,楼主这种方式,携程的粒度比较大

    这个我就不回复了,如果要讨论颗粒度,你先把正确代码摆出来再讨论比较好。
    lennyh
        10
    lennyh  
       2016 年 9 月 22 日
    为什么要用 gevent ? Python 3.5 的 async/awati 不是很好用吗……
    qwer1234asdf
        11
    qwer1234asdf  
       2016 年 9 月 22 日 via iPhone
    @sylecn mark 一下
    JianBingXia
        12
    JianBingXia  
    OP
       2016 年 9 月 23 日
    @kungfuchicken :-) 看我的眼神= =
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     905 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 19:41 PVG 03:41 LAX 12:41 JFK 15:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86