我的爬虫大致思想的是这样的,我想爬取某些列表页面上所有的列表url,有很多页,我遍历这些页面,然后抓去这些页面上的内容,当某个页面请求出错的时候,我就将它保存到一个数据库,下次从这个数据库里面把错误的取出来,然后再处理,这样一直循环,直到所有的都被处理完。不多说了,直接代码吧(更详细的问题描述见代码的注释):
不知道各位对我这段代码有什么看法,或者吐槽也行,自己找了一些相关资料,成效不大。
不知道各位对我这段代码有什么看法,或者吐槽也行,自己找了一些相关资料,成效不大。

1 jander Jun 5, 2014 应该加上 from gevent import monkey; monkey.patch_socket() |
2 penkchow OP |
3 jander Jun 5, 2014 哦,没看仔细。 redis连接异常。你的代码使用redis.ConnectionPool, 其实redis可以直接连,内部已经使用pool实现: redis.StrictRedis(host='localhost', port=6379, db=0) 你可以直接连试试。 |
4 jsonline Jun 5, 2014 每个月都有一个人来问爬虫的问题。 |
10 penkchow OP Okay,试试。 |