初学爬虫，设计一个定向爬虫策略，请大家帮我看看，是否合理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 3408 天前的主题，其中的信息可能已经有所发展或是发生改变。

哪些地方需要改进和注意的地方，或更好的爬虫策略。

下面是伪代码欢迎批评指正！

数据模型

class Obj: pass

常量

Objs = [] 对象容器 IPS = [] 代理池

函数

1. 构造代理 ip 池 def build_ips(): .... return ips 2. 下载页面 - 随机选取代理 ip 下载页面，限制 timeout ，超时或异常更换 ip ，最多重试 5 次 - 基础页下载(含 params 参数)，详细页下载不含参数 def download_html(url,params=None) .... return html 3. 构造参数组合(不包含页码) - 如:城市+关键字 的组合 def build_params_lst(citys,kds): .... return params_lst 4. 解析基础页(带请求参数，不含页码),构造 Obj-->Objs - 页码上限设置很大。 - 参数=原参数+页码。 - 解析基础信息(至少包含详细页面 url)并 push 到 Objs 列表 - 该页码下内容为空则 return ，中断页码遍历 def parse_html(params) obj = Obj() obj.name = .... .... Objs.append(obj) return None 5. 解析详细页面,更新 obj 详细信息。 def get_detail(obj): url = obj.url .... obj.detail = ... return None

程序执行

1. IPS = build_ips() 2. params_lst = build_params_lst() 3. 多线程基础下载解析 函数： parse_html 参数迭代器: params_lst 4. 多线程详细页面下载解析 函数： get_detail 参数迭代器 Objs 5. 遍历 Objs ，添加 obj 到数据库

第 1 条附言 2016-06-17 17:36:21 +08:00

场景

我的想法是爬取主要的所有的招聘网站做一个It垂直搜索引擎。

已经看到挖工作网实现这个想法。职友网的搜索做的很差。

想实现一个高效的爬虫，能每天实时更新数据库。

现使用

requests+lxml+Mysql+redis

准备学习分布式爬虫，用阿里云弹性伸缩服务器，自动晚上开机爬取。

已解决：

访问速度，通过代理ip，可以解决。内容提取，网页结构化，xpath比较容易提取。网站不需要登录

现在：

希望实现一个爬虫策略效率高，结构清晰，代码简洁好读，便于自己理解和维护。

第 2 条附言 2016-06-17 17:50:52 +08:00

补充：上面常量改为变量
另外： windows 下经常开启多线程，超过 10 个就经常把 wifi 爬掉线是什么原因？
使用校园网(12M) ，爬虫宽带高峰才 4M 内存 cpu 也错错有余， TCP 连接最高 500 。

Obj

objs

页码

def

9 条回复 2016-08-29 16:26:53 +08:00

murmur

2016-06-17 16:43:02 +08:00

代码我就不看了
总结一下：
（ 1 ）如果是真的用的爬虫，而不是出于练习目的，那么任何一个开源爬虫都比你的好，无论是 nutch 还是 scrapy 还是其他的
（ 2 ）即便是练习，重点也要放在内容提取，就是定向爬虫部分，而不是仅仅收录就可以，比如你去比价，去抓评价，所以可以基于一个现有的爬虫开发，去做垂直抓取那部分
（ 3 ）爬虫的异常处理永远是难点，尤其是有随机插入白色字符的、需要注册的、访问太快就 ban 的、要验证码的等

practicer

2016-06-17 16:53:50 +08:00

@murmur 题主目前在学习阶段，经过自己构思策略后，再对学 scrapy 等框架百宜而无一害。

我提一个想法，第三步改成让爬虫递归按当前路径向下钻，设置一个递归层次的参数，限制无限递归。例如这个参数设为 3 ，那么爬 abc.com/beijing/这个路径的时候，自动抓链接抓到 abc.com/beijing/1st-layer/2nd-layer/3rd-layer 。

murmur

2016-06-17 16:55:16 +08:00

@practicer 看我写的，建议一开始研究一个模块，当然就是内容提取这部分，这里会遇到各种真实的问题，会看到别的公司高薪聘请的程序员是怎么恶心你的，然后这里写好了 python 相关掌握差不多再来搞架构不更好