
1 simapple 2015 年 3 月 10 日 简单的做urllib+re就可以,scrapy是一套框架,如果是工程项目,要考虑的深度 广度 并发控制 作业调度 等等 |
2 limbo0 2015 年 3 月 10 日 感觉xpath特别方便,是lz没找对方法把 |
3 raptor 2015 年 3 月 10 日 如果你的需求用requests+beautifulsoup就可以解决,那就这样做好了,最多加上gevent。 scrapy的强大在于配套功能非常多 |
4 crazycookie 2015 年 3 月 10 日 为啥不用xpath? |
5 professorz 2015 年 3 月 10 日 |
6 yetone 2015 年 3 月 10 日 pyquery 秒一切 |
7 crazyxin1988 2015 年 3 月 10 日 赶脚requests+beautifulsoup 就蛮好的 |
8 fumer 2015 年 3 月 10 日 不需要用beautifulsoup |
9 rhythmer 2015 年 3 月 10 日 @limbo0 感觉xpath对于标准的html网页的处理还可以,但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片,huaban.com/favorite/home,用scrapy的xpath就觉得很麻烦 |
14 raptor 2015 年 3 月 11 日 @professorz 官方文档说了很多啊,举例而言就有:它自带一个WEB管理界面,支持TELNET登录管理,有交互式SHELL可以调试对抓取内容的解析,内置多种中间件可处理SESSION,COOKIE,HTTP压缩,身份验证…… |
15 raptor 2015 年 3 月 11 日 顺便问一句,beatifulsoup真有这么好?我怎么觉得还是pyquery用起来更简单。 |
16 kingname 2015 年 3 月 11 日 xpath秒杀bs4,beaitifulsoup4还是感觉不好用。 |