
1 mrytsr Oct 4, 2014 via Android Scrapy |
2 mhycy Oct 4, 2014 手写.... Requests + re + threading + logging 各种爽~ PS.其实是觉得框架太不灵活了 |
3 paulw54jrn Oct 4, 2014 不是很复杂就是楼上说的 requests + re + threading/greenlets 或者是楼上上说的 Scrapy.. |
4 ShiehShieh Oct 4, 2014 有没有什么好点的材料能学习嘛? 0.0 |
5 |
7 XadillaX Oct 4, 2014 -。 - 为什么没多少人学 node 做爬虫呢? |
8 chemzqm Oct 4, 2014 node异步回调太恶心,占用内存太高,低配机器跑不了几个进程 |
9 R4rvZ6agNVWr56V0 Oct 4, 2014 曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy |
10 Codist Oct 4, 2014 scrapy简单又方便,selector用起来也很舒服,不用写正则了 |
11 kenis Oct 5, 2014 推荐用Scrapy,比较成熟的爬虫框架,资源也不少。 |
12 cha1 Oct 5, 2014 |
13 briefcopy Oct 5, 2014 WebCollector: http://www.brieftools.info/document/webcollector/ |
14 imn1 Oct 5, 2014 我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath 无论用什么,通读http协议+抓包工具是跑不掉的 |
15 ericls Oct 5, 2014 via Android requests pyquery |
16 helloworld00 Oct 5, 2014 |