
1 for4 Mar 12, 2013 Python +requests +lxml +celery |
4 xieren58 Mar 12, 2013 Node + jquery |
7 shinwood Mar 12, 2013 |
@shinwood 这个用起来的确骚爽。 |
9 colincat Mar 12, 2013 via Android java |
10 for4 Mar 12, 2013 @liuxurong 我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 |
11 wingoo Mar 12, 2013 scrapy |
12 twm Mar 12, 2013 JAVA PHP |
13 dulao5 Mar 12, 2013 PHP + curl_multi_* 不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 |
14 xjay Mar 12, 2013 scrapy 不解释 |
15 PrideChung Mar 12, 2013 ruby+norogiri http://nokogiri.org/ |
16 amxku Mar 12, 2013 Python +curl +celery |
17 1up Mar 12, 2013 http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python |
18 cloverstd Mar 12, 2013 Python: urllib, urllib2, re |
19 run2 Mar 12, 2013 前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,- cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); |
20 chuck911 Mar 12, 2013 还有人写个爬虫还非要用芹菜... Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 |
23 Linxing Mar 13, 2013 via Android python beautifulsoup urlib爬文章 |
25 crazybubble Mar 13, 2013 @atom 用regex来做html parsing不推荐,我推荐用jsoup。 |
27 workaholic Mar 13, 2013 php+snoopy |
28 akalanala Mar 13, 2013 @crazybubble 同推荐. |
29 binux Mar 13, 2013 python + tornado AsyncHTTPClient + PyQuery |
30 sonicwu Mar 13, 2013 Java + jsoup Python + Beautiful Soup + urllib + lxml |
31 dingyaguang117 Mar 13, 2013 Python + Beautiful Soup + lxml + Scrapy |
32 atom Mar 13, 2013 |
33 zoran Mar 14, 2013 Java 可以试试这个 https://github.com/zhuoran/crawler4j |
34 yangxin0 Mar 14, 2013 看过别人用C |
35 Xrong Mar 14, 2013 希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。 |
36 zdwalter Mar 15, 2013 phantomjs, casperjs |
37 zhouquanbest Mar 16, 2013 python + pyquery 是个好东西 会jquery就能写 |
38 nojt7Zm Mar 17, 2013 php |
39 kingwkb Mar 17, 2013 |
40 gameending Mar 17, 2013 python跟java都写过,python很简洁,java的话我觉得也还不错 |
41 lbj96347 Mar 17, 2013 node.js or python. :-) |
42 kdepp Jul 7, 2013 node + cheerio |
43 briefcopy Aug 18, 2014 用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector |
44 cangbaotu May 24, 2016 http://www.shenjianshou.cn/ 神箭手云爬虫 |
45 ssllff123 Oct 10, 2016 |
46 billyellow Nov 16, 2016 推荐试下这个 http://www.zaoshu.io |
47 GrahamCloud Feb 23, 2017 @billyellow 好的! |
48 jiankaikey Nov 30, 2018 右键->另存为 |