你们都用什么来做爬虫的

爬虫

什么

你们

48 replies 2018-11-30 18:50:29 +08:00

1

for4

Mar 12, 2013

4

Python
+requests
+lxml
+celery

2

46fo

OP

Mar 12, 2013

@for4 -.-! 要学这么多东西啊

3

for4

Mar 12, 2013

@xdeng
第一个是编程语言
后面三个是可能需要用到的库

这是我认为的写一个爬虫最简单易学的搭配

4

xieren58

Mar 12, 2013

Node + jquery

5

liuxurong

Mar 12, 2013

我是 requests + pyquery

另外
@for4 celery通常用来做什么

6

46fo

OP

Mar 12, 2013

@xieren58
@liuxurong 这个网站里的全都是做网页的么

7

shinwood

Mar 12, 2013

2

试过python + Scrapy，感觉不错。

http://scrapy.org/

8

greatghoul

Mar 12, 2013

@shinwood 这个用起来的确骚爽。

9

colincat

Mar 12, 2013 via Android

java

10

for4

Mar 12, 2013

1

@liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑

11

wingoo

Mar 12, 2013

scrapy

12

twm

Mar 12, 2013

JAVA PHP

13

dulao5

Mar 12, 2013

PHP + curl_multi_*

不过以后应该尝试nodejs了，并发容易实现，解析页面里的js更有优势。

14

xjay

Mar 12, 2013

scrapy
不解释

15

PrideChung

Mar 12, 2013

ruby+norogiri
http://nokogiri.org/

16

amxku

Mar 12, 2013

Python
+curl
+celery

17

1up

Mar 12, 2013

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python

18

cloverstd

Mar 12, 2013

Python: urllib, urllib2, re

19

run2

Mar 12, 2013

前几天用nodejs写个玩，但不知道怎么部署在只有web服务的 PaaS上－，－
cheerio很好用阿，完全是jQuery的语法。

require('http');require('cheerio');require('iconv').Iconv;require('mongodb');

20

chuck911

Mar 12, 2013

还有人写个爬虫还非要用芹菜...

Scrapy爽是因为它基于事件驱动的Twisted，我以前也很爱Scrapy，后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒

21

atom

Mar 12, 2013

@twm
@colincat
同为javaer，能否推荐下是哪个库？

22

sohoer

Mar 13, 2013

@atom
JAVA?
HttpURLConnection + Regex = Spider

23

Linxing

Mar 13, 2013 via Android

python beautifulsoup urlib爬文章

24

liuxurong

Mar 13, 2013

@for4 谢谢。有没有celery的中文资料

25

crazybubble

Mar 13, 2013

1

@atom 用regex来做html parsing不推荐，我推荐用jsoup。

26

colincat

Mar 13, 2013 via iPhone

@sohoer htmlparse httpclient

27

workaholic

Mar 13, 2013

1

php+snoopy

28

akalanala

Mar 13, 2013

@crazybubble 同推荐.

29

binux

Mar 13, 2013

python + tornado AsyncHTTPClient + PyQuery

30

sonicwu

Mar 13, 2013

Java
+ jsoup

Python
+ Beautiful Soup
+ urllib
+ lxml

31

dingyaguang117

Mar 13, 2013

Python
+ Beautiful Soup
+ lxml
+ Scrapy

32

atom

Mar 13, 2013

@crazybubble
是个很棒的库，看到 http://try.jsoup.org/ 我就喜欢上它了

33

zoran

Mar 14, 2013

Java 可以试试这个 https://github.com/zhuoran/crawler4j

34

yangxin0

Mar 14, 2013

看过别人用C

35

Xrong

Mar 14, 2013

希望大家给推荐PHP的，毕业设计打算用这玩意写；都说用PHP写不大方便，但是还是希望大伙有写过的，提供源码参考下，有在线资源的也行。

36

zdwalter

Mar 15, 2013

phantomjs, casperjs

37

zhouquanbest

Mar 16, 2013

python + pyquery 是个好东西
会jquery就能写

38

nojt7Zm

Mar 17, 2013

php

39

kingwkb

Mar 17, 2013

之前用python，现在换到ruby

http://s.yanghao.org/

40

gameending

Mar 17, 2013

python跟java都写过，python很简洁，java的话我觉得也还不错

41

lbj96347

Mar 17, 2013

node.js or python. :-)

42

kdepp

Jul 7, 2013

node + cheerio

43

briefcopy

Aug 18, 2014

用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector

44

cangbaotu

May 24, 2016

http://www.shenjianshou.cn/ 神箭手云爬虫

45

ssllff123

Oct 10, 2016

@for4 我和你想的一样，但是有些问题
1 ，是不是 celery 就可以自动多线程了。任务只需要实现爬虫的功能就可以了。
2 ，感觉并不快啊。
3 ，可否有写好的项目看看

46

billyellow

Nov 16, 2016

1

推荐试下这个 http://www.zaoshu.io

47

GrahamCloud

Feb 23, 2017

@billyellow 好的！

48

jiankaikey

Nov 30, 2018

右键->另存为