你们都用什么来做爬虫的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
46fo

你们都用什么来做爬虫的

  •  
  •   46fo Mar 12, 2013 19391 views
    This topic created in 4797 days ago, the information mentioned may be changed or developed.
    你们都用什么语言来做爬虫的,有什么好的介绍。。。
    Supplement 1    Mar 13, 2013
    有没有c/c++的..................
    48 replies    2018-11-30 18:50:29 +08:00
    for4
        1
    for4  
       Mar 12, 2013   4
    Python
    +requests
    +lxml
    +celery
    46fo
        2
    46fo  
    OP
       Mar 12, 2013
    @for4 -.-! 要学这么多东西啊
    for4
        3
    for4  
       Mar 12, 2013
    @xdeng
    第一个是编程语言
    后面三个是可能需要用到的库

    这是我认为的写一个爬虫最简单易学的搭配
    xieren58
        4
    xieren58  
       Mar 12, 2013
    Node + jquery
    liuxurong
        5
    liuxurong  
       Mar 12, 2013
    我是 requests + pyquery

    另外
    @for4 celery通常用来做什么
    46fo
        6
    46fo  
    OP
       Mar 12, 2013
    @xieren58
    @liuxurong 这个网站里的全都是 做网页的么
    shinwood
        7
    shinwood  
       Mar 12, 2013   2
    试过python + Scrapy,感觉不错。

    http://scrapy.org/
    greatghoul     8
    greatghoul  
       Mar 12, 2013
    @shinwood 这个用起来的确骚爽。
    colincat
        9
    colincat  
       Mar 12, 2013 via Android
    java
    for4
        10
    for4  
       Mar 12, 2013   1
    @liuxurong
    我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
    还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
    wingoo
        11
    wingoo  
       Mar 12, 2013
    scrapy
    twm
        12
    twm  
       Mar 12, 2013
    JAVA PHP
    dulao5
        13
    dulao5  
       Mar 12, 2013
    PHP + curl_multi_*

    不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
    xjay
        14
    xjay  
       Mar 12, 2013
    scrapy
    不解释
    PrideChung
        15
    PrideChung  
       Mar 12, 2013
    ruby+norogiri
    http://nokogiri.org/
        16
    amxku  
       Mar 12, 2013
    Python
    +curl
    +celery
    1up
        17
    1up  
       Mar 12, 2013
    cloverstd
        18
    cloverstd  
       Mar 12, 2013
    Python: urllib, urllib2, re
    run2
        19
    run2  
       Mar 12, 2013
    前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
    cheerio很好用阿,完全是jQuery的语法。

    require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
    chuck911
        20
    chuck911  
       Mar 12, 2013
    还有人写个爬虫还非要用芹菜...

    Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
    atom
        21
    atom  
       Mar 12, 2013
    @twm
    @colincat
    同为javaer,能否推荐下是哪个库?
    sohoer
        22
    sohoer  
       Mar 13, 2013
    @atom
    JAVA?
    HttpURLConnection + Regex = Spider
    Linxing
        23
    Linxing  
       Mar 13, 2013 via Android
    python beautifulsoup urlib爬文章
    liuxurong
        24
    liuxurong  
       Mar 13, 2013
    @for4 谢谢。有没有celery的中文资料
    crazybubble
        25
    crazybubble  
       Mar 13, 2013   1
    @atom 用regex来做html parsing不推荐,我推荐用jsoup。
    colincat
        26
    colincat  
       Mar 13, 2013 via iPhone
    @sohoer htmlparse httpclient
    workaholic
        27
    workaholic  
       Mar 13, 2013   1
    php+snoopy
    akalanala
        28
    akalanala  
       Mar 13, 2013
    @crazybubble 同推荐.
    binux
        29
    binux  
       Mar 13, 2013
    python + tornado AsyncHTTPClient + PyQuery
    sonicwu
        30
    sonicwu  
       Mar 13, 2013
    Java
    + jsoup

    Python
    + Beautiful Soup
    + urllib
    + lxml
    dingyaguang117
        31
    dingyaguang117  
       Mar 13, 2013
    Python
    + Beautiful Soup
    + lxml
    + Scrapy
    atom
        32
    atom  
       Mar 13, 2013
    @crazybubble
    是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
    zoran
        33
    zoran  
       Mar 14, 2013
    Java 可以试试这个 https://github.com/zhuoran/crawler4j
    yangxin0
        34
    yangxin0  
       Mar 14, 2013
    看过别人用C
    Xrong
        35
    Xrong  
       Mar 14, 2013
    希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
    zdwalter
        36
    zdwalter  
       Mar 15, 2013
    phantomjs, casperjs
    zhouquanbest
        37
    zhouquanbest  
       Mar 16, 2013
    python + pyquery 是个好东西
    会jquery就能写
    nojt7Zm
        38
    nojt7Zm  
       Mar 17, 2013
    php
    kingwkb
        39
    kingwkb  
       Mar 17, 2013
    之前用python,现在换到ruby

    http://s.yanghao.org/
    gameending
        40
    gameending  
       Mar 17, 2013
    python跟java都写过,python很简洁,java的话我觉得也还不错
    lbj96347
        41
    lbj96347  
       Mar 17, 2013
    node.js or python. :-)
    kdepp
        42
    kdepp  
       Jul 7, 2013
    node + cheerio
    briefcopy
        43
    briefcopy  
       Aug 18, 2014
    cangbaotu
        44
    cangbaotu  
       May 24, 2016
    http://www.shenjianshou.cn/ 神箭手云爬虫
    ssllff123
        45
    ssllff123  
       Oct 10, 2016
    @for4 我和你想的一样,但是有些问题
    1 ,是不是 celery 就可以自动多线程了。任务只需要实现爬虫的功能就可以了。
    2 ,感觉并不快啊 。
    3 ,可否有写好的项目看看
    billyellow
        46
    billyellow  
       Nov 16, 2016   1
    推荐试下这个 http://www.zaoshu.io
    GrahamCloud
        47
    GrahamCloud  
       Feb 23, 2017
    @billyellow 好的!
    jiankaikey
        48
    jiankaikey  
       Nov 30, 2018
    右键->另存为
    About     Help     Advertise     Blog     API     FAQ     Solana     4945 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 160ms UTC 09:22 PVG 17:22 LAX 02:22 JFK 05:22
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86