求一款 Mac 或 Win 上,抓取 html 爬虫 down 到本地的软件 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
pr2b
V2EX    程序员

求一款 Mac 或 Win 上,抓取 html 爬虫 down 到本地的软件

  •  a href="Javascript:" Onclick="downVoteTopic(274735);" class="vote">
  •   pr2b 2016-04-27 11:27:32 +08:00 via iPad 4215 次点击
    这是一个创建于 3461 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看了大多数爬虫,都是 java 的。

    现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧

    直接把 h tml 全部 down 下来就行。自动按照正则去爬

    14 条回复    2016-04-27 19:19:33 +08:00
    13348859836
        1
    13348859836  
       2016-04-27 12:22:59 +08:00
    python 的爬虫框架多 随便找一个吧
    zhouxuchen
        2
    zhouxuchen  
       2016-04-27 12:50:50 +08:00
    life is short, you need pyquery
    xiamx
        3
    xiamx  
       2016-04-27 13:30:05 +08:00
    html is context free grammar btw
    jnduan
        4
    jnduan  
       2016-04-27 15:09:36 +08:00
    java 的就不能本地运行了?

    那你用 Offline Explorer 吧
    sadhen
        5
    sadhen  
       2016-04-27 15:35:59 +08:00
    不太理解楼主的需求

    貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么?

    还是普通的爬虫框架?
    pr2b
        6
    pr2b  
    OP
       2016-04-27 15:50:30 +08:00 via iPad
    @sadhen 是按照正则顺序爬,然后把 html 都 down 到本地。

    正在研究火车头 ,就是保存 html 的一步 还没有成功

    @jnduan 的浏览器,没找到在哪里写网址规则。
    cxbig
        7
    cxbig  
       2016-04-27 15:57:08 +08:00
    php/ruby/python 随便哪个语言都可以,手写一个百来行。
    SCaffrey
        8
    SCaffrey  
       2016-04-27 16:06:04 +08:00
    nodejs/python
    Tink
        9
    Tink  
    PRO
       2016-04-27 16:06:42 +08:00
    这个貌似叫离线浏览器?
    wmhx
        10
    wmhx  
       2016-04-27 16:39:43 +08:00
    wget 啊, 一丢丢的
    qq839994901
        11
    qq839994901  
       2016-04-27 18:44:59 +08:00
    scrapy
    Ouyangan
        12
    Ouyangan  
       2016-04-27 18:55:58 +08:00
    java 不能本地么......
    break
        13
    break  
       2016-04-27 19:12:28 +08:00 via iPhone
    都是 html 的话, wget 就可以了, wget 的镜像复制命令
    imn1
        14
    imn1  
       2016-04-27 19:19:33 +08:00
    爬虫很多,能用正则的不多
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2402 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 01:50 PVG 09:50 LAX 18:50 JFK 21:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86