一款全新的网页数据采集工具:爬山虎 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oness
V2EX    分享创造

一款全新的网页数据采集工具:爬山虎

  •  
  •   oness 2017-12-02 17:26:25 +08:00 17614 次点击
    这是一个创建于 2927 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    现在互联网上有这么多的采集器,我们为什么要开发爬山虎呢?

    原因很简单,大部分已有的软件用起来不爽,于是我们就自己开发了一个。

    特性

    爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件,我们:

    1. 放弃了花哨的界面,换之以快速流畅的体验。
    2. 放弃了复杂的规则配置,开发了智能的自动提取算法。
    3. 在基于浏览器的可视化操作上,同时保留了快速的 HTTP 引擎架构。

    爬山虎采集器在保持了用户体验、用户低学习成本的同时,兼顾了软件的数据抓取效率。

    数据采集

    爬山虎采集器能够采集互联网上的绝大部分网页,比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。

    发布数据

    在采集到数据后,还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。

    当然爬山虎采集器作为一个新上场的选手,跟前辈们相比,可能会有些缺点、问题。

    欢迎您下载试用,并且给我们提供宝贵的意见。(如果你懒得下载,可以看下网站首页的演示视频:)

    爬山虎采集器网站

    爬山虎采集器 编辑器 爬山虎采集器

    第 1 条附言    2017-12-23 01:51:18 +08:00

    补充下

    采集功能:

    可自动分析网页结构,自动提取数据。还有可以自动识别分页。支持下载图片、文件。对于复杂的页面,可以深入采集多级页面,灵活配置。

    新版增加的功能:

    1. 增加了采集前执行脚本命令功能,对于一些单页程序,可以自动填写表单,点击,运行JS代码。
    2. 增加了瀑布流分页,针对类似微博、今日头条这种瀑布流网页,采集非常方面,不用自己去分析抓包。

    关于免费版本:

    目前免费版能够导出txt 1千条/每天,我觉得应该足够一般用户使用。

    除此,还有一些高级功能限制,比如: 增量更新、下载文件、计划任务、自定义屏蔽请求

    第 2 条附言    2017-12-29 20:47:29 +08:00
    之前的描述可能不够直观,贴张自动识别算法的效果图吧

    81 条回复    2018-10-01 13:13:16 +08:00
    ResidualSoils
        1
    ResidualSoils  
       2017-12-02 17:40:18 +08:00
    不开源的话不会是打算用来挣钱吧?
    hundan
        2
    hundan  
       2017-12-02 17:46:13 +08:00 via Android
    一楼这话听着怎么这么别扭
    oh
        3
    oh  
       2017-12-02 17:57:30 +08:00 via iPhone   9
    来发个软件用来挣钱有啥问题吗……
    i730
        4
    i730  
       2017-12-02 19:22:20 +08:00 via Android
    一楼。。。。。。
    1931
        5
    1931  
       2017-12-02 19:26:06 +08:00 via iPhone
    P2p 种子搜索神器宇宙超级无敌加强版
    est
        6
    est  
       2017-12-02 19:29:58 +08:00
    bandicam 亮点。
    ctsed
        7
    ctsed  
       2017-12-02 19:31:40 +08:00 via Android
    @ResidualSoils 碍着你了?
    dzxx36gyy
        8
    dzxx36gyy  
       2017-12-02 20:09:22 +08:00   1
    客户端软件为啥要用导出数据条数区分不同套餐... 感觉这个一般是在线服务才这么搞吧,为啥不以导出的数据源类型以及其他售后服务来区分套餐_(:з」∠)_
    oness
        9
    oness  
    OP
       2017-12-02 20:26:48 +08:00
    @dzxx36gyy 感谢建议,我在好好想下
    f2f2f
        10
    f2f2f  
       2017-12-02 20:35:32 +08:00   2
    现在一在 v2 看到爬虫我就想到了煎蛋……
    gouchaoer
        11
    gouchaoer  
       2017-12-02 20:56:31 +08:00 via Android
    面向开发者不太讨好的说
    cxd44
        12
    cxd44  
       2017-12-02 21:33:11 +08:00 via Android
    迫切想体验
    cxd44
        13
    cxd44  
       2017-12-02 21:34:32 +08:00 via Android
    价格 499 元没有优惠了吗
    cxd44
        14
    cxd44  
       2017-12-02 21:35:41 +08:00 via Android
    支持采集论坛帖子的附件吗?
    lhx2008
        15
    lhx2008  
       2017-12-02 21:48:58 +08:00 via Android
    和同类软件比,比如火车头比,没什么竞争力吧。
    和自己写程序比,反爬虫,复杂的 ajax 数据,登录,验证码识别这些基本做不了
    oness
        16
    oness  
    OP
       2017-12-02 22:08:09 +08:00
    @lhx2008 验证码目前还在开发,其他的都可以解决的。
    正是看到火车头、八爪鱼他们的优劣势,我才自己开发了这个。
    oness
        17
    oness  
    OP
       2017-12-02 22:09:10 +08:00
    @cxd44 赶紧体检,账号名发我,给你开通个权限
    yeshang
        18
    yeshang  
       2017-12-02 22:22:21 +08:00
    @oness 可以帮我开通个权限吗? 账号名同 V2EX ID
    oness
        19
    oness  
    OP
       2017-12-02 22:27:42 +08:00
    @yeshang 可以
    yeshang
        20
    yeshang  
       2017-12-02 22:31:00 +08:00
    @oness 非常感谢. 等上班的时候使用一段时间啊.
    yeshang
        21
    yeshang  
       2017-12-02 22:32:06 +08:00
    用户后台登入信息一直是这个: 小 bug

    登陆统计
    本次登录 IP:36.*.*.2
    上次登录 IP:36.*.*.2
    注册时间:2017/3/22 20:04:56
    上次登录时间:2017/3/22 20:04:56
    oness
        22
    oness  
    OP
       2017-12-02 23:03:01 +08:00
    @yeshang 一个月经验的 web 程序员表示尽快改[捂脸]
    cxd44
        23
    cxd44  
       2017-12-02 23:03:10 +08:00 via Android
    @oness 账户 cxd44,谢谢
    oness
        24
    oness  
    OP
       2017-12-02 23:36:48 +08:00
    @cxd44 你先注册一个账号- -!
    yakun4566
        25
    yakun4566  
       2017-12-02 23:52:29 +08:00
    yakun4566 老铁 给个权限,先谢谢咯
    cxd44
        26
    cxd44  
       2017-12-03 08:51:57 +08:00 via Android
    @oness 做好啦
    BlueFly
        27
    BlueFly  
       2017-12-03 14:34:22 +08:00
    如果可以,也申请一个测试账号,ID 同名,谢谢
    oness
        28
    oness  
    OP
       2017-12-03 15:11:45 +08:00
    @BlueFly 已经开通一个月标准版
    BlueFly
        29
    BlueFly  
       2017-12-03 15:52:57 +08:00
    @oness 谢谢,程序非 UTF8 ?英文 Windows 上半乱码,任务列表
    gelilaohuang
        30
    gelilaohuang  
       2017-12-03 16:12:30 +08:00
    求个号体验 id 同名
    imnpc
        31
    imnpc  
       2017-12-03 17:11:14 +08:00
    @oness ID:imnpc 求测试体验
    oness
        32
    oness  
    OP
       2017-12-03 18:09:03 +08:00
    @BlueFly 就任务列表的节点乱码吗?其他正常?
    bb2018
        33
    bb2018  
       2017-12-03 20:48:35 +08:00
    同求个号体验 id 同名  bb2018
    oness
        34
    oness  
    OP
       2017-12-03 21:18:02 +08:00
    @bb2018 @imnpc @gelilaohuang
    已经开通一个月标准版,赠送今天就到此为止啦
    BlueFly
        35
    BlueFly  
       2017-12-03 23:07:22 +08:00
    @oness 菜单栏没乱码,但默认自带写好的规则是乱码
    jisibencom
        36
    jisibencom  
       2017-12-04 08:29:37 +08:00
    收费为什么我不用成熟的火车头呢
    oness
        37
    oness  
    OP
       2017-12-04 09:45:25 +08:00
    @jisibencom 也有免费版,大部分的数据采集免费版就够了。
    相比火车头,也容易上手一点。
    mikii
        38
    mikii  
       2017-12-04 14:23:39 +08:00
    开发给个权限体验下,账号:mikii
    glchaos
        39
    glchaos  
       2017-12-05 00:11:32 +08:00
    如果可以,还请开个权限体验下,账号 glchaos,谢谢
    frankyxu
        40
    frankyxu  
       2017-12-05 09:31:49 +08:00
    如果可以,还请开个权限体验下,账号 franky,谢谢
    zhangfeiwudi
        41
    zhangfeiwudi  
       2017-12-06 15:49:10 +08:00
    可以爬指定人的淘宝订单吗
    q99103248
        42
    q99103248  
       2017-12-08 12:02:35 +08:00
    不知道能不能通过 api 来动态修改爬取列表呢,在用八爪鱼,发现没有这个 api,只能手动提交链接,很是不爽
    oness
        43
    oness  
    OP
       2017-12-09 11:36:09 +08:00
    @zhangfeiwudi 你有该指定人的账号密码,就可以
    @q99103248 api 目前木有。不过你可以通过代码修改爬山虎采集器的任务 XML,来修改爬取列表。
    zhangfeiwudi
        44
    zhangfeiwudi  
       2017-12-09 19:59:01 +08:00
    @oness 验证码也能过? 淘宝的滑动验证码
    oness
        45
    oness  
    OP
       2017-12-09 23:55:57 +08:00
    @zhangfeiwudi 目前登陆是手动登陆,所以是可以的。
    但是只针对单个人的,批量账号就木办法了。
    1ku
        46
    1ku  
       2017-12-11 15:06:29 +08:00
    怎么去知乎提示浏览器版本过低,我最新版 Chrome
    oness
        47
    oness  
    OP
       2017-12-11 18:12:39 +08:00
    @1ku 在第三步 设置里,修改下 UA
    1ku
        48
    1ku  
       2017-12-12 09:15:39 +08:00
    @oness 在第一步就是这提示的
    oness
        49
    oness  
    OP
       2017-12-12 09:35:55 +08:00
    @1ku 额,先随便建个字段,到第三部设置,然后回到第二步清空字段,重新加载下网页。
    目前浏览器设置放在第三步,可能有点不合理。
    1ku
        50
    1ku  
       2017-12-12 09:49:33 +08:00
    @oness 放在第三部超级不合理是其一;其二添加字段和修改字段名称的交互可以再吻合协调一下的,一左一右会逼死强迫症,对了,浏览器问题解决了,但是爬知乎的图片,没成功过一次,好尴尬;其三,官方的交流群没人吗?加了好几次了
    oness
        51
    oness  
    OP
       2017-12-12 10:31:06 +08:00
    @1ku 谢谢建议,后续优化一下
    hardman
        52
    hardman  
       2017-12-13 22:42:12 +08:00
    这是用啥写的
    oness
        53
    oness  
    OP
       2017-12-14 20:37:54 +08:00
    @hardman .net
    oness
        55
    oness  
    OP
       2017-12-19 16:31:59 +08:00
    测试了下,这个网站要手动选择下列表。
    或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1]
    oness
        56
    oness  
    OP
       2017-12-19 16:32:31 +08:00
    taurenshaman
        57
    taurenshaman  
       2017-12-20 10:01:26 +08:00
    @oness
    默认分类的第一页可以抓到了。
    还有 2 个问题 -_-|||
    1、它的 URL 是固定的,如果我想从左侧选择 [特殊食品] - [保健食品] ,怎么做?这种切换,URL 是固定、不变的,都是通过 POST 请求数据。载入网页后,左侧的导航无效,只能选择字段。
    2、关于分页。目前,政府的网站正在大量使用 MmEwMD 特性(动态混淆 Javascript ),我试了手动设置分页然后点击 [下一页] ,运行的时候,只能抓到第一页的数据,第二页就没效果了。
    dengyunxuan
        58
    dengyunxuan  
       2017-12-20 14:22:14 +08:00
    如果可以,还请开个权限体验下,账号 yimosecai,谢谢
    oness
        59
    oness  
    OP
       2017-12-20 15:51:14 +08:00
    @taurenshaman
    1. 这个需求已经搞定,采集前执行脚本命令,这几天发布
    2. 看了下,这个页面第一页和第二页的列表结构不同,可设置列表 Xpath://table/tbody[1]/tr//td[1]/p[1]
    oness
        60
    oness  
    OP
       2017-12-20 15:53:05 +08:00
    @dengyunxuan 免费版可以使用大部分功能的。直接下载
    iambin
        61
    iambin  
       2017-12-22 18:28:20 +08:00
    爬山虎用过,挺好上手的,先不说功能如何,不过这免费版也太水了吧 只能导出一千条 txt 这也叫免费版可以使用大部分功能 ??? 付费没问题 ,限制条数也算了 ,起码要让用户知道你这除了导出 txt 之外的其他导出是否实用吧
    bravecarrot
        62
    bravecarrot  
       2017-12-23 01:08:26 +08:00 via iPhone
    可以把广告打得详细一点,包括功能和收费情况;
    需要数据的时候自己爬确实麻烦
    oness
        63
    oness  
    OP
       2017-12-23 01:36:13 +08:00
    @iambin 免费版本每天导出 1K txt,相比同类软件导出按照积分,我觉得要实在点。
    其他导出是否实用这个问题,后面考虑增加试用版。
    oness
        64
    oness  
    OP
       2017-12-23 01:39:01 +08:00
    @bravecarrot 谢谢建议。尤其是对不会程序代码的人来说,好的工具就是生产力
    sxw11
        65
    sxw11  
       2017-12-24 01:31:45 +08:00
    为什么火绒和 360 都报木马呢?能不能解释一哈。。
    oness
        66
    oness  
    OP
       2017-12-24 10:12:26 +08:00
    @sxw11 ... 肯定是误报,我去看看提交下
    oness
        67
    oness  
    OP
       2017-12-27 00:06:02 +08:00
    @sxw11 测试了火绒,正常,没有报木马。
    zenze
        68
    zenze  
       2017-12-28 10:29:27 +08:00
    反馈个问题 为何官网下载安装包 速度如此之慢,迅雷一直只有 6kb/s.....
    xuebi1109
        69
    xuebi1109  
       2017-12-28 11:10:59 +08:00
    rickwise
        70
    rickwise  
       2017-12-28 11:22:40 +08:00 via iPhone
    @oness 还有赠送么?
    oness
        71
    oness  
    OP
       2017-12-28 13:50:33 +08:00
    @zenze 谢谢反馈。你是什么网络
    oness
        72
    oness  
    OP
       2017-12-28 13:51:04 +08:00
    @rickwise 木有了。先试试免费版吧
    zenze
        73
    zenze  
       2017-12-28 13:58:43 +08:00
    @oness 上海电信 就上午反馈那个时间点 现在稍微好点 100kb/s 左右
    graetdk
        74
    graetdk  
       2017-12-29 09:37:06 +08:00
    如果是客户端的话,不能换 IP 很容易被封啊
    oness
        75
    oness  
    OP
       2017-12-29 11:45:44 +08:00
    @graetdk,自动换 IP 更新正在开发:)
    graetdk
        76
    graetdk  
       2017-12-29 13:19:29 +08:00
    @oness 要是搞个 Mac 版就更好了
    vus520
        77
    vus520  
       2017-12-29 18:48:54 +08:00
    我记得火车头也支持这几个功能,可视化,xpath,自动分页什么的
    oness
        78
    oness  
    OP
       2017-12-29 20:49:08 +08:00
    @vus520 刚追加了效果图,可以看看
    geekyoung
        79
    geekyoung  
       2018-01-03 10:53:35 +08:00
    看起来不错 帮顶
    datocp
        80
    datocp  
       2018-08-18 19:37:45 +08:00
    支持一下,最近爬公司系统的图片转换成对应的产品图号在网上搜了一下找到爬山虎马上可以上手,不像别的什么八爪鱼说是免费还要积分,还要注册登录之类。
    确实挺不错的非常容易上手,也达到了最终的目的,感谢楼主的作品,谢谢!
    Jmoment
        81
    Jmoment  
       2018-10-01 13:13:16 +08:00
    @oness 考虑开发 mac 版吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5899 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 55ms UTC 02:21 PVG 10:21 LAX 18:21 JFK 21:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86