分享下爬山虎采集器的自动识别算法动态图 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oness
V2EX    分享创造

分享下爬山虎采集器的自动识别算法动态图

  •  
  •   oness 2017-12-29 21:26:29 +08:00 5401 次点击
    这是一个创建于 2850 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前的主题都是文字性描述,可能不够直观。之前:t/411413
    估计很多人没看明白,或者看不下去(体验不好。。。

    刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。

    1.东方财富网的采集效果


    2.新浪新闻的采集效果


    3.v2 的效果


    测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。

    目前来说,列表数据和分页的识别率都还可以。
    相对于其他采集软件来说,优势就是稍微简单、方便点。

    爬山虎采集器网站: http://www.51pashanhu.com/
    (网站目前来说,做的很烂,准备优化一下 )
    26 条回复    2018-01-07 19:48:06 +08:00
    slgz
        1
    slgz  
       2017-12-30 17:09:17 +08:00
    马克
    fange01
        2
    fange01  
       2017-12-30 18:36:27 +08:00
    体验了淘宝和京东,不错。
    faketemp
        3
    faketemp  
       2018-01-02 14:28:24 +08:00 via iPhone
    局域网中无法使用吗 打开软件一直提示请确认系统日期正确,软件即将关闭 然后就自动退出?@oness
    NirvanaCN
        4
    NirvanaCN  
       2018-01-03 10:25:52 +08:00
    简单使用了下,确实比较简单好上手,但是发现两个问题:1.官网显示免费版可导出 CSV,实际只能 1000 条 /天 TXT ; 2.脚本命令必须付费才能使用,这点比较蛋疼
    oness
        5
    oness  
    OP
       2018-01-03 10:45:19 +08:00
    @faketemp 目前只能在联网状态下用
    jyf
        6
    jyf  
       2018-01-03 12:30:41 +08:00   1
    @oness 你这样搞还是以前共享软件的思路 建议你改变思路 让每个运行者通过自己的独特 ip 来对他人提供收费服务 赚取到的费用来用支撑他使用你这个软件的权限 把平台做起来多好
    faketemp
        7
    faketemp  
       2018-01-03 12:42:26 +08:00 via iPhone
    @oness 既然已经限制了免费版的核心功能 就没必要必须联网使用了吧?比如想在局域网中统计内网网站少量数据啥的 很不方便建议考虑。还有字段设置正则表达式替换时“.”好像不支持匹配换行?建议增加多行模式
    oness
        8
    oness  
    OP
       2018-01-03 13:31:23 +08:00
    @jyf 嗯,这个思路很好。但是因为技术局限。很难把这种 P2P 模式做好,做文档。
    oness
        9
    oness  
    OP
       2018-01-03 13:36:13 +08:00
    @faketemp 的确有在内网采集的需求,我在考虑下。 正则表达式后面会加几个配置选择。感谢建议
    oness
        10
    oness  
    OP
       2018-01-03 13:36:42 +08:00
    @NirvanaCN 这个网站还没更新,稍后就改
    faketemp
        11
    faketemp  
       2018-01-03 15:04:40 +08:00
    @oness 还有测试使用爬山虎时类似下面内容列表如何准确识别呢? Xpath 需要手工修改吗?请教……
    比如 http://www.shui5.cn/article/NaShuiTiaoZhen/
    Myflos
        12
    Myflos  
       2018-01-03 15:50:54 +08:00
    @oness 可以爬 58 的手机号吗
    oness
        13
    oness  
    OP
       2018-01-03 19:29:30 +08:00
    @Myflos 应该可以
    oness
        14
    oness  
    OP
       2018-01-03 19:29:46 +08:00
    @faketemp 修改列表 xpath ://div[@class='arcList']/ul/li
    faketemp
        15
    faketemp  
       2018-01-04 08:49:54 +08:00
    @oness 这样设置无法正确解析列表元素,具体如图
    ![xJv3e.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJv3e.jpg)

    想要的结果图类似下图(问题是图中仅采集了各段首条信息,段中其他条目数据如何设置才能同时采集到?)
    ![xJWpc.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJWpc.jpg)
    yanza
        16
    yanza  
       2018-01-04 10:58:39 +08:00
    挺不错的,不过代理只能添加一个,如果可以设置成批量添加代理就更好了,使用一个代理很容易被封
    oness
        17
    oness  
    OP
       2018-01-04 12:18:12 +08:00
    @faketemp 用 //div[@class='arcList']/ul/li xpath,然后点击字段列的下拉菜单,“选择元素”,然后点击要列表其中一项就可以。
    oness
        18
    oness  
    OP
       2018-01-04 12:19:36 +08:00
    @yanza 代理的话,正准备强化下,提供 adsl 拨号和路由器拨号 2 种
    chroming
        19
    chroming  
       2018-01-04 18:35:36 +08:00
    只有 Win 端啊
    oness
        20
    oness  
    OP
       2018-01-04 19:34:49 +08:00
    @chroming 嗯,只会 win。。。
    muyan
        21
    muyan  
       2018-01-05 09:39:52 +08:00
    老铁,软件免费不
    oness
        22
    oness  
    OP
       2018-01-05 11:03:49 +08:00
    @muyan 有免费版本
    buyaoshuohua
        23
    buyaoshuohua  
       2018-01-05 17:20:16 +08:00
    有类似的软件了 八爪鱼 火车头都可以吧
    oness
        24
    oness  
    OP
       2018-01-05 19:11:19 +08:00
    @buyaoshuohua 嗯,相比其他采集器软件,爬山虎更加简单、易用些。上手感受下就知道差异了
    fange01
        25
    fange01  
       2018-01-05 23:22:44 +08:00
    能发布到哪些网站?
    oness
        26
    oness  
    OP
       2018-01-07 19:48:06 +08:00
    @fange01 主流 cms, dz,wordpress,dede 等待
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2528 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 06:28 PVG 14:28 LAX 23:28 JFK 02:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86