开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
zorlan
V2EX    程序员

开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

  •  
  •   zorlan 2018-05-04 10:59:11 +08:00 8759 次点击
    这是一个创建于 2763 天前的主题,其中的信息可能已经有所发展或是发生改变。

    php+mysql 开发的数据采集发布系统

    支持 php5.3~php7

    支持多级、多页、分页抓取

    支持正则、xpath、json 匹配内容

    可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

    实现定时定量全自动采集发布

    界面自适应宽度,手机也可以操作采集

    开源地址: https://github.com/zorlan/skycaiji

    第 1 条附言    2018-05-06 14:30:51 +08:00
    此程序虽然开源但是代码经过 php_strip_whitespace 处理,下载下来 ctrl+i 还是可以看的
    33 条回复    2018-05-12 20:38:01 +08:00
    eluotao
        1
    eluotao  
       2018-05-04 11:09:02 +08:00
    支持一下...感谢你的开源分享.
    zorlan
        2
    zorlan  
    OP
       2018-05-04 11:16:38 +08:00
    @eluotao 谢谢支持哈!
    martyartrt1
        3
    martyartrt1  
       2018-05-04 11:43:46 +08:00
    支持 Js 解析么
    183387594
        4
    183387594  
       2018-05-04 11:48:30 +08:00
    共享采集规则这个也不错
    zorlan
        5
    zorlan  
    OP
       2018-05-04 12:24:28 +08:00
    @martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
    zorlan
        6
    zorlan  
    OP
       2018-05-04 12:25:00 +08:00
    @183387594 谢谢支持!还可以把规则保存到本地的
        7
    Enivel  
       2018-05-04 12:28:34 +08:00 via iPhone
    @zorlan php v8js 了解一下
    zorlan
        8
    zorlan  
    OP
       2018-05-04 12:31:02 +08:00
    @LevineChen 好东西,研究一下!
    mf2019d
        9
    mf2019d  
       2018-05-04 12:39:08 +08:00 via iPhone
    好好。
    gouchaoer
        10
    gouchaoer  
       2018-05-04 12:55:19 +08:00
    说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
    Hansah
        11
    Hansah  
       2018-05-04 13:54:21 +08:00
    挂上服务器试试
    LeungJZ
        12
    LeungJZ  
       2018-05-04 14:06:55 +08:00
    支持。
    Nott
        13
    Nott  
       2018-05-04 14:27:46 +08:00
    赞,PHP 版火车头
    gouchaoer
        14
    gouchaoer  
       2018-05-04 14:36:43 +08:00
    源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
    xjroot
        15
    xjroot  
       2018-05-04 15:08:25 +08:00
    phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
    aiseo
        16
    aiseo  
       2018-05-04 15:36:31 +08:00
    这个怎么感觉就是 php 版火车头呢
    zorlan
        17
    zorlan  
    OP
       2018-05-04 16:10:40 +08:00
    @gouchaoer 额,代码写的烂,不好意思让你们看
    zorlan
        18
    zorlan  
    OP
       2018-05-04 16:11:07 +08:00
    @aiseo 站在巨人的肩膀上
    akira
        19
    akira  
       2018-05-04 16:34:49 +08:00
    @zorlan 那不就是更应该让大家来帮忙改么
    nosay
        20
    nosay  
       2018-05-04 17:08:13 +08:00
    赞,就是 tp 版本低了点,可能是一个不稳定的因素。
    zorlan
        21
    zorlan  
    OP
       2018-05-04 19:18:14 +08:00
    @nosay tp3.2 暂时还是很稳定的,tp5 更新太频繁,等稳定了会考虑升级
    VgV
        22
    VgV  
       2018-05-05 00:24:32 +08:00
    @zorlan 这换行去掉了,开放开源思想不坚定啊。
    xttttt
        23
    xttttt  
       2018-05-05 02:16:41 +08:00
    为什么汉化只有一半看着好蛋疼
    zorlan
        24
    zorlan  
    OP
       2018-05-05 09:29:29 +08:00
    @VgV 行业竞争激烈,你懂的~
    zorlan
        25
    zorlan  
    OP
       2018-05-05 09:30:34 +08:00
    @xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢!
    files
        26
    files  
       2018-05-05 10:06:58 +08:00
    去掉换行符不让别人修改,这也叫开源?
    zorlan
        27
    zorlan  
    OP
       2018-05-05 10:35:31 +08:00
    @files 呵呵,难道不知道有个功能叫 ctrl+a ctrl+i 吗?再说了这个软件重要的是功能,你改源码干嘛?
    zorlan
        28
    zorlan  
    OP
       2018-05-05 10:47:54 +08:00
    @akira 谢谢支持,有专门技术人员维护的,大家只要反馈 bug 就可以的
    zorlan
        29
    zorlan  
    OP
       2018-05-06 08:20:54 +08:00
    哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4
    hxy100
        30
    hxy100  
       2018-05-06 14:00:10 +08:00
    @zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好!
    zorlan
        31
    zorlan  
    OP
       2018-05-06 14:29:37 +08:00
    @hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了?
    mmd1989
        32
    mmd1989  
       2018-05-10 14:24:21 +08:00
    xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢
    eluotao
        33
    eluotao  
       2018-05-12 20:38:01 +08:00
    @zorlan 我有一个网站 无法采集呢.请问如何解决?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2342 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 15:53 PVG 23:53 LAX 07:53 JFK 10:53
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86