如何快速搭建实用的爬虫管理平台 - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
tikazyq

如何快速搭建实用的爬虫管理平台

  •  2
     
  •   tikazyq
    tikazyq Aug 13, 2019 3713 views
    This topic created in 2475 days ago, the information mentioned may be changed or developed.

    文章预览

    前言

    大多数企业都离不开爬虫,爬虫是获取数据的一种有效方式。对搜索引擎来说,爬虫不可或缺;对舆情公司来说,爬虫是基础;对 NLP 来说,爬虫可以获取语料;对初创公司来说,爬虫可以获取初始内容。但是爬虫技术纷繁复杂,不同类型的抓取场景会运用到不同的技术。例如,简单的静态页面可以用 HTTP 请求+ HTML 解析器直接搞定;一个动态页面需要用 Puppeteer 或 Selenium 等自动化测试工具;有反爬的网站需要用到代理、打码等技术;等等。因此,对爬虫有规模量级要求的企业或个人需要同时处理不同类别的爬虫,这会凭空增添很多附加的管理成本。同时,爬虫管理者还需要应对网站内容变更、持续增量抓取、任务失败等问题。因此一个成熟的爬虫管理流程应该包含一个管理系统,能够有效处理上述问题。

    Crawlab 简介

    Crawlab 是基于 Golang 的分布式爬虫管理平台,支持 Python、NodeJS、Java、Go、PHP 等多种编程语言以及多种爬虫框架。 Crawlab 自今年三月份上线以来受到爬虫爱好者们和开发者们的好评,不少使用者还表示会用 Crawlab 搭建公司的爬虫平台。经过近数月的迭代,Crawlab 陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动提取字段、下载结果、上传爬虫等功能,将平台变得得更加实用,更加全面,能够真正帮助用户解决爬虫管理困难的问题。如今在 Github 上有近 1k 的 star,相关社区(微信群、微信公众号)也建立起来,四分之一的用户表示已经将 Crawlab 应用于企业爬虫管理。可以看出,Crawlab 是受开发者们关注和喜欢的。

    请大家关注这篇关于爬虫管理平台的实用文章,在掘金上。传送门: https://juejin.im/post/5d5298f05188255f7c1c4979

    关于 Crawlab 的 Github,请点击: http://github.com/tikazyq/crawlab

    谢谢 V2 上的各位大佬们

    8 replies    2019-08-14 14:10:31 +08:00
    qsnow6
        1
    qsnow6  
       Aug 13, 2019 via iPhone
    看起来很棒,比 keeperspider 要完善
    tikazyq
        2
    tikazyq  
    OP
       Aug 13, 2019
    @qsnow6 感谢支持,希望能提出建设性意见
    milk97
        3
    milk97  
       Aug 14, 2019
    点个赞,明天在公司试试,刚好老板要求直接的结果展示和定时任务
    python
        4
    python  
       Aug 14, 2019 via Android
    挺不错。尝试一下。
    tikazyq
        5
    tikazyq  
    OP
       Aug 14, 2019
    @milk97 感谢支持,可以加群随时提问
    tikazyq
        6
    tikazyq  
    OP
       Aug 14, 2019
    @python 感谢支持
    catcalse
        7
    catcalse  
       Aug 14, 2019
    pyspider 还活着吗
    tikazyq
        8
    tikazyq  
    OP
       Aug 14, 2019
    @catcalse 没有用过 pyspider,只了解了一下,不确定是否还在更新
      Help     Advertise     Blog     API     FAQ     Solana     853 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 40ms UTC 20:49 PVG 04:49 LAX 13:49 JFK 16:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86