继续推荐自己的爬虫,我会一直不断更新这个工程; - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
intohole
V2EX    Python

继续推荐自己的爬虫,我会一直不断更新这个工程;

  •  
  •   intohole 2017-05-10 10:29:59 +08:00 5176 次点击
    这是一个创建于 3083 天前的主题,其中的信息可能已经有所发展或是发生改变。
    上链接:
    https://github.com/intohole/xspider


    希望大家多关注,我会慢慢完善这个工程的,有需求可以给我提出 issue,谢谢大家
    21 条回复    2017-05-11 10:09:33 +08:00
    guonning
        1
    guonning  
       2017-05-10 10:40:30 +08:00 via iPhone
    整个 Google play 的爬虫
    Morriaty
        2
    Morriaty  
       2017-05-10 10:51:20 +08:00   1
    如果你的项目有明显优于`scrapy`的地方,那请重点介绍这个优点;

    如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》;

    否则,你的这个项目,除了自己练手,没有任何可分享的意义。
    yanzixuan
        3
    yanzixuan  
       2017-05-10 11:04:44 +08:00
    不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。
    xvx
        4
    xvx  
       2017-05-10 11:17:12 +08:00 via iPhone
    难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。
    intohole
        5
    intohole  
    OP
       2017-05-10 14:25:24 +08:00
    @xvx 可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue
    intohole
        6
    intohole  
    OP
       2017-05-10 14:25:57 +08:00
    @yanzixuan 这里面支持 beautifulsoup ; 我只是没写文档
    intohole
        7
    intohole  
    OP
       2017-05-10 14:27:09 +08:00
    @Morriaty 谢谢意见,这个是我在做一个信息爬取工程,里面正在改进;文档 我会慢慢丰富起来
    intohole
        8
    intohole  
    OP
       2017-05-10 14:27:48 +08:00
    @guonning 谷歌市场?可以用这个里面写的,只需要你会写 xpath css selector 就可以了
    intohole
        9
    intohole  
    OP
       2017-05-10 14:28:21 +08:00
    @yanzixuan 后续我会加入 pyquery 的 ,谢谢你这个建议
    3b295
        10
    3b295  
       2017-05-10 15:21:49 +08:00
    @yanzixuan 我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。
    IanPeverell
        11
    IanPeverell  
       2017-05-10 15:53:57 +08:00
    楼主加油,不过……

    感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到

    scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间
    intohole
        12
    intohole  
    OP
       2017-05-10 16:01:31 +08:00
    @IanPeverell 肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;
    mikezhang0515
        13
    mikezhang0515  
       2017-05-10 16:31:54 +08:00
    MSpider 也很好
    IanPeverell
        14
    IanPeverell  
       2017-05-10 16:42:19 +08:00
    @intohole,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑

    anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去
    intohole
        15
    intohole  
    OP
       2017-05-10 16:42:21 +08:00
    @mikezhang0515 我会参考这个工程的 ,thx
    intohole
        16
    intohole  
    OP
       2017-05-10 16:42:47 +08:00
    @IanPeverell 谢谢,我会加油的
    faywong8888
        17
    faywong8888  
       2017-05-10 16:47:23 +08:00
    技术这个行业,过去一个话题的开始是写一个:hello, world。
    这个行业的现在变成了:从零写一个爬虫。
    intohole
        18
    intohole  
    OP
       2017-05-10 17:09:55 +08:00
    @faywong8888 什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注
    Yc1992
        19
    Yc1992  
       2017-05-10 17:22:36 +08:00 via Android
    加上一句,make the world a better place
    xvx
        20
    xvx  
       2017-05-11 09:08:20 +08:00 via iPhone
    @intohole sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。
    intohole
        21
    intohole  
    OP
       2017-05-11 10:09:33 +08:00
    @xvx 首先你的业务是什么? 每个人的业务都不一样,只能是大体通用 , 智能提取算法 , 你可以自己找找 paper
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     898 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 22:24 PVG 06:24 LAX 15:24 JFK 18:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86