分享一个有趣的小发现 - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
SlipStupig

分享一个有趣的小发现

  •  
  •   SlipStupig Apr 20, 2016 7038 views
    This topic created in 3690 days ago, the information mentioned may be changed or developed.
    只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的,好像国内对数据抓取都特别狂热,特别 python 都已经变成了爬虫工具了,跟一些不了解 python 的朋友说 python ,一些朋友反映就是写爬虫的那个工具是吧!
    Supplement 1    Apr 20, 2016
    我犯贱的补充一句,其实我个人也在写一个爬虫项目,但是我认为数据处理和存储比抓取要难度大多了,实现了一些功能(本来就没啥功能)再加上个人代码水平实在不咋地,感觉实在是一个人开发太累了,有人有兴趣一起开发么?如果有的话,就打算开源出来了
    Supplement 2    Apr 21, 2016
    有点歪楼了,很多都涉及到法律了!基本上两派声音, 1.外国人比国人更狂热的做这个但是不怎么放出来 2.国内由于培训教程都是教你怎么弄,大家都这么学产生的
    34 replies    2016-04-21 11:02:07 +08:00
    loading
        1
    loading  
       Apr 20, 2016 via Android
    楼主,听说过版权吗?
    markocen
        2
    markocen  
       Apr 20, 2016
    这是为什么呢
    hansnow
        3
    hansnow  
       Apr 20, 2016
    因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫
    murmur
        4
    murmur  
       Apr 20, 2016   1
    nutch 是啥东西呢?
    于是说版权 国内研究 到不说国内看不起 java 的多吧?
    aksoft
        5
    aksoft  
       Apr 20, 2016
    只能说明大部分人在追风,看书,没有创新能力
    murmur
        6
    murmur  
       Apr 20, 2016
    scrapy 这个怎么看也不像国人做的项目。。
    mkeith
        7
    mkeith  
       Apr 20, 2016
    这也能扯到国内国外啊...
    hechaqu
        8
    hechaqu  
       Apr 20, 2016
    那这说明什么呢?
    Mark24
        9
    Mark24  
       Apr 20, 2016
    大部分的入门教程都是以爬虫吸引眼球的
    dibage
        10
    dibage  
       Apr 20, 2016
    怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门
    hxndg
        11
    hxndg  
       Apr 20, 2016
    我感觉是主要是因为 python 写的很快。。。。
    虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。
    Wangxf
        12
    Wangxf  
      &nsp;Apr 20, 2016
    爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉
    Surfer
        13
    Surfer  
       Apr 20, 2016
    @markocen 喜欢这个像素头像!
    SlipStupig
        14
    SlipStupig  
    OP
       Apr 20, 2016
    @murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来
    menc
        15
    menc  
       Apr 20, 2016
    @SlipStupig 你这个有偏颇啊
    最大的爬虫项目 scrapy 是外国人写的
    外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。
    外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。
    allan888
        16
    allan888  
       Apr 20, 2016
    @SlipStupig 你看到了表面而已。
    事实是数据大家都需要,不存在国内就更狂热。
    只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。
    在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。
    非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。
    @hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。
    murmur
        17
    murmur  
       Apr 20, 2016
    @SlipStupig 万物基于米 ui 开发 所以是中国人搞的多
    yangzj1992
        18
    yangzj1992  
       Apr 20, 2016
    我也认为国外公司 API 确实更开放是一个原因
    zonghua
        19
    zonghua  
       Apr 20, 2016
    Python 的编码这么痛心,真不知道你们是怎么处理的。
    sensui7
        20
    sensui7  
       Apr 20, 2016
    其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
    举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思.
    fifuygg
        21
    fifuygg  
       Apr 20, 2016
    @zonghua python3 + ubuntu 没有遇到过编码问题了

    就像你第一个 web 应用基本都是 博客 而不是 商城 一样
    wy315700
        22
    wy315700  
       Apr 20, 2016
    国外版权管的紧,
    爬数据理论上是侵犯版权的事情。
    yumijie
        23
    yumijie  
       Apr 20, 2016
    国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?
    penjianfeng
        24
    penjianfeng  
       Apr 20, 2016
    我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||
    SlipStupig
        25
    SlipStupig  
    OP
       Apr 20, 2016
    @yumijie 很多都是你自己留下的
    kirisetsz
        26
    kirisetsz  
       Apr 21, 2016
    @zonghua 没有 HTTP Header 没有 <meta/> 还有 chardet 呀 (笑)

    @loading @wy315700 @yumijie 搜索引擎爬取页面算不算侵犯版权呢 (笑)

    爬虫框架很 OK 啊,永远不嫌少,语法越甜越好。小爬虫外国人写的也多,只是不放到 GitHub 上罢了 curl awk sed 解决的事情为什么用 Python 然后放到 GitHub 上去呢?
    wy315700
        27
    wy315700  
       Apr 21, 2016
    @kirisetsz 搜索引擎只能爬公开内容吧,你看 facebook 里面的内容哪个搜索引擎能搜到
    Slienc7
        28
    Slienc7  
       Apr 21, 2016 via Android
    @kirisetsz 有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。
    针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。
    dapang1221
        29
    dapang1221  
       Apr 21, 2016 via Android   1
    学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑)
    kirisetsz
        30
    kirisetsz  
       Apr 21, 2016 via Android
    @wy315700 @Slienc7 所以只要遵守 robot 就可以了,不过我不认为这是楼主想谈论的问题,爬虫为什么国人的多这个原因不应该扯上版权问题…
    wy315700
        31
    wy315700  
       Apr 21, 2016
    @kirisetsz 不就是喜欢爬别人数据然后自己做个站吗,或者是爬别人数据做分析
    Slienc7
        32
    Slienc7  
       Apr 21, 2016 via Android
    @kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。
    爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。
    jy02201949
        33
    jy02201949  
       Apr 21, 2016
    就跟很多学完 php 用来撸博客一样
    1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手
    2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等
    3 、有实用性,弄完可以自己用,写博客、爬小说漫画
    jy02201949
        34
    jy02201949  
      Apr 21, 2016
    。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题
    About     Help     Advertise     Blog     API     FAQ     Solana     3226 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 92ms UTC 13:12 PVG 21:12 LAX 06:12 JFK 09:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86