只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的,好像国内对数据抓取都特别狂热,特别 python 都已经变成了爬虫工具了,跟一些不了解 python 的朋友说 python ,一些朋友反映就是写爬虫的那个工具是吧!

1 loading Apr 20, 2016 via Android 楼主,听说过版权吗? |
2 markocen Apr 20, 2016 这是为什么呢 |
3 hansnow Apr 20, 2016 因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫 |
4 murmur Apr 20, 2016 nutch 是啥东西呢? 于是说版权 国内研究 到不说国内看不起 java 的多吧? |
5 aksoft Apr 20, 2016 只能说明大部分人在追风,看书,没有创新能力 |
6 murmur Apr 20, 2016 scrapy 这个怎么看也不像国人做的项目。。 |
7 mkeith Apr 20, 2016 这也能扯到国内国外啊... |
8 hechaqu Apr 20, 2016 那这说明什么呢? |
9 Mark24 Apr 20, 2016 大部分的入门教程都是以爬虫吸引眼球的 |
10 dibage Apr 20, 2016 怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门 |
11 hxndg Apr 20, 2016 我感觉是主要是因为 python 写的很快。。。。 虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。 |
12 Wangxf &nsp;Apr 20, 2016 爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉 |
14 SlipStupig OP @murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来 |
15 menc Apr 20, 2016 @SlipStupig 你这个有偏颇啊 最大的爬虫项目 scrapy 是外国人写的 外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。 外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。 |
16 allan888 Apr 20, 2016 @SlipStupig 你看到了表面而已。 事实是数据大家都需要,不存在国内就更狂热。 只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。 在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。 非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。 @hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。 |
17 murmur Apr 20, 2016 @SlipStupig 万物基于米 ui 开发 所以是中国人搞的多 |
18 yangzj1992 Apr 20, 2016 我也认为国外公司 API 确实更开放是一个原因 |
19 zonghua Apr 20, 2016 Python 的编码这么痛心,真不知道你们是怎么处理的。 |
20 sensui7 Apr 20, 2016 其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多. 举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思. |
22 wy315700 Apr 20, 2016 国外版权管的紧, 爬数据理论上是侵犯版权的事情。 |
23 yumijie Apr 20, 2016 国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的? |
24 penjianfeng Apr 20, 2016 我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-|| |
25 SlipStupig OP @yumijie 很多都是你自己留下的 |
26 kirisetsz Apr 21, 2016 |
28 Slienc7 Apr 21, 2016 via Android @kirisetsz 有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。 针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。 |
29 dapang1221 Apr 21, 2016 via Android 学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑) |
30 kirisetsz Apr 21, 2016 via Android |
32 Slienc7 Apr 21, 2016 via Android @kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。 爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。 |
33 jy02201949 Apr 21, 2016 就跟很多学完 php 用来撸博客一样 1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手 2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等 3 、有实用性,弄完可以自己用,写博客、爬小说漫画 |
34 jy02201949 Apr 21, 2016 。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题 |