分享一个有趣的小发现

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3690 days ago, the information mentioned may be changed or developed.

只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的，好像国内对数据抓取都特别狂热，特别 python 都已经变成了爬虫工具了，跟一些不了解 python 的朋友说 python ，一些朋友反映就是写爬虫的那个工具是吧！

Supplement 1 Apr 20, 2016

我犯贱的补充一句，其实我个人也在写一个爬虫项目，但是我认为数据处理和存储比抓取要难度大多了，实现了一些功能（本来就没啥功能）再加上个人代码水平实在不咋地，感觉实在是一个人开发太累了，有人有兴趣一起开发么？如果有的话，就打算开源出来了

Supplement 2 Apr 21, 2016

有点歪楼了，很多都涉及到法律了！基本上两派声音， 1.外国人比国人更狂热的做这个但是不怎么放出来 2.国内由于培训教程都是教你怎么弄，大家都这么学产生的

Python

爬虫

spider

Scrapy

34 replies 2016-04-21 11:02:07 +08:00

loading

Apr 20, 2016 via Android

楼主，听说过版权吗？

markocen

Apr 20, 2016

这是为什么呢

hansnow

Apr 20, 2016

因为国内很多做数据科学方面的人（尤其是学生）很喜欢用吧，大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫

murmur

Apr 20, 2016

nutch 是啥东西呢？
于是说版权国内研究到不说国内看不起 java 的多吧？

aksoft

Apr 20, 2016

只能说明大部分人在追风，看书，没有创新能力

murmur

Apr 20, 2016

scrapy 这个怎么看也不像国人做的项目。。

mkeith

Apr 20, 2016

这也能扯到国内国外啊...

hechaqu

Apr 20, 2016

那这说明什么呢？

Mark24

Apr 20, 2016

大部分的入门教程都是以爬虫吸引眼球的

dibage

Apr 20, 2016

怎么说呢，国内用 py 的大部分分为两种：写正常脚本的，如机器学习、网站建设；写黑客脚本的，如扫描、爬虫。。当然，后者比较容易入门

hxndg

Apr 20, 2016

我感觉是主要是因为 python 写的很快。。。。
虽然我也在学 c++，但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。

Wangxf

&nsp;Apr 20, 2016

爬虫很容易获得成就感，就跟第一次接触到前端的人一样，而且在外人看来也很装逼，“爬虫”一词让外行不明觉厉

Surfer

Apr 20, 2016

@markocen 喜欢这个像素头像！

SlipStupig

Apr 20, 2016

@murmur 我说的是基本，代表很多，而不是全部，你非要找出例外出来，我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的，你可以继续找例外出来

menc

Apr 20, 2016

@SlipStupig 你这个有偏颇啊
最大的爬虫项目 scrapy 是外国人写的
外国人还不满足，成立了一个爬虫项目的联盟叫 scraping hub ，你可以看看，很多 python 下名气很大的爬虫框架加入。
外国人还专门写书， Oreilly 的新书 web scraping with python 可以看看，各种爬虫的奇淫巧计都有，甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。

allan888

Apr 20, 2016

@SlipStupig 你看到了表面而已。
事实是数据大家都需要，不存在国内就更狂热。
只是国外的大网站 API 更开放，又或者有些网站提供数据直接下载，没必要自己爬而已。
在深层次就是国外开放了也没人能超过你，国内公司危机意识强点。
非要说国别的区别的话，我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。
@hansnow 你对比过？你可以去 kaggle 看看国外是不是也用 Python 。

murmur

Apr 20, 2016

@SlipStupig 万物基于米 ui 开发所以是中国人搞的多

yangzj1992

Apr 20, 2016

我也认为国外公司 API 确实更开放是一个原因

zonghua

Apr 20, 2016

Python 的编码这么痛心，真不知道你们是怎么处理的。

sensui7

Apr 20, 2016

其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思.

fifuygg

Apr 20, 2016

@zonghua python3 + ubuntu 没有遇到过编码问题了

就像你第一个 web 应用基本都是博客而不是商城一样

wy315700

Apr 20, 2016

国外版权管的紧，
爬数据理论上是侵犯版权的事情。

yumijie

Apr 20, 2016

国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?

penjianfeng

Apr 20, 2016

我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||

SlipStupig

Apr 20, 2016

@yumijie 很多都是你自己留下的

kirisetsz

Apr 21, 2016

@zonghua 没有 HTTP Header 没有 <meta/> 还有 chardet 呀 (笑)

@loading @wy315700 @yumijie 搜索引擎爬取页面算不算侵犯版权呢 (笑)

爬虫框架很 OK 啊，永远不嫌少，语法越甜越好。小爬虫外国人写的也多，只是不放到 GitHub 上罢了 curl awk sed 解决的事情为什么用 Python 然后放到 GitHub 上去呢？

wy315700

Apr 21, 2016

@kirisetsz 搜索引擎只能爬公开内容吧，你看 facebook 里面的内容哪个搜索引擎能搜到

Slienc7

Apr 21, 2016 via Android

@kirisetsz 有可能算，比如 360 被告过不遵守 robots.txt ，当然这个问题不在爬取阶段。
针对某一站点爬取频率过高完全可以看作攻击，这种情况可以起诉。

dapang1221

Apr 21, 2016 via Android

学会 Python 后第一件事准是写爬虫，写爬虫爬的第一个网站准是豆瓣……这都是套路（笑）

kirisetsz

Apr 21, 2016 via Android

@wy315700 @Slienc7 所以只要遵守 robot 就可以了，不过我不认为这是楼主想谈论的问题，爬虫为什么国人的多这个原因不应该扯上版权问题…

wy315700

Apr 21, 2016

@kirisetsz 不就是喜欢爬别人数据然后自己做个站吗，或者是爬别人数据做分析

Slienc7

Apr 21, 2016 via Android

@kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面，网站所有人可能默认不会被爬取，因为正常搜索引擎爬虫不会这么做，但是私人爬虫爬取往往会针对某一网站进行不友善的抓取，例如注册大量账号，使用大量代理 IP ，还有部分可能会先在某网站为账号购买收费服务，然后再抓取某些不应被抓取的部分，这可能就会侵犯权利人权利了。
爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程，这个应该是主要的潜在版权问题。

jy02201949

Apr 21, 2016

就跟很多学完 php 用来撸博客一样
1 、不仅有现成的轮子，也有从零教你 XXX 的教程，容易上手
2 、撸的过程中能学到很多其他的东西，博客要怎么部署到 vps 上，爬虫怎么构造请求怎么识别验证码等等
3 、有实用性，弄完可以自己用，写博客、爬小说漫画

jy02201949

Apr 21, 2016

。。。本来想回复某一层的，结果忘记 @了，导致回复文不对题