用爬虫抓取数据,这样的行为是否合法 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
nina2000
V2EX    程序员

用爬虫抓取数据,这样的行为是否合法

  •  
  •   nina2000 span title="2016-04-05 10:55:09 +08:00">2016-04-05 10:55:09 +08:00 30819 次点击
    这是一个创建于 3566 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有个问题,求教一下给位,望知情的人告知下,用爬虫抓取数据,这样的行为有没有违法,如果算,相关的条例出处望告知下,谢谢啊!
    32 条回复    2018-02-07 11:04:39 +08:00
    dphdjy
        1
    dphdjy  
       2016-04-05 11:06:28 +08:00 via Android   1
    互联网公开资源爬取并不违法,不过要看具体怎么说,每个站都不一样,但是不对对方造成巨大影响一般没事

    但是需要尊重 Robots 协议,这是协议不是命令,不过不接受容易被 ban
    zhjits
        2
    zhjits  
       2016-04-05 12:06:26 +08:00 via iPhone
    看站点 TOS
    pimin
        3
    pimin  
       2016-04-05 12:25:35 +08:00 via Android
    我觉得爬虫抓到的都是对方允许访问的公开数据,抓数据并不违法
    通常争论比较大的应该是怎么处理数据
    比如抄别人文章发布到自己网站上
    wy315700
        4
    wy315700  
       2016-04-05 12:28:55 +08:00
    之前有人爬 facebook ,然后被抓了,坐牢的
    Shura
        5
    Shura  
       2016-04-05 12:54:07 +08:00 via Android
    @wy315700 请给出正确的新闻来源?
    fway
        6
    fway  
       2016-04-05 12:59:40 +08:00
    百毒,360 属于法外之地
    nina2000
        7
    nina2000  
    OP
       2016-04-0513:41:48 +08:00
    @zhjits TOS 是什么 能提供个链接么?
    freewarcraft
        8
    freewarcraft  
       2016-04-05 13:46:17 +08:00
    @nina2000 Term Of Serivce 用户协议
    imn1
        9
    imn1  
       2016-04-05 13:47:32 +08:00
    1.前提是网站的使用协议
    2.低频没给人家网站造成问题
    3.再利用的方式见 1 ,一般自己阅读用都是允许的,二次发布就难说了
    paulagent
        10
    paulagent  
       2016-04-05 13:49:02 +08:00
    @nina2000 服务协议,每个网站都有,你抓之前去网站看一眼。
    dallaslu
        11
    dallaslu  
       2016-04-05 13:53:52 +08:00
    @nina2000 Terms of service
    nina2000
        12
    nina2000  
    OP
       2016-04-05 13:54:53 +08:00
    @freewarcraft 好的 了解了
    lecher
        13
    lecher  
       2016-04-05 14:11:09 +08:00 via Android   1
    法律上的规定是,抓取公共展示的信息不违法,允许抓取网站内容,对公众展示内容必须提供来源及源站地址,若有版权纠纷,必须配合版权方进行内容下架,否则可以到工信部投诉举报侵权网站,投诉多了有取消域名备案的风险。
    涉及版权的经济损失,可以提起诉讼申请经济赔偿。
    nina2000
        14
    nina2000  
    OP
       2016-04-05 14:29:27 +08:00
    @lecher 能提供下出处么 先前对这块没有重视 想学习一下相关的知识
    liamxd
        15
    liamxd  
       2016-04-05 15:44:27 +08:00
    互相抄已经是趋势。你的东西被人抄,你也同时抄别人的东西。

    有的人抄了,就没事。有的人抄了就有事。看别人想不想搞你。

    保持自己不吃亏吧。
    root787
        16
    root787  
       2016-04-05 16:09:44 +08:00
    关注。
    lecher
        17
    lecher  
       2016-04-05 16:22:40 +08:00 via Android   2
    做信息聚合的都可以看看这个条例:避风港原则。
    目前来说,做搜索引擎的都在往这上面靠就是抓取、索引、展示部分信息,只要不是全文展示并及时配合版权方将无版权内容下架,可以获得避风港原则的豁免权,不用承担法律责任。

    最新出的互联网版权管理条例对信息展示增加了版权限制,未获得版权的内容,禁止对公众发布。

    按这两个条例而言,抓取是无罪的,国家更看重的是展示这方面的管理。
    nina2000
        18
    nina2000  
    OP
       2016-04-05 16:35:21 +08:00
    @lecher 好的 了解了 去学习一下 谢谢!
    binux
        19
    binux  
       2016-04-05 16:37:24 +08:00
    你用浏览器浏览「数据」合法吗?同样作为 user-agent ,爬虫怎么就不合法了。
    你非得说浏览器是你自己点出来的,那如果你装了自动翻页插件呢?

    爬虫是你写的,在你的授权和指导下运行,访问公开你通过浏览器同样可以访问的内容,怎么就不合法了。
    是否违法是在数据的使用环节,而不是抓取环节。
    SlipStupig
        20
    SlipStupig  
       2016-04-05 22:02:57 +08:00
    个人一直在想这个问题,以前写的爬虫爬到了网站备份的数据库下来,我这个算犯法嘛?
    caspartse
        21
    caspartse  
       2016-04-05 23:09:21 +08:00
    @SlipStupig 不公开,应该不违法吧。
    caspartse
      &nbs; 22
    caspartse  
       2016-04-05 23:12:44 +08:00
    前段时间,用爬虫从有道词典和爱词霸扒了三十多万的常用词语,做成本地离线词典。
    caspartse
        23
    caspartse  
       2016-04-05 23:15:23 +08:00
    @binux “是否违法是在数据的使用环节,而不是抓取环节。” 同意这个说法。
    Kirscheis
        24
    Kirscheis  
       2016-04-06 01:49:41 +08:00 via Android
    一直很疑惑,讲道理的话 SQL 注入也算是“合法”访问到了网站“公开允许访问的内容”,那这算不算违法?
    对需要 POST 数据才能访问到的内容(比如某些应用的 API)进行遍历采集算不算合法的访问?
    法律上究竟有没有界定多深入的访问内容算是非公开访问的内容?
    SlipStupig
        25
    SlipStupig  
       2016-04-06 01:57:34 +08:00
    @Kirscheis 同样困惑啊,病毒程序到底是什么,它和普通程序怎么区分,比如我写了个收集本地文件的程序会上传本地的 word 文件这个算不算病毒程序呢?如果下载一个杀毒软件,它也会上传我的 word 文件,那它是不是就是病毒呢?
    realpg
        26
    realpg  
    PRO
       2016-04-06 02:05:37 +08:00
    抓取并储存,一般来说除非对方网站 TOS 有明确说明禁止,有版权问题,都是不违法的。
    但是你再二次展示,就很可能侵犯版权方的权益了。
    binux
        27
    binux  
       2016-04-06 02:20:44 +08:00
    @Kirscheis 如果你能证明你注入的那段 SQL 是你家猫写的,你完全不知道是什么意思的话。应该不算违法吧
    blacklee
        28
    blacklee  
       2016-04-06 08:55:06 +08:00 via iPhone
    商业用途?
    如果不是的话你随便搞就是了!
    caoyujia2000
        29
    caoyujia2000  
       2016-04-06 19:45:44 +08:00
    正在找相关的资料呢, mark
    pandashuai
        30
    pandashuai  
       2016-09-11 20:47:18 +08:00 via Android
    我喜欢看小说,为此我用 nodejs 写了一个爬虫把一个小说网站的所有小说全部下载下来了
    istommao
        31
    istommao  
       2017-05-05 11:35:53 +08:00
    只爬标题违法吗?比如爬取一些资讯网站然后整合到自己的网站上只放标题等内容,然后链接还是跳转到对方网站
    winstars
        32
    winstars  
       2018-02-07 11:04:39 +08:00
    @istommao 不违法,这个就是搜索引擎干的事。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4634 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 09:45 PVG 17:45 LAX 01:45 JFK 04:45
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86