帮公司写了个简单爬虫有没有什么风险 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Sparetire
V2EX    程序员

帮公司写了个简单爬虫有没有什么风险

  •  
  •   Sparetire 2019-11-19 09:49:35 +08:00 9965 次点击
    这是一个创建于 2157 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

    PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

    如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

    52 条回复    2019-11-21 10:43:56 +08:00
    NicholasK
        1
    NicholasK  
       2019-11-19 09:54:12 +08:00   6
    还是写免责吧,爬虫现在不注意,爬着爬着就爬进去了
    fank99
        2
    fank99  
       2019-11-19 09:56:05 +08:00
    不涉及个人信息、版权信息大概率没事
    电商价格这种,极小概率有事
    zarte
        3
    zarte  
       2019-11-19 09:57:22 +08:00
    降低速率,要不然有问题都算你头上,写了免责也没用。
    shehuizhuyi
        4
    shehuizhuyi  
       2019-11-19 10:03:53 +08:00
    只要别人肉到你就没事吧 GitHub 一堆翻墙软件
    zhoulifu
        5
    zhoulifu  
       2019-11-19 10:06:02 +08:00   3
    爬虫写的好,牢饭吃到饱
    InkStone
        6
    InkStone  
       2019-11-19 10:09:37 +08:00
    有没有风险看两点:1. 爬电商数据会不会让对方不开心; 2. 你是不是知道爬虫是用来抓电商数据的。

    第二点我们已经确认了,第一点出问题的概率不大,但不是 0.
    Tink
        7
    Tink  
    PRO
       2019-11-19 10:19:23 +08:00 via iPhone
    没事
    xuanbg
        8
    xuanbg  
       2019-11-19 10:20:37 +08:00
    别爬个人隐私信息,这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。
    houzhimeng
        9
    houzhimeng  
       2019-11-19 10:22:29 +08:00
    爬虫所有信息都是伪造的,怎么被抓的?
    andylsr
        10
    andylsr  
       2019-11-19 10:23:47 +08:00 via Android
    你的电商价格只要用于产品,告你不正当竞争,妥妥的
    holajamc
        11
    holajamc  
       2019-11-19 10:23:50 +08:00
    @NicholasK 好奇问问这种免责是不是有用
    FaceBug
        12
    FaceBug  
       2019-11-19 10:24:04 +08:00
    出问题的都是爬个人隐私的,比如你爬了用户的订单、银行卡信息,无论用户是否同意,都尽量不要碰。

    其次就是爬的速度了,比如淘宝京东这种大站,你一秒爬个几百几千次,问题不大,但是你要把人家爬成了双十一的流量,你也跑不掉的。
    NicholasK
        13
    NicholasK  
       2019-11-19 10:27:22 +08:00
    @holajamc 真出事了还太大作用,毕竟写的是你,
    westoy
        14
    westoy  
       2019-11-19 10:31:47 +08:00
    @andylsr

    没那么夸张, 定价是公开数据,监控友商定价然后根据策略动态调价的所有大电商都有的, 美亚新蛋、卓越当当、一号店易讯京东, 你降一毛我降一毛, 都打过
    BlackZhu
        15
    BlackZhu  
       2019-11-19 10:37:14 +08:00
    请教一下,公司有个爬虫,爬的是一些农作物网站的信息,然后集中显示到一个网站上,偶尔会爬些农作物专家的姓名,电话这种信息,请问是违法的吗?
    flighter
        16
    flighter  
       2019-11-19 10:43:03 +08:00
    @BlackZhu 涉及爬取个人隐私身份信息是违法的
    holajamc
        17
    holajamc  
       2019-11-19 10:47:10 +08:00
    @NicholasK 还是持怀疑态度,感觉应该不行…
    yangzzzzzzzt1
        18
    yangzzzzzzzt1  
       2019-11-19 10:47:53 +08:00
    @cepczkd 能跑成双十一流量也是一种本事
    NerverLibis
        19
    NerverLibis  
       2019-11-19 10:47:55 +08:00
    python 学得好 牢饭吃到老
    bobuick
        20
    bobuick  
       2019-11-19 10:49:40 +08:00
    爬虫写的好, 老婆来不了
    RyuZheng
        21
    RyuZheng  
       2019-11-19 10:51:32 +08:00
    我要是爬淘宝上一些商品的评论呢,也不是公司用,就是拿来自己做一下词云、机器学习分析玩玩;违法吗?
    dr1q65MfKFKHnJr6
        22
    dr1q65MfKFKHnJr6  
       2019-11-19 10:51:43 +08:00
    爬虫 别暴露开发者个人信息, 有必要的话, 代码混淆工具用起来。
    tomczhen
        23
    tomczhen  
       2019-11-19 10:53:34 +08:00
    从案例看明确的违法行为只有爬隐私信息这条,涉及逆向和破解的,如果被第三方非法利用,也会被连带。另外即便是公开信息,如果造成不良影响也是有风险的。

    不过说实话,从目前越来越封闭的趋势看,Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外,获取信息的难度会越来越大,必然会涉及到破解突破限制,或者通过逆向 APP 爬取。走到这一步,可以说已经是在门口站着了,剩下的已经不是自己可以控制的了(虽然目前看几率不高)。
    Lockeysama
        24
    Lockeysama  
       2019-11-19 11:06:31 +08:00   5
    面向监狱编程
    zaul
        25
    zaul  
       2019-11-19 11:55:24 +08:00
    做好心理准备,在乎于你的竞争对手想不想搞你
    anteros
        26
    anteros  
       2019-11-19 12:10:27 +08:00
    只要别人告你,你的程序影响了它的项目正常运营,比如说你把他程序爬跨了,你就吃牢饭。
    emisora
        27
    emisora  
       2019-11-19 12:16:01 +08:00
    还在学爬虫就感觉慌的一批
    darknoll
        28
    darknoll  
       2019-11-19 12:19:29 +08:00
    先别担心风险啥的,你以为人网站就那么随便让你爬的,你先试试你的程序能稳定跑起来再说。
    Sparetire
        29
    Sparetire  
    OP
       2019-11-19 12:33:55 +08:00
    @zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好
    @NerverLibis nodejs 选手...
    @cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧...

    @darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧
    mytsing520
        30
    mytsing520  
    PRO
       2019-11-19 12:43:25 +08:00
    写免责只是自欺欺人
    dosmlp
        31
    dosmlp  
       2019-11-19 12:54:50 +08:00
    降低频率就行了,还有就是不要公开源码
    18k
        32
    18k  
       2019-11-19 12:57:38 +08:00
    这种理论上应该可以吧
    不然那些比价网站不是都得进去
    来个律师解读下
    muzuiget
        33
    muzuiget  
       2019-11-19 13:05:51 +08:00
    @cepczkd 这种数据怎么爬呢?能爬的只有公开数据。
    TheFLY
        34
    TheFLY  
       2019-11-19 13:07:26 +08:00
    @shehuizhuyi 数据来源方给公司发律师函,然后公司把你推出去,常规操作
    IanPeverell
        35
    IanPeverell  
       2019-11-19 13:08:53 +08:00
    大公司的网站应该都有 robots.txt ,里面已经写好了限制,遵守应该就可以了。比如 https://www.jd.com/robots.txt
    guanhui07
        36
    guanhui07  
       2019-11-19 13:20:46 +08:00
    降低频率 代码混淆
    rubycedar
        37
    rubycedar  
       2019-11-19 13:29:35 +08:00 via iPhone
    要是犯法的话 慢慢买的开发者早进去了吧
    crackhopper
        38
    crackhopper  
       2019-11-19 14:04:03 +08:00
    这种事情应该拒绝做。之前有个 case 貌似程序员被抓了。真要做,你要想好:
    1. 速率,一般爬的速率大很成问题
    2. 行为,如果对方不允许爬取,你要掩盖自己的行为。IP,访问路径,访问模式等等。
    反正无论如何都有风险。
    FaceBug
        39
    FaceBug  
       2019-11-19 14:20:30 +08:00
    @muzuiget 我举个例子,我做了一个话费查询软件,你本人在我的系统里输入了你的账号密码,本意是查询余额。但是我不仅爬了你的余额,还爬了你的通讯记录和你的个人资料。
    zhaofy
        40
    zhaofy  
       2019-11-19 15:23:27 +08:00
    woc 我帮公司写了几个爬各地工信部新闻的 会不会有事啊。。
    pence2019
        41
    pence2019  
       2019-11-19 15:57:55 +08:00
    @zhaofy 这么叼 你很危险呀
    realpg
        42
    realpg  
    PRO
       2019-11-19 15:58:59 +08:00
    天天一帮叫嚣看 tos 的大佬
    在爬虫问题上就无视 tos 了
    nvhanzhi
        43
    nvhanzhi  
       2019-11-19 19:59:05 +08:00
    爬公开信息,别把人家服务器爬挂了就行
    snoopygao
        44
    snoopygao  
       2019-11-19 20:56:17 +08:00
    巧了,还有像你一样的 10000 个人,也以“说得过去”的速度爬同一家网站,把人家搞挂了
    Raymon111111
        45
    Raymon111111  
       2019-11-19 21:00:24 +08:00
    搜索一下 爬虫 犯罪
    dr1q65MfKFKHnJr6
        46
    dr1q65MfKFKHnJr6  
       2019-11-19 21:12:52 +08:00
    @Sparetire 如果起诉公司,这都是对公司追责,你个人只要是在公司授意下做的开发,感觉责任较小。
    dearmymy
        47
    dearmymy  
       2019-11-19 22:11:24 +08:00
    互联网这些公司翻旧账没一个干净的。基本有些线别碰其他就好,爬虫线就是个人隐私。其他的你爬速度别太过分就好了
    em70
        48
    em70  
       2019-11-19 23:03:43 +08:00
    搜索引擎的爬虫天天到处爬,也没见犯罪,最近被抓的都是涉及个人隐私信息的金融数据爬虫,爬公开电商信息被抓不存在的,可以研究下对方的 robot.txt
    justin2018
        49
    justin2018  
       2019-11-19 23:07:10 +08:00
    写好了 放到 Github 的小号上

    你说是从 github 上找到的 这样可以吗 o()o
    MrJie
        50
    MrJie  
       2019-11-20 08:29:52 +08:00
    爬虫,从入门到入狱
    ty89
        51
    ty89  
       2019-11-20 09:19:00 +08:00
    爬虫写的好,老婆改嫁早
    nnnToTnnn
        52
    nnnToTnnn  
       2019-11-21 10:43:56 +08:00
    @Sparetire

    第一,你不应该去问这个程序是干嘛的,只是说这是公司给你工作。
    第二,在写完后,程序启动之前写上一下内容

    此程序仅作为学习交流使用,禁止作为商业用途。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1130 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 17:43 PVG 01:43 LAX 10:43 JFK 13:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86