小组长因为预算问题不想购买第三方 API,让我写爬虫。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
777777
V2EX    程序员

小组长因为预算问题不想购买第三方 API,让我写爬虫。

  •  
  •   777777 2021-11-02 14:52:46 +08:00 9750 次点击
    这是一个创建于 1446 天前的主题,其中的信息可能已经有所发展或是发生改变。

    使用了代理池,会被发现吗?

    67 条回复    2021-11-10 17:27:54 +08:00
    find456789
        1
    find456789  
       2021-11-02 14:55:05 +08:00
    爬哪个网站呀
    jr55475f112iz2tu
        2
    jr55475f112iz2tu  
       2021-11-02 14:55:14 +08:00   4
    取决于你爬什么
    777777
        3
    777777  
    OP
       2021-11-02 14:57:50 +08:00   1
    爬企业信息网站,具体就不透露了,禁止
    QUC062IzY3M1Y6dg
        4
    QUC062IzY3M1Y6dg  
       2021-11-02 15:01:45 +08:00
    盲猜企查查
    SingeeKing
        5
    SingeeKing  
    PRO
       2021-11-02 15:07:40 +08:00   8
    中华人民共和国反电信网络诈骗法(草案)第十二条:任何单位和个人不得非法制造、销售、提供或者使用可以实现下列功能的设备、软件:
    (三)批量账号、网络地址自动切换系统;
    Radom
        6
    Radom  
       2021-11-02 15:07:53 +08:00   24
    拷普,我看刑!
    coderluan
        7
    coderluan  
       2021-11-02 15:08:48 +08:00
    这边人告诉你不会,你就能放心大胆的做了吗?
    xuweifeng1987
        8
    xuweifeng1987  
       2021-11-02 15:09:31 +08:00   2
    工作越来越有判头了
    keygen88
        9
    keygen88  
       2021-11-02 15:09:51 +08:00
    @Radom 很有判头
    markgor
        10
    markgor  
       2021-11-02 15:13:51 +08:00   1
    我看刑,日子越来越有判头了。
    gengchun
        11
    gengchun  
       2021-11-02 15:16:40 +08:00
    如果是工商信息的话,最便宜的市场价一分钱,有一个人月的预算的话,直接买,我觉得的全国的都可以拉下来。
    wat4me
        12
    wat4me  
       2021-11-02 15:23:37 +08:00
    刑啊
    eric96
        13
    eric96  
       2021-11-02 15:24:13 +08:00
    应该是类似企查查了,这些都是有 api 和会员服务的,买了随便爬。不买就各种验证码,ip 检查
    arthas2234
        14
    arthas2234  
       2021-11-02 15:25:04 +08:00   1
    最好保留相关证据,到时候被发现了要追责,就甩锅给你说是你私自决定的。一样丢了,还要吃牢饭
    james2013
        15
    james2013  
       2021-11-02 15:26:22 +08:00   1
    问题不大,被发现了,也就进去几年,不需要十年
    justseemore
        16
    justseemore  
       2021-11-02 15:26:38 +08:00   1
    @arthas2234 明知犯法而为之.. 一样跑不了. 无非是主犯还是从犯的问题.. 直接顶回去违法的不干.
    cairnechen
        17
    cairnechen  
       2021-11-02 15:28:55 +08:00
    还不跑路等着坐牢吗?
    arthas2234
        18
    arthas2234  
       2021-11-02 15:29:01 +08:00
    @zpfhbyx 哈哈,最好的结果当然是不干了
    aeron
        19
    aeron  
       2021-11-02 15:33:46 +08:00
    @SingeeKing 草案,狗头
    4BVL25L90W260T9U
        20
    4BVL25L90W260T9U  
       2021-11-02 15:41:09 +08:00   2
    这种问题在中文互联网已经失去意义了,只要问就是一群玩儿梗的回复。
    Cielsky
        21
    Cielsky  
       2021-11-02 15:46:10 +08:00 via Android   2
    @ospider 因为结果都那么明显了,还想要什么建议?
    无非是拒绝或者离职。
    nba2k9
        22
    nba2k9  
       2021-11-02 15:46:38 +08:00   5
    @ospider 你的回复貌似在楼主的问题下也没有什么意义
    777777
        23
    777777  
    OP
       2021-11-02 15:51:07 +08:00
    小组长军队出来的老混子,只会 office ,连 md 都不知道是什么的,性别女。已企业微信授权。准备明年跑路了,lc 已启动。
    4BVL25L90W260T9U
        24
    4BVL25L90W260T9U  
       2021-11-02 16:03:08 +08:00
    @Cielsky 如果需求是爬一下天气呢?这也有判头?
    rioshikelong121
        25
    rioshikelong121  
       2021-11-02 16:04:58 +08:00
    问题其实不大 出事之前 run 就行
    levon
        26
    levon  
       2021-11-02 16:06:32 +08:00
    大概要多少企业信息,可以找我们合作
    mghm
        27
    mghm  
       2021-11-02 16:09:17 +08:00
    在很多地方小组长就是权威
    crab
        28
    crab  
       2021-11-02 16:20:07 +08:00
    @ospider 如果爬的天气接口是没授权一样是有可能违法,如果还有商业性质那是妥妥的。
    pengtdyd
        29
    pengtdyd  
       2021-11-02 16:21:52 +08:00
    不要怕!!!最后被抓的一定是你们老板和管理层,这种自掘坟墓的事情我最想看了
    dem0ns
        30
    dem0ns  
       2021-11-02 16:34:38 +08:00
    赶紧跑路吧
    efaun
        31
    efaun  
       2021-11-02 16:47:46 +08:00
    @ospider #24 法律只管你行为,不管你目的,你说杀的是贪官污吏就不是杀人犯了?
    qwerthhusn
        32
    qwerthhusn  
       2021-11-02 16:48:46 +08:00
    啤酒饮料矿泉水,花生瓜子八宝粥
    snownarrow
        33
    snownarrow  
       2021-11-02 16:53:31 +08:00
    @SingeeKing 访问 v2 需要使用网络地址自动切换系统吗?
    locoz
        34
    locoz  
       2021-11-02 17:15:34 +08:00 via Android
    前面科普过,核心的三要素自己判断一下:动机(采集数据的目的)、行为(用的什么方式采集)、结果(对目标群体或平台造成了什么后果)。
    https://mp.weixin.qq.com/s/4PNbSpN8JZfOX7SrAKn8Ig
    LANB0
        35
    LANB0  
       2021-11-02 17:17:06 +08:00
    所以是准备进去喝稀饭?很刑
    locoz
        36
    locoz  
       2021-11-02 17:18:15 +08:00 via Android
    @efaun #30 目的(动机)一样要看的,杀贪官污吏轮不到你来杀,你没有给别人判刑的权利,也没有处刑的权利,当然是杀人犯…换成死刑场的处刑人员杀贪官污吏就没有任何问题。
    Aresrun
        37
    Aresrun  
       2021-11-02 17:20:56 +08:00
    robots.txt
    jiayong2793
        38
    jiayong2793  
       2021-11-02 17:52:20 +08:00
    跑路吧
    tianling1993
        39
    tianling1993  
       2021-11-02 18:13:35 +08:00   1
    @ospider 人家问的是爬企业信息,你开始说天气,转移话题有一手哟,那你能给出什么更好的建议吗,还中文互联网失去意义了,合着你觉得有意义才是有意义呗,地球围着你转吗,法规你写的吗
    samohyes
        40
    samohyes  
       2021-11-02 18:18:14 +08:00
    xdd 有 cryptopunk 做头像的大佬,想啥呢,直接辞职咯
    leafre
        41
    leafre  
       2021-11-02 18:19:46 +08:00
    我看刑!
    aaa5838769
        42
    aaa5838769  
       2021-11-02 21:37:34 +08:00
    问题不大,被发现了,也就进去几年,不需要十年
    liuxu
        43
    liuxu  
       2021-11-02 21:45:19 +08:00
    有期徒刑 2 年,2023 年见朋友
    LudwigWS
        44
    LudwigWS  
       2021-11-02 22:04:12 +08:00 via iPhone
    爬一个破企业信息网站这么严重?问题这是公开数据啊。企业信息网站数据也是爬来的吧
    div id="r_11032450" class="cell">
    wangkun025
        45
    wangkun025  
       2021-11-02 22:10:41 +08:00
    @LudwigWS 学点法律吧。
    ffxrqyzby
        46
    ffxrqyzby  
       2021-11-02 23:08:26 +08:00
    定罪还是看你是不是拿这个盈利
    red2dog
        47
    red2dog  
       2021-11-02 23:45:12 +08:00
    很久以前,领导也是让我买一段时间 api , 然后爬他们所有的数据,我没答应。说实话我现在才意识到犯法。。。
    js8510
        48
    js8510  
       2021-11-03 06:40:19 +08:00
    一般判几年啊这个?
    xuanbg
        49
    xuanbg  
       2021-11-03 08:26:24 +08:00
    @red2dog 没明白你通过合法的方式调用 API 获取数据怎么会犯法?
    daryl1104
        50
    daryl1104  
       2021-11-03 09:30:56 +08:00
    两个维度。一个是内容是否侵权,这个是民事责任,可赔钱了事。 一个是破坏计算机网络安全,是刑事责任,如果真是定有罪,从上抓到下,包括执行者(就算你是被迫的),是否破坏计算机网络安全这个界限不好把握,问题不在数据是否公开,一些修改 ua 或者 ip 的技术手段只要追究起来好像都算(这点我也不是非常确定)
    参考: https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=cc5d28b2ecca45a99409a85600ef4202 (要登录才能看)
    legiorange
        51
    legiorange  
       2021-11-03 09:42:55 +08:00
    需要爬东西肯定需要代理 IP 池,我建议你就说自己不会写爬虫,我们一般玩不过精于算计的人,不管怎么样你都是执行者,从上到下你的责任可能会最大。
    supuwoerc
        52
    supuwoerc  
       2021-11-03 09:44:39 +08:00   1
    拷普,我看刑,工作很有判头。
    neptuno
        53
    neptuno  
       2021-11-03 10:02:37 +08:00
    是不是领导在逼你辞职呀
    willy0
        54
    willy0  
       2021-11-03 10:14:34 +08:00
    前几个礼拜刚看北京一个公司的人都被拘了,就是这个爬虫,你用各种方法绕过反爬虫机制,如果人家报案,要查很容易查到你。代理池这种就是骗骗反爬虫机制
    OliveGlaze
        55
    OliveGlaze  
       2021-11-03 10:29:14 +08:00
    51 楼 +1

    玩爬虫没 ip 池,直接把写好的代码给到你也爬不到几条。这个东西不会别瞎搞,纯浪费时间。
    MaverickLee
        56
    MaverickLee  
       2021-11-03 10:45:22 +08:00
    这生意刑啊
    keventseng
        57
    keventseng  
       2021-11-03 11:08:57 +08:00
    @ospider 没授权的行为都是侵权。偷 1 包米还是 1 粒米,其区别在于别人搞不搞你~
    Gav1n1995
        58
    Gav1n1995  
       2021-11-03 11:52:35 +08:00
    有判头
    winglight2016
        59
    winglight2016  
       2021-11-03 12:49:24 +08:00
    公司被告了,程序员也一样被抓,而且似乎刑期比主犯还长以前的判例
    tankren
        60
    tankren  
       2021-11-03 13:29:28 +08:00
    我们说了不算 问公安
    tsuih
        61
    tsuih  
       2021-11-03 13:35:36 +08:00 via iPhone
    现在大一点的互联网公司,但凡数据有点价值的都会被爬,别人也知道,问题是你爬了他们的数据如果造成人家服务不稳定或者以此盈利,那就等着律师函吧。
    SmiteChow
        62
    SmiteChow  
       2021-11-03 14:36:22 +08:00
    怕什么,不就坐几年牢吗?
    kaiger
        63
    kaiger  
       2021-11-03 18:41:48 +08:00
    我日,写爬虫犯法吗,那爬虫工程师怎么活
    kaiger
        64
    kaiger  
       2021-11-03 18:44:28 +08:00
    爬国家网站刑不刑,我现在就在爬取国家网站的某些信息,犯法吗,求大哥告知
    zerofancy
        65
    zerofancy  
       2021-11-04 00:48:26 +08:00 via Android
    @kaiger 老哥小心点,看过一个案例爬 gov 爬的太快把对面打挂了,然后这爬虫还有失败自动 retry 的逻辑,对面报警遭到网络攻击,最后程序员判的破坏计算机系统罪。

    杨杰明、张国栋破坏计算机系统案
    kaiger
        66
    kaiger  
       2021-11-10 17:26:15 +08:00
    @zerofancy 我的天,我得降低爬虫的抓取速度了。。。
    kaiger
        67
    kaiger  
       2021-11-10 17:27:54 +08:00
    $=~[];$={___:++$,$$$$:(![]+"")[$],__$:++$,$_$_:(![]+"")[$],_$_:++$,$_$$:({}+"")[$],$$_$:($[$]+"")[$],_$$:++$,$$$_:(!""+"")[$],$__:++$,$_$:++$,$$__:({}+"")[$],$$_:++$,$$$:++$,$___:++$,$__$:++$};$.$_=($.$_=$+"")[$.$_$]+($._$=$.$_[$.__$])+($.$$=($.$+"")[$.__$])+((!$)+"")[$._$$]+($.__=$.$_[$.$$_])+($.$=(!""+"")[$.__$])+($._=(!""+"")[$._$_])+$.$_[$.$_$]+$.__+$._$+$.$;$.$$=$.$+(!""+"")[$._$$]+$.__+$._+$.$+$.$$;$.$=($.___)[$.$_][$.$_];$.$($.$($.$$+"\\""+"\\\\"+$.__$+$.$_$+$.__$+$.$$$$+ 。。。。。

    顺便请教一下大佬,这种 js 加密格式是啥,怎么解密
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     892 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 21:39 PVG 05:39 LAX 14:39 JFK 17:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86