爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jerrry
V2EX    问与答

爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

  •  
  •   jerrry 2024-06-26 12:06:44 +08:00 3858 次点击
    这是一个创建于 520 天前的主题,其中的信息可能已经有所发展或是发生改变。

    个人感觉有两个风险

    • 第一个是爬虫 gov cn 网站本身就有风险
    • 第二个是爬到的数据交给大模型处理会有数据泄漏的风险(虽然都是公开的数据),特别是如果使用的是境外的大模型接口

    所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

    povsister
        1
    povsister  
       2024-06-26 12:18:24 +08:00   3
    你这个想法很刑,还主动传出境外,那还能更刑
    wbrobot
        2
    wbrobot  
       2024-06-26 12:21:15 +08:00   1
    直接说结果:无期
    4BVL25L90W260T9U
        3
    4BVL25L90W260T9U  
       2024-06-26 12:33:45 +08:00   1
    刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

    理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

    实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
    1145148964
        4
    1145148964  
       2024-06-26 12:34:51 +08:00
    其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
    yyzh
        5
    yyzh  
       2024-06-26 12:38:58 +08:00 via Android
    深圳的话这里有不用爬
    https://opendata.sz.gov.cn/
    另外爬虫是犯法的
    wonderfulcxm
        6
    wonderfulcxm  
       2024-06-26 12:44:06 +08:00 via iPhone
    不被发现就没有问题
    jerrry
        7
    jerrry  
    OP
       2024-06-26 13:03:13 +08:00
    @ospider 是一个兼职项目,所以我在想有没有必要承担风险
    duanxianze
        8
    duanxianze  
       2024-06-26 13:44:11 +08:00
    这东西抓不住你就没事,抓住了你必进去
    AnonymousUser
        9
    AnonymousUser  
       2024-06-26 13:44:15 +08:00
    第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
    第二点,太敏感了,建议好好考量风险和收益
    signin
        10
    signin  
       2024-06-26 13:56:57 +08:00   1
    公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
    Features
        11
    Features  
       2024-06-26 13:59:36 +08:00
    就怕是披着羊皮的狼
    表面包装成大模型,实则是间谍项目。。。
    ivvei
        12
    ivvei  
       2024-06-26 14:00:50 +08:00
    有的是汇总了公开数据被当间谍处理的。
    YDCHYD
        13
    YDCHYD  
       2024-06-26 14:43:35 +08:00 via iPhone
    只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
    国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
    jerrry
        14
    strong>jerrry  
    OP
       2024-06-26 15:46:02 +08:00
    谢谢大家,看来感觉还是有风险的
    nx6Ta67v2A43frV2
        15
    nx6Ta67v2A43frV2  
       2024-06-26 16:55:38 +08:00
    ZF 网站一般会脆弱,访问量稍大就会挂。
    如果爬的过程中挂了,可能会导致蹲苦窑。

    国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
    但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
    最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
    引起了很多市民的投诉,最终,技术总监和程序员都进去了。
    27
        16
    27  
       2024-06-26 17:10:25 +08:00
    xie8fei
        17
    xie8fei  
       2024-06-26 18:28:34 +08:00
    事小罪大
    且不说盈利多少,行为犯没收益都会可能判。
    当然也可以赌,赌输了就刑事
    amon
        18
    amon  
       2024-06-26 18:33:50 +08:00
    咨询律师,不管是全职还是兼职,有些底线不要碰。

    我真的见过写程序(灰产)进去的,关到过年才放出来。
    aminobody
        19
    aminobody  
       2024-06-26 18:35:33 +08:00
    @yyzh #5 403 403 Forbidden
    Request forbidden by administrative rules.
    yyzh
        20
    yyzh  
       2024-06-26 19:05:22 +08:00 via Android
    @aminobody 你在外国?
    icanfork
        21
    icanfork  
       2024-06-26 19:14:48 +08:00
    @yyzh #5 我靠,深圳真的是太太太太先进了。。。
    sneezry
        22
    sneezry  
       2024-06-26 19:16:24 +08:00
    政府的东西别碰
    yangliudi123
        23
    yangliudi123  
       2024-06-26 20:44:38 +08:00 via iPhone
    还记得宋朝的莫须有吗,也许有吧
    wbrobot
        24
    wbrobot  
       2024-06-26 23:10:51 +08:00
    @signin 公开数据你也不能拿,比如公安的治安处罚信息,是拒绝转载的,阅读过网站说明吗?
    不是你能看到的数据就可以随便抓的,最简单的判断标准,.gov.cn 的,略过。
    dingyaguang117
        25
    dingyaguang117  
       2024-06-26 23:53:38 +08:00 via iPhone
    生在中国 龙非盘着 虎非缩着, 何况你是个程序员 P 民
    yvkino
        26
    yvkino  
       2024-06-27 00:24:05 +08:00
    这还用想,不抓别人不代表不抓你
    hahasong
        27
    hahasong  
       2024-06-27 00:35:00 +08:00
    破坏计算机系统罪 一抓一个准
    EndlessMemory
        28
    EndlessMemory  
       2024-06-27 09:14:03 +08:00
    爬虫抓进去的不少,关键就在于又没有人找你
    abersheeran
        29
    abersheeran  
       2024-06-27 10:07:30 +08:00
    有价值,那就可以,比如企查查之类的,工信部挂了号的,数据随便他抓。做着玩,别把人打崩了也可以。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2763 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 02:23 PVG 10:23 LAX 18:23 JFK 21:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86