大型语言模型(LLM)的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Branlice
V2EX    随想

大型语言模型(LLM)的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?

  •  
  •   Branlice 13 小时 11 分钟前 883 次点击
    传统安全是 基于规则和边界的。我们防御的是确定性的击,例如 SQL 注入。Web 应用防火墙( WAF )可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界,攻防双方围绕着明确逻辑和特征库展开。


    但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”,而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞,而是模型的“心智”漏洞。一句话,既可能是需要处理的数据(“总结这篇文章”),也可能被模型理解为一条新的指令(“忘记你之前的规则”)。

    ---

    那作为普通人我们如何防御?模型( LLM )的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?
    11 条回复    2025-11-08 14:21:23 +08:00
    jackple
        1
    jackple  
       12 小时 59 分钟前   1
    普通人要防御的场景在哪? 能举个栗子吗
    rocmax
        2
    rocmax  
       12 小时 28 分钟前 via Android
    llm 就是一堆只读参数,有什么安全问题?一般意义上认为的安全问题其实是合规问题。
    alexluo1
        3
    alexluo1  
       12 小时 25 分钟前
    如果指的是意识形态安全,那只有切断海底光缆
    catazshadow
        4
    catazshadow  
       12 小时 16 分钟前 via Android
    先定义你想讨论什么安全
    mazyi
        5
    mazyi  
    PRO
       12 小时 16 分钟前
    大型语言模型不应该讨论安全问题,就好比你不会一个小孩讨论怎么赚钱的问题
    rogwan
        6
    rogwan  
       12 小时 5 分钟前
    大模型的最危险的地方是对抗攻击,一般人触发不了,专业人士可以轻易入侵。
    就像给一锅豆浆,撒了一点石膏粉,结果整锅都变成豆腐脑
    cmdOptionKana
        7
    cmdOptionKana  
       11 小时 53 分钟前
    可以等 LLM 生成信息后再分析。

    如果是机器人,则可以像防范人类的行为一样施加外部限制。

    举个例子,我本来命令了机器人不准点火,是有人通过语言漏洞欺骗机器人,让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器,自动喷水同时发出警报。
    evan9527
        8
    evan9527  
       11 小时 21 分钟前
    普通人在 LMM 面临的风险,远远不及现在各种自媒体。
    IndexOutOfBounds
        9
    IndexOutOfBounds  
       11 小时 17 分钟前 via Android
    用 v2 见证的角度解释,dpo 是培养你的党性,告诉你什么红线不要犯

    外挂小模型过滤是言论审核
    sillydaddy
        10
    sillydaddy  
       11 小时 8 分钟前
    关于这点,我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。

    那就是,合作的双方(或多方),像挑选陪审团成员一样,选择 LLM 作为仲裁者,只有被双方都接受的 LLM 才能作为仲裁者。然后,当双方的合作发生争议时,交给它们选定的 LLM 来仲裁。

    比如软件外包工作,合作发生争议,双方可以提交各自的证据,像在法庭中一样质证,然后 LLM 来裁决。

    有人说,这是让 LLM 替代法庭的功能吗?其实仔细想一下,这跟常见的法庭不一样,普通的法庭是公共( public )的,适用于全民。但 LLM 这是由双方事先选定的,无法被篡改,可以通过哈希鉴定!

    这个让审判这种事,也可以放到区块链上,只要鉴别 LLM 是不是经过双方签名确认的就可以。

    这种情况下,对 LLM 的破解,就成为一个根本的问题:各方如何保证选择的 LLM 不会被 hack !
    liu731
        11
    liu731  
    PRO
       7 小时 8 分钟前
    感觉你好像在说提示词攻防
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2678 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 19ms UTC 13:30 PVG 21:30 LAX 05:30 JFK 08:30
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86