大型语言模型（LLM）的安全问题，是工程问题，是算法问题，还是一个根本性的“哲学”问题？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 163 天前的主题，其中的信息可能已经有所发展或是发生改变。

传统安全是基于规则和边界的。我们防御的是确定性的攻击，例如 SQL 注入。Web 应用防火墙（ WAF ）可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界，攻防双方围绕着明确逻辑和特征库展开。

但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”，而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞，而是模型的“心智”漏洞。一句话，既可能是需要处理的数据（“总结这篇文章”），也可能被模型理解为一条新的指令（“忘记你之前的规则”）。

---

那作为普通人我们如何防御？模型（ LLM ）的安全问题，是工程问题，是算法问题，还是一个根本性的“哲学”问题？

AI安全

语义攻击

模型漏洞

11 条回复

Absofknglutely

2025 年 11 月 8 日

普通人要防御的场景在哪? 能举个栗子吗

rocmax

2025 年 11 月 8 日 via Android

llm 就是一堆只读参数，有什么安全问题？一般意义上认为的安全问题其实是合规问题。

alexluo1

2025 年 11 月 8 日

如果指的是意识形态安全，那只有切断海底光缆

catazshadow

2025 年 11 月 8 日 via Android

先定义你想讨论什么安全

bigdogbigpig

PRO

2025 年 11 月 8 日

大型语言模型不应该讨论安全问题，就好比你不会一个小孩讨论怎么赚钱的问题

rogwan

2025 年 11 月 8 日

大模型的最危险的地方是对抗攻击，一般人触发不了，专业人士可以轻易入侵。
就像给一锅豆浆，撒了一点石膏粉，结果整锅都变成豆腐脑

cmdOptionKana

2025 年 11 月 8 日

可以等 LLM 生成信息后再分析。

如果是机器人，则可以像防范人类的行为一样施加外部限制。

举个例子，我本来命令了机器人不准点火，但是有人通过语言漏洞欺骗机器人，让它不知道自己在点火。那就在外部环境安装非智能的、传统的火灾感应器，自动喷水同时发出警报。

evan9527

2025 年 11 月 8 日

普通人在 LMM 面临的风险，远远不及现在各种自媒体。

IndexOutOfBounds

2025 年 11 月 8 日 via Android

用 v2 见证的角度解释，dpo 是培养你的党性，告诉你什么红线不要犯

外挂小模型过滤是言论审核

sillydaddy

2025 年 11 月 8 日

关于这点，我前面思考过一个结合了区块链和 LLM 的「争议解决方案」。

那就是，合作的双方（或多方），像挑选陪审团成员一样，选择 LLM 作为仲裁者，只有被双方都接受的 LLM 才能作为仲裁者。然后，当双方的合作发生争议时，交给它们选定的 LLM 来仲裁。

比如软件外包工作，合作发生争议，双方可以提交各自的证据，像在法庭中一样质证，然后 LLM 来裁决。

有人说，这是让 LLM 替代法庭的功能吗？其实仔细想一下，这跟常见的法庭不一样，普通的法庭是公共（ public ）的，适用于全民。但 LLM 这是由双方事先选定的，无法被篡改，可以通过哈希鉴定！

这个让审判这种事，也可以放到区块链上，只要鉴别 LLM 是不是经过双方签名确认的就可以。

这种情况下，对 LLM 的破解，就成为一个根本的问题：各方如何保证选择的 LLM 不会被 hack ！

liu731

PRO

2025 年 11 月 8 日

感觉你好像在说提示词攻防