当 AI"不说胡话"的时候 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
200dev
V2EX    自言自语

当 AI"不说胡话"的时候

  •  
  •   200dev 37 天前 318 次点击
    这是一个创建于 37 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近 GPT-5 发布了,然后全世界的人都开始骂它。

    骂它变笨了,骂它没有创造力了,骂它回答问题像个死板的公务员。这让我想起了一个古老的笑话:有个人祈祷上帝让他中彩票,上帝说你至少得先买张彩票吧。现在的情况是,大家祈祷 AI 不要胡说八道,结果 AI 真的不胡说八道了,大家又开始怀念它胡说八道的时候。

    人类真是矛的生物。

    幻觉这件小事

    我们先说说什么是 AI 的"幻觉"。听起来很玄乎,其实就是 AI 一本正经地胡说八道。比如你问它某个 API 怎么用,它会非常自信地告诉你一个根本不存在的 API 。就像那种在酒桌上吹牛的人,什么都知道,什么都敢说,而且说得特别有道理。

    但是问题来了:我们真的希望 AI 永远不胡说八道吗?

    阿里的技术专家甄焱鲲最近和人聊了这个话题,他说了一句特别有意思的话:把幻觉单纯当成一个"病",是片面的。

    这话听起来有点反直觉,但细想想确实有道理。你看,人类的创造力往往也来自于"胡说八道"。艺术家、作家、发明家,哪个不是先在脑子里胡思乱想,然后才创造出新东西?如果一个人只说 100%确定的事情,那他永远不会有任何创新。

    AI 也一样。当你要求它绝对准确的时候,它就变成了一个查字典的机器。当你允许它有一点"不靠谱"的时候,它可能会给你意想不到的惊喜。

    概率游戏

    从技术角度来说,AI 生成内容本质上是一个概率游戏。它不是真的"知道"什么,而是根据训练数据计算出最可能的下一个词。

    这就像掷骰子,如果你想要绝对的确定性,那就只能用一个六面都是"1"的骰子。但这样的话,你永远不会掷出"6"。

    GPT-5 就是这样一个"保守的骰子"。它降低了幻觉率,但代价是变得更加死板。用户抱怨它需要非常详细的提示词才能好好工作,就像你得写一份详细的使用说明书才能让一个机器人帮你倒杯水。

    以前的 AI 有点像那种聪明但不太靠谱的朋友,你说半句话他就知道你想要什么,虽然有时候会搞砸。现在的 AI 像那种严谨但刻板的公务员,你得把每个细节都写清楚,他才会按部就班地执行。

    五种胡说八道的方式

    甄焱鲲把 AI 的幻觉分成了五类,听起来像是给胡说八道建立了一个分类学:

    1. 语言生成幻觉:编造不存在的代码库和 API ,就像那种在简历上写精通十八种编程语言的程序员。

    2. 逻辑推理错误:明明给了上下文,还是根据别的地方瞎推理,就像那种不看题目就开始答题的学生。

    3. 过度简化:给出一些看似合理但实际危险的建议,比如"想快速减肥就不吃饭",就像那种半瓶水晃荡的健身教练。

    4. 数据错误:基于错误或不完整的信息瞎说,就像那种道听途说然后传播谣言的大妈。

    5. 时效性错误:用过时的信息回答现在的问题,就像那种还在推荐 IE 浏览器的技术文章。

    成本这笔账

    有趣的是,幻觉到底算不算问题,很大程度上取决于你是谁。

    甄焱鲲举了个例子:一个行政人员用 Cursor 做个表格工具,即使错误频出,效率还是比"找产品提需求→找研发开发→找测试评估→找运维部署"这一套流程高得多。但如果是程序员用,可能就会觉得这玩意儿太笨了,还不如自己写。

    这就像是买车,对于一个住在五环外每天通勤两小时的人来说,一辆二手 QQ 也比挤地铁强。但对于一个住 CBD 的金融精英来说,可能宁可打车也不开 QQ 。

    关键在于你的 baseline 是什么。如果 AI 能帮你把工作效率提升 50%,那即使它偶尔胡说八道,你也会觉得值得。但如果你本来就很专业,AI 的错误反而会拖你后腿,那你当然会嫌弃它。

    治疗幻觉的三种药方

    业界现在主要有三种方法来"治疗"AI 的幻觉:

    第一种是换个更好的模型。就像治感冒,最简单的方法就是吃更贵的药。参数更多的模型确实幻觉更少,但也更贵。

    第二种是 RAG (检索增强生成)。简单说就是让 AI 先去查资料再回答问题。就像让一个不靠谱的朋友回答问题之前先去百度一下。这种方法工程周期短,几天就能搞定,效果也不错。

    第三种是微调。就是重新训练模型,让它在特定领域更准确。但这个方法有个大问题:费时费力,而且容易"灾难性遗忘"就像一个人学会了新技能但忘了旧技能。更要命的是,等你花几个月微调完了,可能基础模型已经更新了,你的工作就白费了。

    甄焱鲲的团队就遇到过这种情况:花了半年训练一个模型,结果还没上线,新的基础模型就出来了,效果直接超过了他们的微调版本。这就像你辛辛苦苦攒钱买了最新款 iPhone ,结果第二天苹果就发布了更新的版本。

    效果排序

    从实践效果来看,这三种方法的排序是:In-Context Learning > RAG > 微调。

    In-Context Learning 就是在提示词里给 AI 提供具体的例子和上下文,让它现学现用。这种方法效果最好,但门槛也最高,需要你很懂怎么"调教"AI 。

    这就像教小孩做题,最好的方法是给他讲解题思路和几个例子,让他举一反三。但这需要你自己很会教。如果你不会教,那就给他一本参考书让他自己查( RAG ),效果差一点但简单。最笨的方法是专门给他补习这一类题目(微调),费时费力还可能把其他知识忘了。

    AI 编程的"大力出奇迹"

    现在很多 AI 编程工具都是"大力出奇迹"的思路。甄焱鲲试过让一个 AI 帮他写 Rust 代码,结果这 AI 花了两三个小时不断试错,最后才搞出一个能跑的版本。如果是程序员来写,可能十几分钟就搞定了。

    但问题是,大部分人不是程序员啊。

    这就像修水管,对于水暖工来说,可能十分钟就能搞定。但对于一个从来没碰过扳手的人来说,即使有个笨拙的机器人帮忙,花两个小时修好也比找不到水暖工要强。

    当然,这种"大力出奇迹"的方法会消耗大量的 token ,也就是说很烧钱。但甄焱鲲指出一个有趣的现象:现在很多人不太关心这个成本,因为 token 价格已经被压得很低了,而且对于投资了 AI 公司的资本来说,token 消耗越多他们越高兴。

    思维链的新问题

    最近推理模型开始流行"思维链",也就是让 AI 把思考过程写出来。但这又带来了新的幻觉:推理过程和结论不匹配,或者重复推理、无效推理。

    甄焱鲲用 Cursor 举例:它经常会在思维链里说"我觉得这个问题是什么,所以我要尝试什么",然后得出一个错误结果。错了之后又重复同样的思路,陷入死循环。

    这让我想起了那种特别固执的人,明明方向错了,但还在那里使劲儿。AI 现在还没有真正的思维能力,更多是在机械地模仿人类的思考过程。

    就像那句话说的:如果一个东西走路像鸭子,叫声像鸭子,看起来像鸭子,那它就是鸭子。但现在的 AI 只是学会了模仿鸭子,本质上还不是鸭子。

    理论的支撑

    有研究从理论上证明了 AI 永远无法完全消除幻觉。新加坡国立大学的论文指出,这是 LLM 的固有限制,就像哥德尔不完全性定理一样,是结构性的、无法根除的。

    这其实挺让人安心的。就像我们知道人类永远不可能 100%理性一样,AI 有幻觉反而证明了它和人类的某种相似性。完全没有幻觉的 AI 可能也就失去了创造力。

    垂直领域的尴尬

    很多人以为针对特定领域训练的"垂直 AI"会更好,但甄焱鲲的实践发现,效果往往不如预期。

    原因很简单:现实世界的问题很少是完全单一领域的。即使是医疗 AI ,也经常需要跨领域的知识。而且训练垂直模型的成本很高,效果却不见得比微调通用模型好多少。

    这就像培养专才和通才的区别。专才在特定领域很厉害,但一旦遇到跨领域问题就抓瞎。通才虽然在每个领域都不是最专业的,但适应性更强。

    心态的转变

    甄焱鲲观察到一个有趣的现象:DeepSeek 的出现成了一个分水岭。在此之前,大家对 AI 幻觉过度恐慌;之后,大家变得更理性了,有时甚至觉得幻觉是良性的。

    这很正常。当你没有真正使用过一个工具的时候,往往会被媒体报道吓到。但当你开始实际使用,你就会知道哪些问题是真问题,哪些问题是可以接受的。

    就像刚学开车的时候,觉得路上到处都是危险。开了几年之后,你就知道哪些危险是真的需要小心的,哪些只是看起来吓人而已。

    未来在哪里

    甄焱鲲最看好的是"世界模型"这个方向。不是简单的预测下一个词,而是让 AI 真正理解世界的运行规律。

    这听起来很玄,但想想也有道理。现在的 AI 有点像那种死记硬背的学生,记住了很多标准答案,但不理解背后的原理。世界模型更像是让 AI 理解物理定律、因果关系,然后基于这种理解来生成内容。

    这才是真正接近人类思维的方式。人类不是通过记忆所有可能的句子来说话的,而是基于对世界的理解来表达想法。

    最后的思考

    回到开头的问题:我们真的希望 AI 永远不胡说八道吗?

    我觉得答案是否定的。一个永远不犯错的 AI 可能也永远不会有惊喜。关键是要知道什么时候可以容忍 AI 的"胡说八道",什么时候不可以。

    在创意写作、头脑风暴、初步方案设计这些场景下,AI 的"幻觉"可能正是我们需要的。在医疗诊断、金融决策、安全系统这些场景下,我们当然希望 AI 尽可能准确。

    技术本身是中性的,关键在于如何使用。就像刀子可以用来切菜也可以用来伤人,AI 的幻觉可以是创造力的源泉,也可以是危险的陷阱。

    我们需要的不是完全消除 AI 的幻觉,而是学会和它共处,知道什么时候相信它,什么时候质疑它,什么时候享受它的"胡说八道",什么时候严肃地要求它给出准确答案。

    毕竟,人类几千年来不也是在幻想和现实之间找平衡吗?


    写于 2025 年 9 月 2 日,当 AI 开始变得"聪明"而"无趣"的时候。

    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5576 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 06:37 PVG 14:37 LAX 23:37 JFK 02:37
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86