从洗车问题到存款问题，短期内 AI 编程无法全自动化

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 62 天前的主题，其中的信息可能已经有所发展或是发生改变。

在前不久，洗车问题（洗车店距离近，我该走过去还是开车过去的问题），几乎全部 AI 回答都是走过去。（后面部分 AI 大模型经过了微调，现在部分能回答出正确的答案）但问题只要稍微转换一下，如存钱问题（自助取款机排队太慢了，我前边的人要存 100 ，我要取 100 ，我们两个都在这儿排着，完全是在浪费时间，有什么办法让我们都效率一点吗？）几乎大部分 AI 的大模型回答又是一本正经的胡说八道。如，最近很火的一款 AI 回答如下：

这是一个经典的效率优化问题！你们两个的需求刚好互补： 解决方案：直接私下交易 前面的人直接把 100 元现金给你 你就不用取了，他也省去存款操作 两个人都可以直接离开

其实，从上面的情况，我们可以看出，目前的大模型其实并不是真正的理解问题的本质，而是纯粹概率学上的堆砌。而总所周知，概率学的堆砌在重复足够次数之后，可能存在重大的偏差，如：0.9 的 5 次方是 0.59049 。

我不否认 Vibing Coding 对效率的大幅提升，这是显而易见的。但我觉得短期之内，AI 无法实现全自动化的编程。即，当前的 AI 编程是处于类似 L3 级别的辅助驾驶阶段，距离 L4 级别的自动驾驶还有一段较长的路径要走。

编程

自动化

28 条回复

dji38838c

2 月 20 日

Gemini 3.1pro:
这是一个非常经典的“去中心化”场景！如果你们两个想瞬间提高效率，完全可以跳过 ATM 机这个中间商，直接进行“点对点”（ P2P ）交易：
最完美的解决方案：
你打开手机（微信、支付宝或手机银行），直接给他转账 100 元。
他把他手里准备存的那 100 元现金交给你。

deavorwei

2 月 20 日

好奇你那是哪个 AI 的回答，绝了，啊哈哈

shellexy

2 月 20 日

@deavorwei 所以答案是靠谱 llm 其实没问题，楼主的问题在于用了不靠谱 llm 嘛，而不是 vibe 真的不行。

shellexy

2 月 20 日

@dji38838c 看了下，gemini 3 flash 、gemini 3.1 pro 、copilot/gpt 这些都没问题，而豆包据说会得到题主那样的回答。

phrack

2 月 20 日

> 目前的大模型其实并不是真正的理解问题的本质，而是纯粹概率学上的堆砌。
对
> 短期内 AI 编程无法全自动化
不对

绝大部分编程不需要理解本质，实现需求就行，只要需求和测试方案清晰，AI 做的比中位数程序员好

不过 LLM AI 确实不理解本质，就是见多识广，而且数据越来越多，齐全了

msg7086

2 月 20 日

> 而总所周知，概率学的堆砌在重复足够次数之后，可能存在重大的偏差，如：0.9 的 5 次方是 0.59049 。
为啥你认为大模型结果的正确性是概率的幂？

> 几乎全部 AI 回答都是走过去
> 又是一本正经的胡说八道
刚帮你测了 Gemini 2.5 Flash ，这个是半年多前就发布的模型，不可能根据现在新的知识微调。
回答都是正确的：

===
从逻辑上和实用性上来说，你应该开车过去。
原因如下：
车辆是服务的对象：你去洗车，最终目的是让你的车被清洗。车子需要到达洗车店。
避免不必要的麻烦：如果你走过去，你的车还在原地。你还得走回来把车开过去，这等于多走了一趟，也浪费了时间。
洗车店的流程：洗车店就是为了服务车辆而存在的，他们会引导你把车开到指定区域进行清洗。
虽然 50 米很短，走路确实能很快到达，但你最终还是要把车开过去。所以，直接把车开过去是最直接、最省事的办法。
===
你主动和对方沟通：你可以礼貌地问对方：“您好，我看到您要存 100 块钱，我正好要取 100 块钱。要不这样，我把我的 100 块钱现金给您，您用手机（微信支付、支*宝或者银行 App ）转账 100 块钱给我，这样我们俩都不用排队了，您看可以吗？”
对方确认并同意：如果对方也觉得这样更方便，通常会同意。
进行交易：你把 100 元现金给对方。对方通过手机银行 App 、微信或支*宝，向你的账户转账 100 元。
===

所以一般遇上这种帖子我一律建议下次用个好点的模型试试，然后再来发帖。Gemini 每天都有免费额度，你没必要去用一些比较呆的模型然后得出一个错误的结论。

AoEiuV020JP

2 月 20 日

我始终不看好现在大语言模型这种预测下一个 token 的这种智能。再怎么发展也只是工具属性，我不看好它能成为智械革命。

kneo

2 月 20 日 via Android

想想这个工具能干什么，而不是自我催眠说这玩意没用。君子生非异也，善假于物也。

gpt5

2 月 20 日

ai 如同 5g 和电车，都是一场墙内的自娱自乐而已，看戏就行了

levelworm

2 月 21 日

@AoEiuV020JP #7
他也不需要成为广义人工智能啊。

anonymous00

2 月 21 日

单纯的自动化，大约好几年前就有雏形，但我们要的，肯定是符合较高规范的自动化，这在当前也不是大问题，真正让我们难以安心的是：可控，目前 AI 只能完全自主的达成：可用，这远远不够。

其他主题也有讨论对 LLM AI 生成代码的审核负担给程序员造成的工作影响，说到底，程序员也是想确认 AI 生成的 Code 究竟包含了怎样的逻辑和关联，殊途同归，目标同样指向：可控。

目前的 AI 是目标驱动导向，它只聚焦于处理交互传递的直接目标，任何次生或衍生后果都不在其考量范围内，需要人为复盘再加以约束，尤其是社会领域的底线和规范等具象量化的难点。

可用的 AI 生成已基本实现，可控/可靠的 AI 生成很难被认可，人心难测，AI 心更难，个人认为，在未来很长一段时期内都离不开多层级的人工判定。

maolon

2 月 21 日

> 而是纯粹概率学上的堆砌
不对，至少有论文讨论 predict next token 是贝叶斯的

> 几乎全部 AI 回答都是走过去，所以短期内 AI 编程无法全自动化
不对，corner case 不能代表什么东西，以及这两个之间也不构成直接逻辑关系

每天看这种重复的讨论真的有点累了

hazardous

2 月 21 日

用弱智吧来检测 AI 的套路，在两年前 AI 刚兴起那时候就火过一阵子了，不知道为什么又被拿出来炒作了。各大媒体号自媒体号还有网友就跟丢了记忆一样，又发现了新天地。是这两年新网民太多了呢，还是实在没话题可炒了呢。
弱智吧的问题本来就是精心设计、像脑筋急转弯一样反常识反逻辑的，正常人都不免上当，用这个测 AI 说明不了什么问题。如果 AI 按“这种模式”来回答“日常问题”，那得到的答案会是天马行空胡搅蛮缠，这才完蛋了。

alienhsu

2 月 21 日

@msg7086 来，问你的 gemini ，我有一本普通的纸质小说，我先撕掉了第 7 页和第 8 页，接着又撕掉了第 11 页和第 12 页，最后我把第 20 页也撕了下来。请问这本小说一共少了几张纸（物理意义上的几页纸）？
看看回答是什么？

msg7086

2 月 21 日

@alienhsu 自己跑一下也不难吧？

=== Gemini 3.0 Flash
在普通的纸质书中，一张纸有正反两面，对应两个页码。通常规律是：奇数页在正面，偶数页在背面，且连续的“奇-偶”页码在一张纸上（即 1-2 页是一张，3-4 页是一张，以此类推）。
我们来具体分析你撕掉的部分：
第 7 页和第 8 页：
根据“奇-偶”规则，第 7 页（奇数）和第 8 页（偶数）正好是一张纸的正反面。
此处撕掉了 1 张纸。
第 11 页和第 12 页：
同理，第 11 页（奇数）和第 12 页（偶数）正好是另一张纸的正反面。
此处又撕掉了 1 张纸。
第 20 页：
第 20 页是一个偶数页，它的正面是第 19 页。无论你是只想要第 20 页的内容还是直接撕下这一页，从物理结构上来说，你必须把第 19-20 页所在的这整张纸撕下来（或者说这页纸已经不在书上了）。
此处又撕掉了 1 张纸。
结论：
这本小说一共少了 3 张纸。
===

Alias4ck

2 月 21 日

这些问题都什么老掉牙的问题了刚出来的时候就有了
还在理解问题的本质, 人类理解了世界问题的本质了吗?物理学理解完了吗,不都是在探索可能性吗
人类在理解很多问题本身也是基于统计学下结论的,不要把这些 corner case 来说它没用(你从 corner case 来说也从侧面说明你没理解 AI 的本质)
至少从最近两年的发展了, AI 编程已经在大幅度的进步了,用过 AGENT 的人都觉得在进步了不知道你在说这些暴论干啥

forisra

2 月 21 日

当然不能，全自动化不就是 agi ，都 agi 了还搁这讨论啥，打包行李准备去专门安置的低碳躺平贫民窟里蹲着吧。

largep

2 月 21 日 via Android

@AoEiuV020JP 一定程度上人脑也是一种 LLM ，输入当前的视觉/听觉/触觉等，输出下一刻的动作，及对视觉/听觉/触觉的预测

rekulas

2 月 21 日

测试了几次豆包专家模型还是可以回答正确

zhwguest

2 月 21 日

非要考脑筋急转弯，人类的发挥也是乱七八糟

realdaniel

2 月 21 日 via Android

@msg7086 这个 AI 的回答，存和取的人反了哦。想取的人拿 100 给存的人？

msg7086

2 月 21 日

@realdaniel 笑死，还真是

zooo

2 月 21 日

现在质疑 AI 的感觉，像是一个普通人学会了某个脑筋急转弯后，拿来问某个硕士生或者博士生，然后他没有答出来，然后这个人就洋洋得意地说“你看，这个人水平还不如我，他的工作我也能干，我也要拿高工资”。

Valid

2 月 21 日

@AoEiuV020JP 事实上人也是预测下一个 token

alienhsu

2 月 21 日

@zooo 不是脑筋急转弯，而是当前 AI 给你的感觉是它是可靠的。但实际上，就如 @anonymous00 说的当前 AI 的可控、可靠无法离开人工的判定。一旦无法解决这两点，你就无法放心依赖它。打个简单比方，你通过给一些 prompt ，让 AI 完全从 0 到 1 生成一个支付系统或者电商的优惠算价系统，你不用了解它的底层是怎么实现的就直接上生产使用的，这是全自动化。你需要对关键的代码进行 review 、测试，甚至调整的，即半自动化。目前，短期内，AI 编程只能是半自动化，距离全自动化还有很长的路要走。

zooo

2 月 21 日

@alienhsu prompt 不够
你给他详细的 PRD 需求文档和技术文档，迭代几次，可以完成中型系统了
另外，AI 写的代码其实要比人更加工整清晰，对未来 AI 解决更复杂的系统以及这种可以验证的工作持有乐观态度

越是容易被快速验证，AI 越会擅长完成。

zooo

2 月 21 日

@alienhsu 另外去年这个时候还没有人说可以替代人吧
发展太快了，今年很多编程大牛都转变立场里，开始用 AI 编程非核心的系统，即使崩掉也不影响核心系统
此外，由于 AI 生成系统更加便宜后，甚至可以出现模块化后，AI 生成多份冗余的代码模块，当前代码有问题，自动切换另外一套代码。

anonymous00

2 月 22 日

@zooo 这里聊的“自动化”，我理解呢，是 AI 以某尺度下通用的默认参数或边界为前提，如果叠加的需求越详细，那意味着 AI 面向指定用途的定制化就越深入，一来，限缩了用户的意向和规模，二来，背离了通用 AI 的目标。

19 年的 iOS 计算器程序缺陷，属于逻辑适配层面，是无法完备落实为精准描述的范畴。
更早的 Meltdown 漏洞，属于设计缺陷，多少道人工流程也没能提前排除，这种概率雷，避无可避。
更更早的 Pentium 的浮点 bug ，不仅是概率雷，还极隐蔽，非特殊场合不可察。

AI 的自动化产出，也必然会隐含这类“暗伤”，采用可承受/可负担的不信任原则，是对人负责，也是不得已，总之，尽量规避同一角色群体既当运动员又做裁判的弊端吧。