LLM 时代的最大桎梏：概率与模糊，导致 AI 工具就像是中医圈子

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

在 claude code 源码泄露的前夜，v 站关于 LLM 工程化调用的帖子可以说是群魔乱舞。

有说自己的 agent 思路好，和市场方案相比是“你可以理解为架构师和实习生的对比”，但就是说不出怎么好的：
t/1201268#reply6

有说自己的方案“将整体协作效率提升 1300% 以上”的：
t/1201460#reply10

在我看来，这些都是中医圈子用烂了的把戏。
既，在一个黑盒下（中医是药理，AI 是 LLM 模型），只要我不提细节，我就有最终解释权。人有多大胆，地有多大产。张口就是好用，问怎么好用，你猜。

不需要证明，不需要实验，更不需要对比。只要我烧 token 够快，agent 流程转的时间够长，我就是先进。

第 1 条附言 19 天前

而且 AI 的产品化应用中，还包含一个悖论。

以目前的 AI Coding 场景为例。目前除了 Copilot ，所有的 agent 厂商都不装了，直接或间接的用 token 计费。
他们压根就没有动力探索合理的 AI 应用逻辑。优化 AI 调用反而是断了自身的财路。

token 烧的越多，他们越赚钱。还凸显他们的 agent 产品能力强。
最终导致并不能盲目崇拜第一方的产品化实现逻辑。

llm

中医

黑盒

13 条回复 2026-04-03 14:07:10 +08:00

JingW

19 天前

没办法，LLM 就是构建在概率上的，关键是这些 trick 有时候是有效的。
你可以用 benchmark 来评估它，它也可以针对 benchmark 做优化，相互不耽误。

hafuhafu

19 天前

最后一段话我是认同的。
现在一些趋势,夸张点说，就比如像翻译这种任务,恨不得上个好几个模型并行翻译,然后再安排几个对结果润色审核,最后可能再安排几个打分选出一个所谓的最优解...
token 是烧的快了,效果好不好还真是个未知数。况且现在 token 就是实实在在的钱，不可能不考虑用量的。

yigecaiji

19 天前 via Android

和中医的一个区别是，你是真的能看到老中医 codex 和 Claude code ，但是也没有那些人吹得那么猛

Vipcw95

19 天前

所以出了各种基准测试来跑分

coefu

19 天前

和 80 年代的专家模型，本质上是一个路数的；如果你读过 The Bitter Lesson, 就能明白，这种把人类先验知识注入的模式，终究就是走不通的。

kaixinyidian

19 天前

抽卡是吸 llm 留给我的最后一点刺激

kuhung

19 天前

同意 up 主观点。这波 AI 热，到处都是说自己消耗多少 token 的，就是不说有哪些作品。要不就是“现在不行，不代表半年后不行”“你不行，是你的工具不行”。LLM 这玩意儿，抽卡多巴胺分泌太大了。

sentinelK

OP 19 天前

@yigecaiji 即便是 claude code 这种第一方工具，其实他也很难自证他的工程化、产品化是合理且足够优化的。LLM 靠大力出奇迹其实可以理解，毕竟是统计学的涌现。

但产品化工具也靠大力出奇迹 while(true)，其实就很难令人信服这是最优方案。

TerryBlues

19 天前

都是在实践和摸索中前进的，很多产物确实会有民科味道。

我个人是反对把人类组织的糟粕搬给 agent 的，太多博眼球的东西了。简单保持规划执行审计的角色也许就可以了也许以后模型能力变得更强，连这个也不需要了呢。

mcgga

19 天前

感觉根本原因还是神经网络目前是一个黑盒。只要结果对了或者符合预期，你怎么吹别人也说不了什么，也没办法反驳。这就造成了最终还是大力出奇迹来的简单粗暴，省时间省脑力...

cairnechen

19 天前

从 command hooks 到 MCP Skill 每一步都在增加确定性，这个发展方向已经很说明问题了吧

takeshima

19 天前 via iPhone

这就是 AI 的本质啊，LLM 本质上还是在计算下一个最高概率的 token ，这也是为什么 AI 生成一定要 review ，跟传统的编译器、框架、脚手架有本质差别，后者的工作是确定性的，你不用 revie 编译器输出的二进制

coefu

18 天前

https://mp.weixin.qq.com/s/DE0hc3Mz6zwoSCgL0k4SgQ

这哥们儿写了一篇正当时。

你们可以看到订阅的 tokens 都是怎么烧没的，。以及，当前大众上下文语境中的“AI”的边界在哪里，这个问题可以衍生的，在 coding 领域如此，openclaw 所延伸的领域亦是如此。当最熟悉的 coding 领域都如此难搞，别的开放离散场景，只会更加难搞。