大模型发展到当前，让我对事物的发展有一些体会

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 176 天前的主题，其中的信息可能已经有所发展或是发生改变。

从 2016 年 AlphaGo 战胜李世石，让 AI 这个概念成为了科技的热点话题，于是 17 年阿里成立了达摩院，让大家对 AI 又有了更高的期待，但是后面大家发现 AI 还是无法被规模化的应用到各类业务场景中，更多的还是一些图像识别、搜索推荐等，达摩院的慢慢落幕也能够反应这个阶段发展趋势。这个阶段我觉得主要是两方面不满足导致 AI 无法发展起来：
1 、AI 能力本身不具备普世价值，得不到普通大众的认可，更多的是资本用来包装商业的装饰品，导致大众从 PR 听到看到的和实际体验的 AI 存在很大差别，甚至会觉得这东西有点脑残，而被 AI 深度赋能的搜索推荐，还存在隐私合规擦边的情况
2 、AI 并没有激发工程架构的配套演进，这个是基础能力不能被规模化应用的重要因素，工程架构是将某一项能力普及的关键，因为他可以填补基础能力和实际业务场景的差距，不管是理解成本、建设成本还是集成效率。

而当 2022 年 11 月 30 日 ChatGPT 问世，让普通大众第一次感受到了 AI 是智能的，甚至怀疑背后是不是有一位人类的大师，因为这个时候 AI 给到的并不是人类制定好的决策树反馈，而是可以理解非结构化的信息，并且进行思维和推理，这就具备了上面说的第一条，让大众能够觉得 AI 的存在，是一个智体的存在，而不是设定好的规则。

这个时候最先收益的是那些被称作为“AI 布道师”的网上卖课的群体，他们把 AI 包装成为人类的未来，同时也在贩卖一些 AI 对人类的焦虑，从而能够博取大家的关注，我理解这是一个新生事物被大众关注的正常策略和手段。可能他们确实具备超过常人的超前眼光，也不排除中间某些人是在跟势吃红利。

作为这个阶段 AI 的第二个受益者是大模型算法工程师，这一两年大家看到行业里面都在争夺大模型的算法大牛，比如某厂不惜竞业协议挖走另一个厂的一号位，比如某长空降某个行业大牛，又比如某厂对一些人员连升几级等等，这些算法工程师的个人身价上可能实现了几倍甚至十倍的增长。如果把 AI 当做是一个新的时代到来，这些大模型算法工程师就是在构建这个时代的基石，让大模型成为下个时代的基建，所以各大厂才会舍得去砸钱投到这些人身上。有些项目可能还是 PPT ，会由于某些 AI 大牛的加入，就可以拿到数千万美金的天使轮，因为资本是最敏锐的，他们需要把手里的资金尽快锚定新时代的资产上，从而实现资本的升值。这个阶段对于这些大模型算法工程师来说，是有一些注重个人英雄主义的，因为一个模型的成功与否，确实是会由于某一两个人决定，这个是和上个互联网时代比较大的区别。

在回看本次 AI 的变化，会发现这次 AI 的推进不单纯是学术的热点，也有实际的产品，同时更重要的是，有衍生出与 AI 配套的工程技术架构，比如早期的 openai 的 function call ，RAG 架构的演进，再到这一两年新起的 MCP ，以及衍生出了多 agent 架构，以及之上有接近产品级的应用方案，比如 dify ，还有近期比较火的 manus 、coding assistant 等，这些工程架构的进化极大的促进了 AI 走进实际生活，也让 AI 能力被普及，可以应用到千行百业。

截止当前，大模型的发展过程是符合一个新生事物发展规律的，就好比互联网、移动互联网发展起来一样，最开始都是从实验室走出来的新的技术，随着布道者去普及大众对他们的理解和认知，然后叠加工程技术架构的演进，帮助这项技术逐步发展成熟，达到应用普及。从利益受众全体上看，是呈现出喇叭状的，这个原因是，新的技术随着工程技术的演进，会降低大众参与创新的技术门槛，会引入更多的创业者参与，产生很多以 AI 为基础的应用（不管是 tob 还是 toc ），从而扩大行业的建设者，最终由于这个行业的新起，里面的参与建设的各类角色最终也都会享受这个新技术下的时代红利。

最为个体怎么看待这次大模型带来的 AI 时代？我觉得就是让自己参与进去，不要想自己能够对这个时代产生多大的价值，不管你是参与到这类的项目中，还是基于 AI 场景的应用进行创业，甚至卖课，先把自己扔到这个时代洪流中，就算随波逐流也行。因为一个时代的红利只会给到参与里面的建设者，不管你是拧螺丝定，还是造飞机大炮。

作为互联网时代的工程同学，我们应该想的更多的是针对 AI 应该构建怎样的工程技术架构。可以从场景出发去思考，比如社会中哪些是可以基于当前的 ai 能够结合的，像当前流行的 RAG 知识库解决方案，还是 dify 这种 workflow 集成体，都是针对 AI 衍生的新的工程技术架构。核心的切入点是通过工程技术填补大模型基建和社会场景的缝隙。

大模型

工程架构

33 条回复 2025-06-16 10:15:44 +08:00

Seck

176 天前

我把他当做新工业革命的核心：
几乎每一次工业革命都有一个通用工具
第一工业：每一家企业企业配置蒸汽机，围绕这个是所有工厂，设备
第二工业：每一企业都用上电，围绕电，产生几乎所有现代设备
第三工业：互联网，技术是：网络+操作系统，所有关于互联网都围绕这个

这一次定位
定位是：辅助工具，简单来说 AI 辅助效率提升，内核是：大模型，外皮是各种基于大模型应用。
1 、AI 能力本身不具备普世价值，得不到普通大众的认可
2 、AI 并没有激发工程架构的配套演进

这两个问题不就解决了吗，根本不存在

littlejohnny

176 天前

理解不了你两个问题的由来。
1 、上网的主流人群还有几个没接触或使用过 AI? 怎么会有“不具备普世价值得不到群众认可”的结论。
2 、既有的工程架构要接入 AI 必然有个过程，在我看来已经非常快了，至少在软件层面无论是 OpenAPI 还是 MCP ，都确定了深度接入各个行业领域内部的必然性和大致标准。
在我看来，这就是第四次工业革命的引擎，势不可挡。

NoOneNoBody

176 天前

实际上仍然是决策树，只不过规则从树状进化到网状，但个人认为还没达到球状，或者更高维
要达到智能体，还有很大距离，因为还没能突破边界

MidCoder

176 天前

@littlejohnny 你应该理解错误意思，这两个观点是 16 年到 ChatGPT 发布之前不具备这两个条件，而 ChatGPT 发布之后，这两个条件都有满足，所以才有现在大家感觉到大模型的时代快速发展起来

littlejohnny

176 天前

抱歉，阅读理解有误，原来作者说的“这个阶段”指的是 2016-2022 ～～

MidCoder

176 天前

@NoOneNoBody 单纯从模型能力将肯定还没有达到 AGI 这种要求，但是当前看到的大模型能力看，是可以逐渐看到对实际生活场景带来的变化趋势，而且有可以被大规模应用的场景，确实有一些场景还存在一些边界问题，这些问题也是大模型自身能力迭代演进需要去逐步解决的。比如大模型给到的答案，我们没办法完全信任，更多的是参考，但是这个至少减少了人工过程思考推理过程，让人对事情更加专注在重点上

wyntalgeer

176 天前

下一阶段的 AI 要进入斗争了，AI 平权注定没那么容易

MidCoder

176 天前

@wyntalgeer 我觉得真的到这个时候，单纯从技术角度看，已经发展到了足够成熟，能够达到人类对 AI 的预期。这个时候，我推测，是需要一些政治手段干预的，而不是单纯的只靠技术趋势去发展，因为技术本身不具备人性，他在这个社会更多的还是工具，怎么用好，是需要配合政治手段进行约束的。这是我的猜测，仅供参考

NoOneNoBody

176 天前

@MidCoder #6
边界不是说行业、场景之间的边界，而是主动思考的拟人化思维深度边界

MidCoder

176 天前

@NoOneNoBody 赞同，因为思考本身没有标准答案，这个就不太好定义，不管现在各类评测维度怎么评，其实都无法定义一个模型绝对的好坏，所以可能这本身就是一个不断演进的一个问题，就像不断去开发一个大脑

coefu

176 天前

全是论点，毫无论据，且论点毫无新意。
你真想有点深刻感悟，你得下沉到具体的技术层面里去，你下沉的深度决定了你的理解深度（如果你彻底理解了 ML ,DL,RL,DRL ，你会有新的更深刻的认知）。现在就是浮在外围感慨万千罢了。
以下是我的认知观点：
1 ，围绕当前 LLM 一切，已经可见发展的天花板，并很快（ 1~2 年不会有代际迭代出现）逼近。
2 ，LLM 下一个 3~5 年的突破是结合具身智能，并融合当下发展起来的记忆能力，当然这并不会融合的很好（ LLM 和 DRL 的融合）。
3 ，所谓的“AI”口号的下一个具体技术方向是，脉冲深度强化学习（ SDL ），这是让具身智能真正有用武之地的一个很有可能能做成（ 80%~90%）的路线。
4 ，所谓的“AGI”（取决于怎么定义，如果你认为现在就是 AGI ，亦可）遥遥无期（保守估计 20 年以后的事了）。
5 ，上述 4 点你可以不认可。

MidCoder

176 天前

@coefuqin 首先感谢你的指点，确实对于大模型内部的细节和模型能力本身的迭代演进方面了解不多，这方面确实受限于当前的视野所约束。这里想表达的是，作为一名非大模型领域的人员，当前的 AI 和之前有什么区别，以及站在当前我们应该要做什么，特别是作为一个互联网的工程同学。
我觉得去和专业的大模型算法去拼算法的网络结构和训练细节，并不是我们所擅长的，特别是从事互联网工程很多年的同学，所以作为这样一个角色，站在当前这个环境下，我们应该做什么是我想阐述的。

当然我觉得随着未来模型能够被规模化的应用，覆盖更多的场景。posttrain 会是比较关键的，包括前段时间 deepseek 的出现，也体现出了 RLHF 的重要性，包括采用什么策略进行 RLHF （是 REFL 还是 DPO ，还是 deepseek 提出的 GRPO ），怎么进行好的 SFT 或者 RLHF ，都和更加高质量的数据相关，或者说针对未来要进行垂类的精调，是要有更好的垂类行业数据，这样可以提升模型对垂类行业的理解和模型结果的准确率。而对比 pretrain ，可能会趋于收敛，受限于它本身的训练成本很大，对比 posttrain ，pretrain 更多的是让模型具备更大的上线去提供后续模型能力的无限可能。所以如果未来能够提供更加低成本和更加高效的 posttrain 基建，加上可以快速收集整理垂类行的高质量数据，可以加速模型在各行业的高质量落地。

coefu

176 天前

@MidCoder #12 "作为一名非大模型领域的人员，当前的 AI 和之前有什么区别，以及站在当前我们应该要做什么，特别是作为一个互联网的工程同学。"
2022 之前 DRL 是主流，2022 之后生成式虽然是主流，但清醒过后就会发现 DRL 才是是真正的发展方向。
我觉得当前（ 3~5 年）工程领域最佳实践就是 langchain/dify ，RAG/kAG ，mcp stack ，memory stack ，结合当前的各种前后端/移动端去适配新旧 idea 。这产生不了跨时代的产品，只是创造二流的平庸产品。
但是想做出跨时代的产品，得有跨时代的前瞻性视野。

coefu

176 天前

@MidCoder #12 预训练和后训练都已经极限，后训练里强化学习所带来的 reason 能力，是不是真的能力，目前都是争议。互联网数据已经用尽，垂直领域的数据比互联网更少。
真正的数据来源是每个人每天眼睛看到的数据，这个数据是无穷的，但是目前对这些数据的聚合在法律法规人伦道德以及技术手段来说，都还没有突破。

MidCoder

176 天前

@coefuqin 认同，我觉得要试下跨时代的产品，就是需要大家想要的 AGI 的到来。但是过程中确实需要慢慢去迭代，更主要是这个过程更多的是一个定性的问题，并不是一个定量的问题。所以在很多事情上都是摸索着推进，这里包括数据获取、法律法规的演进等。基于当前的视角看，AI 结合场景在未来三年内能够做的事情是相对比较确定的；等到三年之后，可能模型的上线再次没打破，又会进入下一个新的阶段，或许就是这样一步步迭代出一个大家想要的跨时代技术（纯属个人乐观猜想）

coefu

176 天前

@MidCoder #15 我可以给你一个启发性的场景，什么时候具身智能厂商能演示：
1 ，你手中一个随机打乱的魔方。
2 ，你丢出你手中的魔方到地毯上，随机滚动到一个位置。
3 ，你给指令当前空间中的具身智能机器人：破解你丢出去的魔方并归还给你。
4 ，机器人能自动规划寻找路径，能类人一样用手拾取拾取魔方，能双手在有限时间破解魔方，成功之后将魔方递还给你。
以上这个场景随机出现，并不被厂商预训练。能演示上述场景的厂商，将领先同行一个前瞻性段位。科幻电影里的情景才可能有望在现实中出现。

murmur

176 天前

为什么不回归本质 AIGC 这个 C ，第一个干死的就是网文、艺术、音乐类

编码和 RAG 的数据上下文茫茫多，一首歌就 4 分钟还没有上下文

suno ai 这几年太惊艳了，现在专业人士评测 AI 已经做到专业的 70 分了，这可能是普通人一辈子学不来的

为了写歌你要学乐理，配器，编曲，作词，唱歌，录音，混音，母带

但是有 AI 你一句提示词就够了

MidCoder

176 天前

@coefuqin 我觉得这个随着模型的迭代，这个应该是可以实现的，问题就是需要多久时间，这个是不确定的。就这个场景，在确定性指令的情况下，模型都应该是可以实现的，如果指令对应的场景是在现实生活中发生过的，并且可以被记录下来，那么都有可能被模型所学习到，这就是模型迭代学习的过程，通过不断加强数据的获取，确实随着时间推移，容易拿到的数据基本所剩无几了（其实现在基本到了这个阶段），后面可能就是需要结合知识性的数据去构造数据，甚至让模型自我去基于自己的输出数据去学习（其实 RLHF 也是这个过程）。现在比较难的是，模型要解决的问题域明确定义，或者是没有量化定义，所以总能举出一些反例来说明模型还不够聪明，但是这些反例放在发展的视角看，其实就是模型需要进行新的迭代的输入

MidCoder

176 天前

@murmur 但是对于真正专业的来说，还是无法被替代的，因为如果不够专业，也就写不出专业的提示词，写不出专业的提示词，模型也就无法真正的能够创作出高质量的内容。那些专业性不强或者创造性的确实会被容易替代

xuanbg

176 天前

@coefuqin 解魔方有公式的，随便你打乱成什么样子，只要按公式转就能还原的。

coefu

176 天前

@xuanbg 可以给出几个解魔方解对的 demo 给机器人看，让它自己学习怎么解魔方。这是对于“大脑”泛化能力的测试。行动是对“小脑”泛化能力的测试。如果“大脑”+“小脑”都能泛化的话，说明它可以去厨房学习切菜和炒菜了。

coefu

176 天前

@MidCoder #18 我举例的场景，同时测试了随机场景下，具身智能机器人的“大脑”+“小脑”的小样本或者零样本的泛化能力，这个能力是目前厂商最缺失的。如果能做到这样，就不需要像当前一样对于每个场景都做强化学习的训练了。和你理解的仅仅在 LLM 领域里的东西，完全不同。

Machcd

176 天前

重点应该在工程，而不是被资本裹挟着一股脑去莽算法，这个思路是对的

coefu

176 天前

@MidCoder #18 给你看个去年的 paper 。https://sayplan.github.io/

MidCoder

176 天前

@coefuqin 感谢，我学习一下

coefu

176 天前

@xuanbg https://robopen.github.io/ 去年的 paper ，能泛化到未曾识别的物体做动作，但是真正能理解魔方解，然后双手解魔方，这个估计还要几年。

coefu

176 天前

@MidCoder #25 我也是今天下午搜了一下，发现 LLM+DRL ，这么看起来，好像还有点搞头。等前沿的兄弟们出一条路，还可以模他们的石头，哈哈。

pkoukk

176 天前

我不觉得用所谓工程技术填平缝隙这条路是对的
就像你 LangChain 写的再好，也不如模型支持 MCP
AI 时代的交互模式应该是完全不同的，拿现有经验去搞的那些 agent 真是别扭，也一点都不好用

MidCoder

176 天前

@pkoukk 我觉得不管是 langchain 还是 MCP ，他目的是解决模型无法实时感知世界的问题，因为模型训练是离线的，训练完之后，他的知识储备和具备的推理思维范围，取决于训练时数据快照。而 function call 和 MCP 等这些架构工具，都是去将模型能力和现实业务场景结合起来，将实际场景的上下文实时给到模型，利用模型推理和理解去解决业务场景的问题

75S3CWXNN0VQ84mg

175 天前

我感觉到坚持+长期主义的意义。gpt 系列早就有了，一直被 bert 压一头。能坚持走到 3.5 ，离不开核心成员对这一方向的自信心。

coefu

175 天前

@MidCoder #25 https://arxiv.org/abs/2506.01622 LLM 和 RL 结合，目前最新的研究。

coefu

175 天前

@MidCoder #29 看我给你发的 google deepmind 6 月份最新的关于 world models 的研究。你当前的理解起码滞后了 2 年。2023 年的时候，deepmind 的 dreamer v3 ，就已经能感知世界了。https://danijar.com/ 这哥们儿真是个奇才。

littleW2B

172 天前

我觉得大模型应该类比云计算，不到工业革命的程度。还有具身智能的关注点太局限于算法或者软件了。比起智能程度，具身智能能源消耗和寿命更是问题。