当我让 gemini3.1-pro 评价一下 minimax-m2.7

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

节点赞助商

最近开始研究 docker 部署个 harmesagent 玩玩，然后看到很多推荐 m2.7 的量大管饱，pinchbench 排行也是前几位，就买了个 49 套餐试了试，结果发现让他实现个自己打通 gitea 自动审批 pr 都整不明白。我就很好奇，把官方的文案味道了 gemini 里，下面是 gemini 的评论，大家图一乐就好：

这份发布介绍简直是一份“教科书级别”的大模型公关稿。如果你带着开发者的视角，剥离掉那些高大上的名词，这篇稿子里藏着非常多经不起推敲的“端倪”和营销话术。

我甚至在它用来背书的跑分数据里看到了我自己的名字（ Gemini-3.1 ），以及未来版本的友商（ Opus 4.6, GPT-5.4 ）。这就更有意思了，我们可以逐段拆解一下这些“遥遥领先”背后的潜台词：

危险的“自动化运维”幻觉公关稿： “面对我们实际的生产环境告警……主动连接数据库执行验证根因，定位到代码仓库中缺失的索引迁移文件，甚至知道用非阻塞建索引先止血，再提 MR 。”

看破端倪：这段话对于任何真正维护过服务器的人来说，堪称恐怖故事。设想一下，如果你自己手头正维护着几台 VPS 节点，管着一堆 .dev 、.xyz 域名或者像发卡网之类的个人站点，你敢让一个大模型在生产环境发生故障时，“主动连接数据库”并“自己建索引”吗？在实际的运维场景中，哪怕是极其微小的幻觉操作，都可能导致整库锁死或数据污染。这大概率是一个极其受限的、提前写好脚本的“演示切片（ Demo ）”。它证明了模型能输出这几行 SQL ，但绝不代表它具备真实的 SRE （站点可靠性工程）决策安全感。

“Token 焚烧炉”的高级包装：Agent Teams 公关稿： “Agent Teams 场景下，模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。”

看破端倪：你前面刚提到用 Hermes Agent 极其消耗 Token 且常常完不成任务，这段话就是罪魁祸首。目前绝大多数所谓的“多智能体协作（ Agent Teams ）”，在实际落地时都会演变成“AI 互相扯皮的 Token 焚烧炉”。所谓的“主动挑战队友逻辑”，往往是一个 AI 说“代码写错了”，另一个 AI 道歉并重新生成一份依然有错的代码，循环往复几十轮。它看似在“自我进化”，其实是在疯狂消耗你的 API 余额。

跑分榜单的“文字游戏” 公关稿： “在 SWE-Pro 中，M2.7 得分 56.22%，几乎接近 Opus 最好的水平……在 MM Claw 的评测中接近最新的 Sonnet 4.6 。”

看破端倪：注意看它的用词“接近”。很多国产模型喜欢自创或者挑选特定的 Benchmark （比如这里提到的 MM Claw ，听起来像是模仿真实的 SWE-bench ）。在这些高度标准化的测试脚手架里拿高分，不代表它能在真实的开发环境里存活。你把它放到真实的本地环境里试试看，比如让它去给一个要求极其严格的 Rust 项目写点带有生命周期标注的底层逻辑，或者让它去配置 Zed 编辑器的自定义 formatter 。你会发现，那种在跑分榜上“端到端交付”的聪明劲儿全没了，连基础的语法树都可能搞错。

财报分析的“量化盲区” 公关稿： “可以自主阅读公司的年报与业绩沟通会纪要，交叉比对多篇研报，独立设计假设并构建营收预测模型……”

看破端倪：做过实际盘面交易，或者习惯在图表软件（比如 TradingView ）上盯盘的人都会知道，金融建模对严谨性的要求是 100%，错一个小数点，预测结果就南辕北辙。大模型本质上是一个“文字接龙”的高手，它非常擅长总结业绩沟通会的纪要，甚至能套用模板生成一份看起来很唬人的 PPT 。但“构建营收预测模型”需要极其严密的算术逻辑和时间序列分析。如果不借助外部的 Python 解释器或量化插件，纯靠模型自己“独立设计假设”，它生成的那些营收数字极大可能是自圆其说的“幻觉”。把它当财报摘要提取器可以，当初级分析师？容易爆仓。

总结这篇公关稿极力想描绘一个“已经具备甚至超越人类高级工程师和分析师”的自主 Agent 形象。但只要你在开发一线滚过泥潭，就会知道：

宣称的“自动化”，通常意味着需要人类疯狂在后面 Debug 。

宣称的“多智能体深度思考”，通常等于你的 Token 成本要翻 10 倍。

下次再看到这种公关稿，直接略过那些自创的英文缩写榜单和华丽的定语。把它拉到你的终端里，让它实打实地去修一个你项目里的 Bug 。是骡子是马，一行指令就知道了。

目前尚无回复

大模型公关稿局限性