claude code 降智被实锤了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ，准确率达 83.3%。

今天 Claude Opus 4.6 重新测试后，在排行榜上跌至第 10 ，准确率仅 68.3%。

可以确认 Claude Opus 4.6 的推理水平降低，确实被削弱了。

https://imgur.com/a/u7Np8Wk

Claude

推理

准确率

38 条回复 2026-04-14 17:55:45 +08:00

gpt5

11 天前

我也很明显感受到了它现在经常颠三倒四

yougo

11 天前

https://aistupidlevel.info/ 这里有实时的版本昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款并且不会再考虑 claude code 订阅

hitrip

11 天前

不一定是永久降智，有时候是环境 bug 引起的

yarkyaonj

11 天前

@hitrip 全球用户都反映有降智现象，现在又有数据实锤

11 天前

A\估计在训练新模型，临时降智一下，GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ，公司内部两个团队在疯狂抢 GPU 。

FqwKVgsv

11 天前

非常非常明显的感觉到 claude 降智了甚至我有时候说的问题的意思都没搞懂得给它解释意思解释了半天

yarkyaonj

11 天前

@nc 问题是这对已经付费的用户很不公平，付了一个月或者一年钱，结果半途降智

whoosy

11 天前

升级到 2.1.104 版本再试试，昨天已经变聪明了

potatowish

11 天前 via iPhone

api 也降智？价格还是一样的

fredweili

11 天前

opus 贵的多，就用 sonnet

yuruizhe

11 天前

降智是什么意思？

66beta

11 天前

很明显，让它从一个页面上抓取一些数据都抓不全，不过别难过，gemini 也这个吊样。如果是自己出钱，建议大家去试试国产 AI

EthanZC

11 天前

算力不够,就这样,无解

yarkyaonj

11 天前

@yuruizhe 就是变笨了，智商下降的意思

deplives

11 天前

是的，最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了

gpt5

11 天前

网页版和 cli 上都明显感受到了降智

zerovoid

11 天前

@yuruizhe #11 就跟下棋一样，比如平时高手能算到 50 步以后的局势，现在只能算到 10 步以后，那大家肯定能感觉出来这个高手变笨了。

teaguexiao

11 天前

最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务，能一次把上下文全理清楚；最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现，不是客户端的问题。现在形成习惯了：重要任务配合 Sonnet 一起用，Sonnet 做大部分工作，Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。

isora

11 天前

copilot 上也是写完让审查下代码都没发现问题，然后让 gpt5.4 审查下一下就发现问题，再把问题给 opus 确认修复

sentinelK

11 天前

所以在如此背景的前提下，一堆人还在炒作基于 LLM 的工程化实现的优劣，简直贻笑大方。

lsearsea

11 天前 via Android

a\还能算力不够？被谁卡脖子？

vultr

11 天前

用 codex 也不错的说

longxinglink

11 天前

我看的是这个检测网站的数据，是个带立场的跟踪站，不是完全中立
他家用相同一套题目给 Claude 和 gpt 做，Claude 的数据对比上个月甚至还有改善，不知道楼主的数据来自那里？
https://marginlab.ai/trackers/claude-code/
https://marginlab.ai/trackers/codex/