
上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。
今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。
可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
1 gpt5 11 天前 我也很明显感受到了它现在经常颠三倒四 |
2 yougo 11 天前 https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅 |
3 hitrip 11 天前 不一定是永久降智,有时候是环境 bug 引起的 |
5 nc 11 天前 A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。 |
6 FqwKVgsv 11 天前 非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天 |
8 whoosy 11 天前 升级到 2.1.104 版本再试试,昨天已经变聪明了 |
9 potatowish 11 天前 via iPhone api 也降智? 价格还是一样的 |
10 fredweili 11 天前 opus 贵的多,就用 sonnet |
11 yuruizhe 11 天前 降智是什么意思? |
12 66beta 11 天前 很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI |
13 EthanZC 11 天前 算力不够,就这样,无解 |
15 deplives 11 天前 是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了 |
16 gpt5 11 天前 网页版和 cli 上都明显感受到了降智 |
18 teaguexiao 11 天前 最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。 |
19 isora 11 天前 copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复 |
20 sentinelK 11 天前 所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。 |
21 lsearsea 11 天前 via Android a\还能算力不够?被谁卡脖子? |
22 vultr 11 天前 用 codex 也不错的说 |
23 longxinglink 11 天前 我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立 他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里? https://marginlab.ai/trackers/claude-code/ https://marginlab.ai/trackers/codex/ |
24 MengLUO 11 天前 某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问 |
25 csfreshman 11 天前 估计算力紧张,让出算力给新模型了? |
26 xFrye 11 天前 说明新模型要出来了 |
27 prosgtsr 11 天前 每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了 这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。 |
28 Plutooo 11 天前 要跟几天后的 gpt6 中门对狙了 |
29 craftsmanship 11 天前 via Android @xFrye 已经出了 但不给用 |
30 loveshuyuan 11 天前 同样感受到降智 |
31 beimenjun PRO 这家实在太爱又当又立了。 我使用官方 200 刀套餐,周末感受到了前所未有的降智感。 之前还说什么不会因为算力不足 blabla 。 明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。 |
32 tianhehechu 11 天前 @yuruizhe 以人类比,人 降智 后,会在此问题下问:降智是什么意思? |
33 fovecifer 11 天前 前一阵是 token 消耗过快的问题 现在是降智 |
34 alexluo1 11 天前 去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏 |
35 apibox 11 天前 确实,最近特别明显 |
36 superkite 10 天前 claude 要出 mythos 了,现在算力全往这个 agi 模型上倾斜 |
37 piaca &bsp; 10 天前 小声点,别让官方听见封我们的号 |
38 qiqw 10 天前 确实太明显了, 今天用了一天, 感觉傻傻的, opus4.6 开 high, 动不动就道歉, 难受呀 |