claude code 降智被实锤了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yarkyaonj

claude code 降智被实锤了

  •  1
     
  •   yarkyaonj 11 天前 8284 次点击

    上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

    今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

    可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

    图片

    https://imgur.com/a/u7Np8Wk

    38 条回复    2026-04-14 17:55:45 +08:00
    gpt5
        1
    gpt5  
       11 天前
    我也很明显感受到了它现在经常颠三倒四
    yougo
        2
    yougo  
       11 天前
    https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
    hitrip
        3
    hitrip  
       11 天前
    不一定是永久降智,有时候是环境 bug 引起的
    yarkyaonj
        4
    yarkyaonj  
    OP
       11 天前
    @hitrip 全球用户都反映有降智现象,现在又有数据实锤
    nc
        5
    nc  
       11 天前
    A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
    FqwKVgsv
        6
    FqwKVgsv  
       11 天前
    非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
    yarkyaonj
        7
    yarkyaonj  
    OP
       11 天前
    @nc 问题是这对已经付费的用户很不公平,付了一个月或者一年钱,结果半途降智
    whoosy
        8
    whoosy  
       11 天前
    升级到 2.1.104 版本再试试,昨天已经变聪明了
    potatowish
        9
    potatowish  
       11 天前 via iPhone
    api 也降智? 价格还是一样的
    fredweili
        10
    fredweili  
       11 天前
    opus 贵的多,就用 sonnet
    yuruizhe
        11
    yuruizhe  
       11 天前
    降智是什么意思?
    66beta
        12
    66beta  
       11 天前
    很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
    EthanZC
        13
    EthanZC  
       11 天前
    算力不够,就这样,无解
    yarkyaonj
        14
    yarkyaonj  
    OP
       11 天前
    @yuruizhe 就是变笨了,智商下降的意思
    deplives
        15
    deplives  
       11 天前
    是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
    gpt5
        16
    gpt5  
       11 天前
    网页版和 cli 上都明显感受到了降智
    zerovoid
        17
    zerovoid  
       11 天前
    @yuruizhe #11 就跟下棋一样,比如平时高手能算到 50 步以后的局势,现在只能算到 10 步以后,那大家肯定能感觉出来这个高手变笨了。
    teaguexiao
        18
    teaguexiao  
       11 天前
    最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
    isora
        19
    isora  
       11 天前
    copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复
    sentinelK
        20
    sentinelK  
       11 天前
    所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。
    lsearsea
        21
    lsearsea  
       11 天前 via Android
    a\还能算力不够?被谁卡脖子?
    vultr
        22
    vultr  
       11 天前
    用 codex 也不错的说
    longxinglink
        23
    longxinglink  
       11 天前
    我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立
    他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里?
    https://marginlab.ai/trackers/claude-code/
    https://marginlab.ai/trackers/codex/
    MengLUO
        24
    MengLUO  
       11 天前
    某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问
    csfreshman
        25
    csfreshman  
       11 天前
    估计算力紧张,让出算力给新模型了?
    xFrye
        26
    xFrye  
       11 天前
    说明新模型要出来了
    prosgtsr
        27
    prosgtsr  
       11 天前
    每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了
    这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。
    Plutooo
        28
    Plutooo  
       11 天前
    要跟几天后的 gpt6 中门对狙了
    craftsmanship
        29
    craftsmanship  
       11 天前 via Android
    @xFrye 已经出了 但不给用
    loveshuyuan
        30
    loveshuyuan  
       11 天前
    同样感受到降智
    beimenjun
        31
    beimenjun  
    PRO
       11 天前
    这家实在太爱又当又立了。

    我使用官方 200 刀套餐,周末感受到了前所未有的降智感。

    之前还说什么不会因为算力不足 blabla 。

    明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。
    tianhehechu
        32
    tianhehechu  
       11 天前
    @yuruizhe 以人类比,人 降智 后,会在此问题下问:降智是什么意思?
    fovecifer
        33
    fovecifer  
       11 天前
    前一阵是 token 消耗过快的问题
    现在是降智
    alexluo1
        34
    alexluo1  
       11 天前
    去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏
    apibox
        35
    apibox  
       11 天前
    确实,最近特别明显
    superkite
        36
    superkite  
       10 天前
    claude 要出 mythos 了,现在算力全往这个 agi 模型上倾斜
    piaca
        37
    piaca &bsp;
       10 天前
    小声点,别让官方听见封我们的号
    qiqw
        38
    qiqw  
       10 天前
    确实太明显了, 今天用了一天, 感觉傻傻的, opus4.6 开 high, 动不动就道歉, 难受呀
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     902 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 110ms UTC 20:24 PVG 04:24 LAX 13:24 JFK 16:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86