GLM5.1 在 arena 上 code 排行世界第三了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Bootis

GLM5.1 在 arena 上 code 排行世界第三了

  •  
  •   Bootis 13 天前 1977 次点击

    如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了

    sddyzm
        1
    sddyzm  
    PRO
       13 天前
    这家排行榜挺不错的
    Bootis
        2
    Bootis  
    OP
       13 天前
    非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到
    Bootis
        3
    Bootis  
    OP
       13 天前   1
    @sddyzm 确实跟个人使用体感一致,除了 GPT5.1 high 的排名低了,估计是 UI 相关的能力过于拉跨拉低了分数
    Bootis
        4
    Bootis  
    OP
       13 天前
    @Bootis #3 修正 5.1-5.4
    longxinglink
        5
    longxinglink  
       13 天前
    ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势
    licoba
        6
    licoba  
       13 天前
    @Bootis #2 赚啥呀,限额不是说限就限,计划不是说调整就调整,要我说还是包月包季吧
    Bootis
        7
    Bootis  
    OP
       13 天前
    @licoba OpenAI 、Anthropic 、Google 不都一样,国内厂现在给的配额调整了也基本是非常划算的一档了
    abc0123xyz
        8
    abc0123xyz  
       13 天前
    glm 能力还不错,但是 429 警告
    nakun233
        9
    nakun233  
       13 天前
    @Bootis GLM 的我忘记自己上个月点取消了,前天忘记续费 49 的套餐没了
    wm5d8b
        10
    wm5d8b  
       13 天前
    试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼
    rubyacgn
        11
    rubyacgn  
       13 天前
    我觉得 cursor bench 最准, 上面是 gpt 5.4 第一
    admirez
        12
    admirez  
       13 天前   1
    glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上)
    FlashEcho
        13
    FlashEcho  
       13 天前
    Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务
    Bootis
        14
    Bootis  
    OP
       13 天前
    @rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了
    sakuraT1
        15
    sakuraT1  
       13 天前
    排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务
    jqtmviyu
        16
    jqtmviyu  
       13 天前
    我现在不相信评分了. 从 minimax glm 一出就吹 claude 之下排第二, 结果用起来不如 gemini 3 和 gpt 5.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1184 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 47ms UTC 17:55 PVG 01:55 LAX 10:55 JFK 13:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86