GLM5.1 在 arena 上 code 排行世界第三了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

如图，跟个人体感比较一致（曾经订阅 Claude Max 20x ，现订阅 ChatGPT Pro 和 ZAI Max Plan ），如果智谱的 infra 再升级下，大多数 coding 任务就完全可以靠他了

GLM5.1

Coding

infra

16 条回复

sddyzm

PRO

13 天前

这家排行榜挺不错的

Bootis

13 天前

非广告，但是目前国内的 Coding Plan 都是极其优惠的价格，个人认为现阶段订阅年费大概率是买到就是赚到

Bootis

13 天前

@sddyzm 确实跟个人使用体感一致，除了 GPT5.1 high 的排名低了，估计是 UI 相关的能力过于拉跨拉低了分数

Bootis

13 天前

@Bootis #3 修正 5.1-5.4

longxinglink

13 天前

ollama 免费 API 也支持上了，不知道对比 GAMMA 4 有啥优势

licoba

13 天前

@Bootis #2 赚啥呀，限额不是说限就限，计划不是说调整就调整，要我说还是包月包季吧

Bootis

13 天前

@licoba OpenAI 、Anthropic 、Google 不都一样，国内厂现在给的配额调整了也基本是非常划算的一档了

abc0123xyz

13 天前

glm 能力还不错，但是 429 警告

nakun233

13 天前

@Bootis GLM 的我忘记自己上个月点取消了，前天忘记续费 49 的套餐没了

wm5d8b

13 天前

试了试腾讯提供的 glm5.1 ，存在将中文引号强制转为英文引号的 bug ，和 qwen 的中英文间强制加空格有的一拼

rubyacgn

13 天前

我觉得 cursor bench 最准, 上面是 gpt 5.4 第一

admirez

13 天前

glm 超过 gpt 是我听过最大的笑话了（至少目前是，希望以后他能赶上）

FlashEcho

13 天前

Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ，比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型，很大程度上发挥不出来，只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了，但是 SWE BENCH 的测评可信度都比这玩意高，毕竟那是基于真实有效的任务

Bootis

13 天前

@rubyacgn gpt 5.4 high 绝对是第一（除了让它自由发挥干 UI ），而且 OpenAI 大善人又不封号，googleplay 订阅还不用交平台税，codex 额度还给拉满，没有任何理由订阅 claude 了

sakuraT1

13 天前

排行榜没啥参考，有个视频说的挺好，国产的模型很喜欢针对测试排行进行特调，实际用起来就会发现和 claude gpt 差距很大，感觉不是很聪明，只能适用一些很简单的编程任务

jqtmviyu

13 天前

我现在不相信评分了. 从 minimax glm 一出就吹 claude 之下排第二, 结果用起来不如 gemini 3 和 gpt 5.