
如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了
1 sddyzm PRO 这家排行榜挺不错的 |
2 Bootis OP 非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到 |
5 longxinglink 13 天前 ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势 |
8 abc0123xyz 13 天前 |
10 wm5d8b 13 天前 试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼 |
11 rubyacgn 13 天前 我觉得 cursor bench 最准, 上面是 gpt 5.4 第一 |
12 admirez 13 天前 glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上) |
13 FlashEcho 13 天前 Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务 |
14 Bootis OP @rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了 |
15 sakuraT1 13 天前 排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务 |
16 jqtmviyu 13 天前 我现在不相信评分了. 从 minimax glm 一出就吹 claude 之下排第二, 结果用起来不如 gemini 3 和 gpt 5. |