
我们做的是比较的复杂 agent ,目前试下来 kimi 效果最好
1 m952755064 3 月 19 日 别的没用过,GLM-5 还不错 |
2 VeteranCat 3 月 19 日 不用纠结,glm kimi 这俩都差不多。 当然能用的话,最好还是 claude 。 |
3 FaustinaD 3 月 19 日 各有各的拉 |
4 wsseo 3 月 19 日 GLM-5 新出的 minimax-2.7 小米新出的 mimo-v2-pro doubao-seed-2.0 如果编程不要用 qwen3.5-plus |
5 defaw 3 月 19 日 昨晚上开了个 minimax m2.7,比之前的 m2.5 强多了,m2.5 的时候工具调用成功率也就 50%。 感觉 m2.7 比 glm4.7 强一些,达到 composer1.5 的水平了 |
6 skuuhui 3 月 19 日 文无第一。如果是做商业产品,建议用 qwen 系列,并且过段时间你就发现原因了。 |
9 cryptovae 3 月 19 日 |
10 ddczl 3 月 19 日 我用的 MiniMax ,满足我 90%的情况。昨天更新的 2.7 我还没怎么试,但是能处理我之前使用 2.5 时一个无法处理的问题了 |
11 liu731 PRO 除去 Qwen 外全部拉跨(最近的 3.5 也跨完了) |
12 sean250031 3 月 19 日 投 kimi-k2.5 一票 |
13 catazshadow 3 月 19 日 谁偷 claude 偷的多谁好 |
14 tinybaby365 3 月 19 日 QWen3.5 中英文间强加空格不是个案,感觉没训练好就放出来了。 |
15 hrzlvn OP @tinybaby365 indeed |
16 zhonghao01 3 月 19 日 GLM 5 / KIMI ,MINIMAX 中规中矩,其他就不要碰了。 |
17 nnnnnnamgn 3 月 19 日 glm5 凑合用,但贵,minimax 干小活可以 |
18 xyzlucky 3 月 19 日 别的不知道,但是今天用了一下 Qwen3.5-Plus ,no ,不行。。。。。。。看他干活我心累 |
19 redbeetle 3 月 19 日 miniMax-M2.5 、KiMI-2.5 使用下来,感觉 KIMI-2.5 更好用些。首先是他的多模态就方便一些,miniIMAX 的 ai 幻觉比 KIMI 更重一点。但 miniMax 有个最大的优点就是便宜量大管饱。智谱的 GLM 没有使用,暂不评论 |
20 fengge0002 3 月 19 日 https://v2ex.com/t/1199441 看看洗车问题的回答对比,kimi 的逻辑推理还是稍微差点。不过做 agent 也许更重要的是指令听从和工具调用能力 |
22 vthu57924 3 月 19 日 感觉目前反馈最好的是 GLM-5 |
24 ffxrqyzby 3 月 19 日 我进来之前以为是高达模型呢 |
25 listenerri 3 月 19 日 |
26 dunn 3 月 19 日 via Android 评测每家都很厉害,实际都有差距 |
27 Tink PRO 实测是 kimi2.5 ,一亿有一亿的好 |
28 congyoubanmian 3 月 19 日 投 kimi2.5 光他识图不用专门调用 mcp 就比 glm5 和 minimax 强 逻辑上弱 glm5 一点,来自三个包年套餐用户体验 |
29 WithoutSugarMiao 3 月 19 日 之前给小龙虾接的 minimax2.5 我觉得挺好用的。他们昨天又发布了 2.7 还没有测试,据说又有一些增强。 |
30 Sezxy 3 月 19 日 单写代码,glm-5 和 kimi-k2.5 目前够用,主要还是便宜,一个月一顿饭钱 |
31 soleils 3 月 19 日 miniMax-M2.7 专门给龙虾优化了 |
32 soleils 3 月 19 日 @WithoutSugarMiao miniMax-M2.7 专门给龙虾优化了 |
33 JackeyLee233 3 月 19 日 国内智谱家的还行 |
34 jedeft 3 月 19 日 写代码方面,同时开了 cursor 和 开发 kimi code 2.5, 用起来 kimi 还是差一些。 |
35 andyxialm 3 月 19 日 今年高频使用过这些国内模型 kimi k2.5 包月 coding plan minimax 2.5 包月 coding plan minimax 2.7 包月 token plan ,用了 > 24 小时 glm 4.7/5 两个月付费 大前端场景结合 claude code 场景,质量/推理速度 minimax 2.7 > glm5 > kimi k2.5 > glm 4.7 ,token 消耗没有对比,都是 coding plan 真实体验绝无虚假,目前主力在用 minimax 2.7 ,有需要可以走我的 9 折链接: https://platform.minimaxi.com/subscribe/token-plan?code=1H2JTfmyFS&source=link |
36 zhmouV2 3 月 19 日 试用过几次 kimi 不知道有个啥 bug 我叫它帮忙补一下函数注释 它把我函数第一行给删了: ``` foo() { bar() } ``` 变成这样了 ``` // 乱七八糟的注释 bar() } ``` |
37 CNYoki 3 月 19 日 现在 Qwen 已经上不了台面了吗 |
39 zhuangzhuang1988 3 月 19 日 deepseek 最强 |
40 Karmicfire 3 月 19 日 各有拉点 |
42 unclemcz 3 月 19 日 via Android 用过 glm4.7 和 minimax2.5/2.7 ,个人感觉 glm 稍好。 |
43 fs418082760 3 月 19 日 @soleils 目前我用 API 调用不了 |
44 frayesshi1 PRO @zhuangzhuang1988 #39 DS 又慢又 rate limit ,并且工具调用失败概率很大 |
45 coefu 3 月 19 日 只用了 local qwen3.5 9B 。我觉得还可以。 |
46 jackqian 3 月 19 日 不要在垃圾国产模型上浪费时间和金钱,模型只有 opus 4.6 和 codex 5.4 |
47 chqome 3 月 20 日 还是千问厉害,其他都是垃圾 |
48 coolair 3 月 20 日 我用了 MiniMax 感觉很拉,用 2.5 的时候经常代码写不全。 最近更新了 2.7 ,策略也改了,原来算 Prompts ,现在算模型调用,一会儿就用完了,TPS 也动不动就跑满。 |
49 Librola 3 月 20 日 @listenerri 这一点 antigravity 之前也是,总是擅自改我无关代码的格式(甚至改功能),因为这一点我直接放弃了 antigravity ,不知道现在好点了没 |
50 cat9life 3 月 20 日 现在这个节点。minimax-2.7 和 GLM-5 是国产第一梯队 |
51 seenthewind 3 月 20 日 目前在用腾讯和阿里的 codingplan ,暂时没想好长期用哪个。 实话讲我用过国外的,感觉国内的模型还是差一些,其实个人是很想用开源的模型(鼓励开源发展,有朝一日大家都能在自己的机器上部署大模型才是真正的普世价值) 但是 ds 目前新的没发,qwen3.5p 我试过了只能算勉强能用吧,离一流还是有差距,特别是团队后面到底咋整。 目前初步摸索出来就是腾讯的 cp 用来做通用,阿里的 cp 用 qw ,稍微互补下,凑合过过日子。 |
我之前用 claude sonnet4.6 写了个 bug 出来:在某些场景下程序会卡住,怀疑是在某种边界条件下触发了死锁。sonnet4.6 怎么修都修不好。 昨天换 GLM5 ,让它分析代码,排查可能会死锁的点。输出的分析写得很绕,不好理解,计算死锁条件也没对应上,就没敢让它直接改代码。 又花大价钱用 claude opus4.6 进行分析,一次就分析出了可能的死锁点,并计算出死锁条件。让 opus 写了测试场景验证,果然成功复现。 再回看 GLM5 的分析,发现 GLM5 的分析方向基本是对的,但死锁条件确实算错了,没考虑到更多细节。 我觉得如果一直让 GLM5 分析,测试,验证,改进,应该最终是能修复这个 bug 的。 |
53 skuuhui 3 月 20 日 @EricSTG #21 1. infra 强。 3. 开票、账单计费方便 4. 技术支持好,大客户直接远程解决问题。 5. 模型类型丰富一套 sdk 各种,视觉,语音,文本,多模态,流式调用个遍。 6. 国产大模型好备案。 7. 大客户商务去谈,能远低于市场价甚至到 6 折优惠。 |
55 mogutouer 3 月 20 日 @skuuhui #53 第 5 点不同意,典型的样样通样样松,甚至(视频生成和语音)不如草台班子用开源项目搭的平台,曾经我也以为一个平台全搞定了,那时候还在古法编程,结果样样都出毛病,根本没办法上生产,结果每一块都单独找方案,语音找了 minimax (粤语语音生成),视频对口型我跟他们客服和技术反馈了比不上 heygen ,他们说 heygen 也一般般,世界第一的数字人能力他们说一般般,后来找了某家小作坊,文本处理那时候 qwen 还不如 deepseek 。 后来每次他们有新模型更新我就再回来试试,发现依然样样松,最近他们那个知识库还收费了,一个一个月 21 一年 252 ,我直接转到了 SenseCore ,qwen 团队被砍掉一点都不冤,投入这么大的人力物力,最后靠堆量提供一堆零散的上不了台面的服务。 |
56 zhuangzhuang1988 3 月 20 日 我群里有人发了 qt 代码 ```c++ QFile file(fileName); QTextStream in(&file); while (!in.atEnd()) { QString line = in.readLine(); auto parts = line.split("^"); QByteArray decodeData = parts.at(1).toUtf8(); // processs decodeData } ``` 试了好几个 ai 工具,让精简优化下,只有 deepseek 能识别出,程序本身的意图就可以优化,bytes -> QString -> QString[] -> bytes, 可以直接优化成 bytes -> bytes 不需要乱七八糟的中间处理。 |
57 frantic 3 月 23 日 我现在用下来是 GLM5 > kimi k2.5 > Minimax M2.5; 但问题也都很大,GLM5 能在编辑我代码的时候出现语法错误( yaml 格式的退格问题),kimi k2.5 感觉很蠢不知道我在说啥,M2.5 刚开始用感觉还行后面感觉突然降智(还害我忽悠我一同事上了年付的车) |
58 hrzlvn OP @zhuangzhuang1988 本来内心最相投的是 ds ,可惜最近的版本实在有点久了 |