国产模型你们试下来谁更强

60 条回复 2026-04-03 11:01:49 +08:00

1

m952755064

3 月 19 日

别的没用过，GLM-5 还不错

2

VeteranCat

3 月 19 日

不用纠结，glm kimi 这俩都差不多。当然能用的话，最好还是 claude 。

3

FaustinaD

3 月 19 日

各有各的拉

4

wsseo

3 月 19 日

1

GLM-5
新出的 minimax-2.7
小米新出的 mimo-v2-pro
doubao-seed-2.0

如果编程不要用 qwen3.5-plus

5

defaw

3 月 19 日

昨晚上开了个 minimax m2.7,比之前的 m2.5 强多了，m2.5 的时候工具调用成功率也就 50%。
感觉 m2.7 比 glm4.7 强一些，达到 composer1.5 的水平了

6

skuuhui

3 月 19 日

1

文无第一。如果是做商业产品，建议用 qwen 系列，并且过段时间你就发现原因了。

7

mingtdlb

3 月 19 日

2

@wsseo 小米，你是来搞笑的吧

8

soleils

3 月 19 日

5

@mingtdlb 小米新出的 mimo-v2-pro, 效果不错

9

cryptovae

3 月 19 日

@wsseo

哈哈哈哈
`编程不要用 qwen3.5-plus`
说明你也被坑到了啊，谁家好人把中英文中间强制加空格啊，真特么够了，一个小特性直接毁掉了一个应用场景

10

ddczl

3 月 19 日

我用的 MiniMax ，满足我 90%的情况。昨天更新的 2.7 我还没怎么试，但是能处理我之前使用 2.5 时一个无法处理的问题了

11

liu731

PRO

3 月 19 日

1

除去 Qwen 外全部拉跨（最近的 3.5 也跨完了）

12

sean250031

3 月 19 日

投 kimi-k2.5 一票

13

catazshadow

3 月 19 日

1

谁偷 claude 偷的多谁好

14

tinybaby365

3 月 19 日

QWen3.5 中英文间强加空格不是个案，感觉没训练好就放出来了。

15

hrzlvn

OP

3 月 19 日

@tinybaby365 indeed

16

zhonghao01

3 月 19 日

GLM 5 / KIMI ，MINIMAX 中规中矩，其他就不要碰了。

17

nnnnnnamgn

3 月 19 日

glm5 凑合用，但贵，minimax 干小活可以

18

xyzlucky

3 月 19 日

别的不知道，但是今天用了一下 Qwen3.5-Plus ，no ，不行。。。。。。。看他干活我心累

19

redbeetle

3 月 19 日

miniMax-M2.5 、KiMI-2.5 使用下来，感觉 KIMI-2.5 更好用些。首先是他的多模态就方便一些，miniIMAX 的 ai 幻觉比 KIMI 更重一点。但 miniMax 有个最大的优点就是便宜量大管饱。智谱的 GLM 没有使用，暂不评论

20

fengge0002

3 月 19 日

https://v2ex.com/t/1199441
看看洗车问题的回答对比，kimi 的逻辑推理还是稍微差点。不过做 agent 也许更重要的是指令听从和工具调用能力

21

EricSTG

3 月 19 日

@skuuhui #6 请问是啥原因

22

vthu57924

3 月 19 日

感觉目前反馈最好的是 GLM-5

23

CANTI

3 月 19 日

@cryptovae 好奇问下，中英文之间加空格应该是写作排版的常规操作，编程里中英文同时存在应该是注释或者日志？这里会有啥影响呢？

24

ffxrqyzby

3 月 19 日

我进来之前以为是高达模型呢

25

listenerri

3 月 19 日

@CANTI #23 新改动的代码倒是无所谓，但若是 LLM 擅自修改其他无关代码，甚至其他文件呢，就为了加特么空格

不过这个问题在 AGENTS.md 里加上限制，不要它随意修改已有代码，也就差不多好了

26

dunn

3 月 19 日 via Android

评测每家都很厉害，实际都有差距

27

Tink

PRO

3 月 19 日 via Android

实测是 kimi2.5 ，一亿有一亿的好

28

congyoubanmian

3 月 19 日

投 kimi2.5 光他识图不用专门调用 mcp 就比 glm5 和 minimax 强逻辑上弱 glm5 一点，来自三个包年套餐用户体验

29

WithoutSugarMiao

3 月 19 日

之前给小龙虾接的 minimax2.5 我觉得挺好用的。他们昨天又发布了 2.7 还没有测试，据说又有一些增强。

30

Sezxy

3 月 19 日

单写代码，glm-5 和 kimi-k2.5 目前够用，主要还是便宜，一个月一顿饭钱

31

soleils

3 月 19 日

miniMax-M2.7 专门给龙虾优化了

32

soleils

3 月 19 日

@WithoutSugarMiao miniMax-M2.7 专门给龙虾优化了

33

JackeyLee233

3 月 19 日

国内智谱家的还行

34

jedeft

3 月 19 日

写代码方面，同时开了 cursor 和开发 kimi code 2.5, 用起来 kimi 还是差一些。

35

andyxialm

3 月 19 日

今年高频使用过这些国内模型
kimi k2.5 包月 coding plan
minimax 2.5 包月 coding plan
minimax 2.7 包月 token plan ，用了 > 24 小时
glm 4.7/5 两个月付费

大前端场景结合 claude code 场景，质量/推理速度 minimax 2.7 > glm5 > kimi k2.5 > glm 4.7 ，token 消耗没有对比，都是 coding plan

真实体验绝无虚假，目前主力在用 minimax 2.7 ，有需要可以走我的 9 折链接： https://platform.minimaxi.com/subscribe/token-plan?code=1H2JTfmyFS&source=link

36

zhmouV2

3 月 19 日

试用过几次 kimi 不知道有个啥 bug

我叫它帮忙补一下函数注释它把我函数第一行给删了：
```
foo() {
bar()
}
```
变成这样了
```
// 乱七八糟的注释
bar()
}
```

37

CNYoki

3 月 19 日

现在 Qwen 已经上不了台面了吗

38

Hilong

3 月 19 日

@CNYoki qwen 出了开源，确实能力上比不上其他几家的

39

zhuangzhuang1988

3 月 19 日

deepseek 最强

40

Karmicfire

3 月 19 日

各有拉点

41

wsseo

3 月 19 日

@andyxialm minimax2.7 官方 API 为什么一次输出几十个字符，有办法控制一个个输出吗

42

unclemcz

3 月 19 日 via Android

用过 glm4.7 和 minimax2.5/2.7 ，个人感觉 glm 稍好。

43

fs418082760

3 月 19 日

@soleils 目前我用 API 调用不了

44

frayesshi1

PRO

3 月 19 日

@zhuangzhuang1988 #39 DS 又慢又 rate limit ，并且工具调用失败概率很大

45

coefu

3 月 19 日

只用了 local qwen3.5 9B 。我觉得还可以。

46

jackqian

3 月 19 日

1

不要在垃圾国产模型上浪费时间和金钱，模型只有 opus 4.6 和 codex 5.4

47

chqome

3 月 20 日

还是千问厉害，其他都是垃圾

48

coolair

3 月 20 日

我用了 MiniMax 感觉很拉，用 2.5 的时候经常代码写不全。
最近更新了 2.7 ，策略也改了，原来算 Prompts ，现在算模型调用，一会儿就用完了，TPS 也动不动就跑满。

49

Librola

3 月 20 日

@listenerri 这一点 antigravity 之前也是，总是擅自改我无关代码的格式（甚至改功能），因为这一点我直接放弃了 antigravity ，不知道现在好点了没

50

cat9life

3 月 20 日

现在这个节点。minimax-2.7 和 GLM-5 是国产第一梯队

51

seenthewind

3 月 20 日

目前在用腾讯和阿里的 codingplan ，暂时没想好长期用哪个。

实话讲我用过国外的，感觉国内的模型还是差一些，其实个人是很想用开源的模型（鼓励开源发展，有朝一日大家都能在自己的机器上部署大模型才是真正的普世价值）
但是 ds 目前新的没发，qwen3.5p 我试过了只能算勉强能用吧，离一流还是有差距，特别是团队后面到底咋整。

目前初步摸索出来就是腾讯的 cp 用来做通用，阿里的 cp 用 qw ，稍微互补下，凑合过过日子。

52

zzboat0422

3 月 20 日

1

我之前用 claude sonnet4.6 写了个 bug 出来：在某些场景下程序会卡住，怀疑是在某种边界条件下触发了死锁。sonnet4.6 怎么修都修不好。

昨天换 GLM5 ，让它分析代码，排查可能会死锁的点。输出的分析写得很绕，不好理解，计算死锁条件也没对应上，就没敢让它直接改代码。

又花大价钱用 claude opus4.6 进行分析，一次就分析出了可能的死锁点，并计算出死锁条件。让 opus 写了测试场景验证，果然成功复现。

再回看 GLM5 的分析，发现 GLM5 的分析方向基本是对的，但死锁条件确实算错了，没考虑到更多细节。

我觉得如果一直让 GLM5 分析，测试，验证，改进，应该最终是能修复这个 bug 的。

53

skuuhui

3 月 20 日

@EricSTG #21
1. infra 强。
3. 开票、账单计费方便
4. 技术支持好，大客户直接远程解决问题。
5. 模型类型丰富一套 sdk 各种，视觉，语音，文本，多模态，流式调用个遍。
6. 国产大模型好备案。
7. 大客户商务去谈，能远低于市场价甚至到 6 折优惠。

54

MoMMM

3 月 20 日

@Librola 现在没有乱格式化代码的毛病了，不过这额度我已经不用了。

55

mogutouer

3 月 20 日

@skuuhui #53 第 5 点不同意，典型的样样通样样松，甚至（视频生成和语音）不如草台班子用开源项目搭的平台，曾经我也以为一个平台全搞定了，那时候还在古法编程，结果样样都出毛病，根本没办法上生产，结果每一块都单独找方案，语音找了 minimax （粤语语音生成），视频对口型我跟他们客服和技术反馈了比不上 heygen ，他们说 heygen 也一般般，世界第一的数字人能力他们说一般般，后来找了某家小作坊，文本处理那时候 qwen 还不如 deepseek 。
后来每次他们有新模型更新我就再回来试试，发现依然样样松，最近他们那个知识库还收费了，一个一个月 21 一年 252 ，我直接转到了 SenseCore ，qwen 团队被砍掉一点都不冤，投入这么大的人力物力，最后靠堆量提供一堆零散的上不了台面的服务。

56

zhuangzhuang1988

3 月 20 日

我群里有人发了 qt 代码
```c++
QFile file(fileName);
QTextStream in(&file);
while (!in.atEnd())
{
QString line = in.readLine();
auto parts = line.split("^");
QByteArray decodeData = parts.at(1).toUtf8();
// processs decodeData
}
```
试了好几个 ai 工具，让精简优化下，只有 deepseek 能识别出，程序本身的意图就可以优化，bytes -> QString -> QString[] -> bytes, 可以直接优化成 bytes -> bytes 不需要乱七八糟的中间处理。

57

frantic

3 月 23 日

我现在用下来是 GLM5 > kimi k2.5 > Minimax M2.5; 但问题也都很大，GLM5 能在编辑我代码的时候出现语法错误（ yaml 格式的退格问题）,kimi k2.5 感觉很蠢不知道我在说啥，M2.5 刚开始用感觉还行后面感觉突然降智（还害我忽悠我一同事上了年付的车）

58

hrzlvn

OP

3 月 25 日

@zhuangzhuang1988 本来内心最相投的是 ds ，可惜最近的版本实在有点久了

59

8e47e42

3 月 28 日

@andyxialm 这叫一个图穷匕见哈哈哈哈哈

60

mh

22 天前

@CANTI qwen3.5 操作文件的时候，如果碰到“中文+数字”或“中文+字母”的文件名，也会自动加上空格，导致找不到文件。
或者自动将一些中文间的半角符号改成全角，写出一些 bug 。可能一些跑分的测试不会覆盖中文 Agent 场景，导致出现这么离谱的问题。github 上很多类似的 issue 。
不过新的 qwen3.6 已经没有这个问题了。

独立开发者节点

国产模型你们试下来谁更强