现在有哪个国产大模型可以拿来踏踏实实的写代码了吗？

大模型

代码

生产力

38 replies 2026-06-03 10:43:24 +08:00

1

testsb

4 days ago

1

综合排名： https://arena.ai/leaderboard/text/overall
专家排名(任务规划)： https://arena.ai/leaderboard/text/expert
编码排名： https://arena.ai/leaderboard/text/coding

qwen3.7-max-preview 、glm-5.1 、mimo-v2.5-pro 、kimi-k2.6 都还不错

2

wilddog

OP

4 days ago

@testsb 看排名没意义，我想问大家是不是真的有实际在生产工作中去用这些模型，反馈如何

3

est

4 days ago

mimo 2.5 pro 我觉得还行。

4

wilddog

OP

4 days ago

@est 能达到 cc 或者 codex 比较早期版本的使用体验吗

5

est

4 days ago

@wilddog 没有。我 vibe 入场较晚。（主要是穷惯了喜欢白嫖）

6

cs10086

4 days ago

deepseek 可以吧

7

NewYear

4 days ago

写代码可以的

就怕不定期降智，bug 数量突然爆发

8

testsb

4 days ago

@wilddog https://v2ex.com/t/1210455

Arena 排名其实还是挺有参考价值的，基本跟大多数人体感近似

9

testsb

4 days ago

OpenCode GO 基本几大 TOP 国模都能用，新用户首月半价 5 刀 ZFB 能付，可以自己实际都体验一下

10

zisen

4 days ago

glm5.1 上下文超过 150k 在 opencode 里面就会开始胡言乱语，表现为一直重复一句话，乱码，思考内容跑到回答里面，循环思考等等，100k 以内上下文还算稳定
deepseek 智商不稳定一会聪明一会能把你气个半死，而且很喜欢直接帮你改代码或者操作设备，只是问个问题就开始改代码
gpt5.4 是最通人性的基本上意图都能判断对
minimax 纯搞笑的用不得
其他的没咋用过

11

shakaraka

PRO

4 days ago

kimi2.6 目前已经很可以了，699 可以用好几天

12

wilddog

OP

4 days ago

@zisen get 这个是真经验

13

wilddog

OP

4 days ago

@shakaraka 哈？你是在嘲讽他是吧

14

wilddog

OP

4 days ago

@testsb 我一直都在用 cc codex gemini，国产大模型会把我气死吗

15

wilddog

OP

4 days ago

@cs10086 工作生产用过了吗，可以稳定输出吗

16

shakaraka

PRO

4 days ago

@wilddog #13

17

testsb

4 days ago

1

@wilddog 国模做 Plan 差点，最好用 cc/codex 做规划，然后让国模执行。GLM 总体不错不过就像 10 楼的兄弟说的那样上下文太小了做不了太复杂、占更多 context 的任务。

国内外主流模型混用和相互的替代性，可以参考 omo 对各模型特点的描述和角色的划分：
https://github.com/code-yeongyu/oh-my-openagent/blob/dev/docs/guide/agent-model-matching.md

不过 omo 不是所有国模都涉及到了，而且有些也不是最新版本，应该是因为要做严格的适配性测试所以纳入的比较慢

18

dingawm

4 days ago

经典小马过河的问题，每个人的感受可能都不太一样，反正现在应该是基本离 Opus 4.6/GPT 5.4 还差点的水平
不行充点钱试试 DeepSeek ，反正按量付费，要是感觉完全接受不了，那其他的国产模型也不用试了

19

wilddog

OP

4 days ago

@shakaraka 699 是月费还是年费

20

wilddog

OP

4 days ago

@testsb 大概能 get 到了

21

wilddog

OP

4 days ago

@dingawm 我想问的就是差多少
差 10%=能用
差 20%=将就着用
差 30%但是足够便宜=捏着鼻子用
差 50%=完全不可用

你的意思是 DeepSeek 目前是国产模型编程能力最强的吗

22

wangtufly

4 days ago via Android

梁圣在大 A 割你韭菜，在模型上补贴回来。这不赶紧蹬，捞回本

23

94

3 days ago

最近因为公司在测试各家的 Teams 套餐。同时多开工作区共同开发同一个项目，所以国内模型也试了挺多。
个人感觉 GLM 的表现最符合预期的。deepseek 用起来总感觉一直在莫名其妙的深度思考……
Mimo 听同事说也不错，准备这两天切换过去主力用起来看看。

24

94

3 days ago

@zisen #10 ，确实 minimax 是体感最差的，用来写代码有点抽象……

25

murmur

3 days ago

glm 没有深度思考的时候比较好，一深度思考就完犊子

26

Vipcw95

3 days ago

cc 接 ds 不赖的

27

dingawm

3 days ago

@wilddog #21 每个人的使用场景和任务都不一样，所以每个人体感可能都不一样，简单任务可能主流模型都能完美解决，复杂任务上才能看到差距。我试过不算复杂的偏业务的前端和后端服务，体感上是能用，更复杂的还没试过。
DeepSeek 不是国模最强，但是其他的国模比 DeepSeek 也没有强太多。意思是如果你觉得 DeepSeek 完全接受不了，那换成其他国模估计也差不多。

28

zenfsharp

3 days ago

我在 Opencode 中用下来，所有的模型里，kimi2.6 用得最踏实，基本都能按照意图去干活； DeepSeek 偶尔思路会跑偏，必须给它规划好所有实现方式，用来做实现也行； Mimo 路边一条，又慢又辣鸡，一个简单的实现，kimi 五分钟做完了，Mino 自己在那一惊一乍地“等等！ wait ！实际上，让我查查，太好了！简直完美”半小时。

29

BingoXuan

3 days ago

我常用的测试 case 中：Qwen3.6-27B 加上 Skills 可以很好完成任务，就是费上下文和执行起来有点固执，但 gemma 31B 编码一堆问题。DeepSeek V4 Pro 反而可以一次完成。

30

zhuoyan

3 days ago

GLM5.1 和 dsv4Pro 都还可以

31

jedeft

3 days ago

@shakaraka kimi 不行，有些问题，分析死循环，不停的说，不对，我再看看，我再看看。

32

snxq1995

3 days ago

最开始使用的是 glm ，模型本身不错，就是速度太慢，动不动中断，非常不适合跑长任务。作为老年费 pro 也被背刺就退款了。

上个月白嫖的 mimo ，综合体验很不错，执行力很强，理解力稍微差点。目前作为备用模型。

现在的主力是 gpt5.5 。不过不是国产就不评价了。

33

wilddog

OP

3 days ago

@94 get,我去试试

34

wilddog

OP

3 days ago

@dingawm 我准备试试 glm 先

35

wilddog

OP

3 days ago

@zenfsharp 有画面感了哈哈哈哈

36

wilddog

OP

3 days ago

@zhuoyan get

37

wilddog

OP

3 days ago

@snxq1995 我主力也是 gpt5.5 ，但是感觉他太慢了...cc 总被封号，gemini 写项目差点意思，只能 debug ，所以准备研究下国内大模型

38

ljxyqlrr

2 days ago

deepseekv4pro
正在用，感觉还是不错的