国产模型你们试下来谁更强 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录

独立开发者节点

愿每一位独立开发者都能保持初心,获得一个好的结果.

国产模型你们试下来谁更强

  •  1
     
  •   hrzlvn 3 月 19 日 9081 次点击
    这是一个创建于 37 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们做的是比较的复杂 agent ,目前试下来 kimi 效果最好

    60 条回复    2026-04-03 11:01:49 +08:00
    m952755064
        1
    m952755064  
       3 月 19 日
    别的没用过,GLM-5 还不错
    VeteranCat
        2
    VeteranCat  
       3 月 19 日
    不用纠结,glm kimi 这俩都差不多。 当然能用的话,最好还是 claude 。
    FaustinaD
        3
    FaustinaD  
       3 月 19 日
    各有各的拉
    wsseo
        4
    wsseo  
       3 月 19 日   1
    GLM-5
    新出的 minimax-2.7
    小米新出的 mimo-v2-pro
    doubao-seed-2.0

    如果编程不要用 qwen3.5-plus
    defaw
        5
    defaw  
       3 月 19 日
    昨晚上开了个 minimax m2.7,比之前的 m2.5 强多了,m2.5 的时候工具调用成功率也就 50%。
    感觉 m2.7 比 glm4.7 强一些,达到 composer1.5 的水平了
    skuuhui
        6
    skuuhui  
       3 月 19 日   1
    文无第一。如果是做商业产品,建议用 qwen 系列,并且过段时间你就发现原因了。
    mingtdlb
        7
    mingtdlb  
       3 月 19 日   2
    @wsseo 小米,你是来搞笑的吧
    soleils
        8
    soleils  
       3 月 19 日   5
    @mingtdlb 小米新出的 mimo-v2-pro, 效果不错
    cryptovae
        9
    cryptovae  
       3 月 19 日
    @wsseo

    哈哈哈哈
    `编程不要用 qwen3.5-plus`
    说明你也被坑到了啊,谁家好人把中英文中间强制加空格啊,真特么够了,一个小特性直接毁掉了一个应用场景
    ddczl
        10
    ddczl  
       3 月 19 日
    我用的 MiniMax ,满足我 90%的情况。昨天更新的 2.7 我还没怎么试,但是能处理我之前使用 2.5 时一个无法处理的问题了
    liu731
        11
    liu731  
    PRO
       3 月 19 日   1
    除去 Qwen 外全部拉跨(最近的 3.5 也跨完了)
    sean250031
        12
    sean250031  
       3 月 19 日
    投 kimi-k2.5 一票
    catazshadow
        13
    catazshadow  
       3 月 19 日   1
    谁偷 claude 偷的多谁好
    tinybaby365
        14
    tinybaby365  
       3 月 19 日
    QWen3.5 中英文间强加空格不是个案,感觉没训练好就放出来了。
    hrzlvn
        15
    hrzlvn  
    OP
       3 月 19 日
    @tinybaby365 indeed
    zhonghao01
        16
    zhonghao01  
       3 月 19 日
    GLM 5 / KIMI ,MINIMAX 中规中矩,其他就不要碰了。
    nnnnnnamgn
        17
    nnnnnnamgn  
       3 月 19 日
    glm5 凑合用,但贵,minimax 干小活可以
    xyzlucky
        18
    xyzlucky  
       3 月 19 日
    别的不知道,但是今天用了一下 Qwen3.5-Plus ,no ,不行。。。。。。。看他干活我心累
    redbeetle
        19
    redbeetle  
       3 月 19 日
    miniMax-M2.5 、KiMI-2.5 使用下来,感觉 KIMI-2.5 更好用些。首先是他的多模态就方便一些,miniIMAX 的 ai 幻觉比 KIMI 更重一点。但 miniMax 有个最大的优点就是便宜量大管饱。智谱的 GLM 没有使用,暂不评论
    fengge0002
        20
    fengge0002  
       3 月 19 日
    https://v2ex.com/t/1199441
    看看洗车问题的回答对比,kimi 的逻辑推理还是稍微差点。不过做 agent 也许更重要的是指令听从和工具调用能力
    EricSTG
        21
    EricSTG  
       3 月 19 日
    @skuuhui #6 请问是啥原因
    vthu57924
        22
    vthu57924  
       3 月 19 日
    感觉目前反馈最好的是 GLM-5
    CANTI
        23
    CANTI  
       3 月 19 日
    @cryptovae 好奇问下,中英文之间加空格应该是写作排版的常规操作,编程里中英文同时存在应该是注释或者日志?这里会有啥影响呢?
    ffxrqyzby
        24
    ffxrqyzby  
       3 月 19 日
    我进来之前以为是高达模型呢
    listenerri
        25
    listenerri  
       3 月 19 日
    @CANTI #23 新改动的代码倒是无所谓,但若是 LLM 擅自修改其他无关代码,甚至其他文件呢,就为了加特么空格

    不过这个问题在 AGENTS.md 里加上限制,不要它随意修改已有代码,也就差不多好了
    dunn
        26
    dunn  
       3 月 19 日 via Android
    评测每家都很厉害,实际都有差距
    Tink
        27
    Tink  
    PRO
       3 月 19 日 via Android
    实测是 kimi2.5 ,一亿有一亿的好
    congyoubanmian
        28
    congyoubanmian  
       3 月 19 日
    投 kimi2.5 光他识图不用专门调用 mcp 就比 glm5 和 minimax 强 逻辑上弱 glm5 一点,来自三个包年套餐用户体验
    WithoutSugarMiao
        29
    WithoutSugarMiao  
       3 月 19 日
    之前给小龙虾接的 minimax2.5 我觉得挺好用的。他们昨天又发布了 2.7 还没有测试,据说又有一些增强。
    Sezxy
        30
    Sezxy  
       3 月 19 日
    单写代码,glm-5 和 kimi-k2.5 目前够用,主要还是便宜,一个月一顿饭钱
    soleils
        31
    soleils  
       3 月 19 日
    miniMax-M2.7 专门给龙虾优化了
    soleils
        32
    soleils  
       3 月 19 日
    @WithoutSugarMiao miniMax-M2.7 专门给龙虾优化了
    JackeyLee233
        33
    JackeyLee233  
       3 月 19 日
    国内智谱家的还行
    jedeft
        34
    jedeft  
       3 月 19 日
    写代码方面,同时开了 cursor 和 开发 kimi code 2.5, 用起来 kimi 还是差一些。
    andyxialm
        35
    andyxialm  
       3 月 19 日
    今年高频使用过这些国内模型
    kimi k2.5 包月 coding plan
    minimax 2.5 包月 coding plan
    minimax 2.7 包月 token plan ,用了 > 24 小时
    glm 4.7/5 两个月付费

    大前端场景结合 claude code 场景,质量/推理速度 minimax 2.7 > glm5 > kimi k2.5 > glm 4.7 ,token 消耗没有对比,都是 coding plan

    真实体验绝无虚假,目前主力在用 minimax 2.7 ,有需要可以走我的 9 折链接: https://platform.minimaxi.com/subscribe/token-plan?code=1H2JTfmyFS&source=link
    zhmouV2
        36
    zhmouV2  
       3 月 19 日
    试用过几次 kimi 不知道有个啥 bug

    我叫它帮忙补一下函数注释 它把我函数第一行给删了:
    ```
    foo() {
    bar()
    }
    ```
    变成这样了
    ```
    // 乱七八糟的注释
    bar()
    }
    ```
    CNYoki
        37
    CNYoki  
       3 月 19 日
    现在 Qwen 已经上不了台面了吗
    Hilong
        38
    Hilong  
       3 月 19 日
    @CNYoki qwen 出了开源,确实能力上比不上其他几家的
    zhuangzhuang1988
        39
    zhuangzhuang1988  
       3 月 19 日
    deepseek 最强
    Karmicfire
        40
    Karmicfire  
       3 月 19 日
    各有拉点
    wsseo
        41
    wsseo  
       3 月 19 日
    @andyxialm minimax2.7 官方 API 为什么一次输出几十个字符,有办法控制一个个输出吗
    unclemcz
        42
    unclemcz  
       3 月 19 日 via Android
    用过 glm4.7 和 minimax2.5/2.7 ,个人感觉 glm 稍好。
    fs418082760
        43
    fs418082760  
       3 月 19 日
    @soleils 目前我用 API 调用不了
    frayesshi1
        44
    frayesshi1  
    PRO
       3 月 19 日
    @zhuangzhuang1988 #39 DS 又慢又 rate limit ,并且工具调用失败概率很大
    coefu
        45
    coefu  
       3 月 19 日
    只用了 local qwen3.5 9B 。我觉得还可以。
    jackqian
        46
    jackqian  
       3 月 19 日   1
    不要在垃圾国产模型上浪费时间和金钱,模型只有 opus 4.6 和 codex 5.4
    chqome
        47
    chqome  
       3 月 20 日
    还是千问厉害,其他都是垃圾
    coolair
        48
    coolair  
       3 月 20 日
    我用了 MiniMax 感觉很拉,用 2.5 的时候经常代码写不全。
    最近更新了 2.7 ,策略也改了,原来算 Prompts ,现在算模型调用,一会儿就用完了,TPS 也动不动就跑满。
    Librola
        49
    Librola  
       3 月 20 日
    @listenerri 这一点 antigravity 之前也是,总是擅自改我无关代码的格式(甚至改功能),因为这一点我直接放弃了 antigravity ,不知道现在好点了没
    cat9life
        50
    cat9life  
       3 月 20 日
    现在这个节点。minimax-2.7 和 GLM-5 是国产第一梯队
    seenthewind
        51
    seenthewind  
       3 月 20 日
    目前在用腾讯和阿里的 codingplan ,暂时没想好长期用哪个。

    实话讲我用过国外的,感觉国内的模型还是差一些,其实个人是很想用开源的模型(鼓励开源发展,有朝一日大家都能在自己的机器上部署大模型才是真正的普世价值)
    但是 ds 目前新的没发,qwen3.5p 我试过了只能算勉强能用吧,离一流还是有差距,特别是团队后面到底咋整。

    目前初步摸索出来就是腾讯的 cp 用来做通用,阿里的 cp 用 qw ,稍微互补下,凑合过过日子。
    zzboat0422     52
    zzboat0422  
       3 月 20 日   1
    我之前用 claude sonnet4.6 写了个 bug 出来:在某些场景下程序会卡住,怀疑是在某种边界条件下触发了死锁。sonnet4.6 怎么修都修不好。

    昨天换 GLM5 ,让它分析代码,排查可能会死锁的点。输出的分析写得很绕,不好理解,计算死锁条件也没对应上,就没敢让它直接改代码。

    又花大价钱用 claude opus4.6 进行分析,一次就分析出了可能的死锁点,并计算出死锁条件。让 opus 写了测试场景验证,果然成功复现。


    再回看 GLM5 的分析,发现 GLM5 的分析方向基本是对的,但死锁条件确实算错了,没考虑到更多细节。

    我觉得如果一直让 GLM5 分析,测试,验证,改进,应该最终是能修复这个 bug 的。
    skuuhui
        53
    skuuhui  
       3 月 20 日
    @EricSTG #21
    1. infra 强。
    3. 开票、账单计费方便
    4. 技术支持好,大客户直接远程解决问题。
    5. 模型类型丰富一套 sdk 各种,视觉,语音,文本,多模态,流式调用个遍。
    6. 国产大模型好备案。
    7. 大客户商务去谈,能远低于市场价甚至到 6 折优惠。
    MoMMM
        54
    MoMMM  
       3 月 20 日
    @Librola 现在没有乱格式化代码的毛病了,不过这额度我已经不用了。
    mogutouer
        55
    mogutouer  
       3 月 20 日
    @skuuhui #53 第 5 点不同意,典型的样样通样样松,甚至(视频生成和语音)不如草台班子用开源项目搭的平台,曾经我也以为一个平台全搞定了,那时候还在古法编程,结果样样都出毛病,根本没办法上生产,结果每一块都单独找方案,语音找了 minimax (粤语语音生成),视频对口型我跟他们客服和技术反馈了比不上 heygen ,他们说 heygen 也一般般,世界第一的数字人能力他们说一般般,后来找了某家小作坊,文本处理那时候 qwen 还不如 deepseek 。
    后来每次他们有新模型更新我就再回来试试,发现依然样样松,最近他们那个知识库还收费了,一个一个月 21 一年 252 ,我直接转到了 SenseCore ,qwen 团队被砍掉一点都不冤,投入这么大的人力物力,最后靠堆量提供一堆零散的上不了台面的服务。
    zhuangzhuang1988
        56
    zhuangzhuang1988  
       3 月 20 日
    我群里有人发了 qt 代码
    ```c++
    QFile file(fileName);
    QTextStream in(&file);
    while (!in.atEnd())
    {
    QString line = in.readLine();
    auto parts = line.split("^");
    QByteArray decodeData = parts.at(1).toUtf8();
    // processs decodeData
    }
    ```
    试了好几个 ai 工具,让精简优化下,只有 deepseek 能识别出,程序本身的意图就可以优化,bytes -> QString -> QString[] -> bytes, 可以直接优化成 bytes -> bytes 不需要乱七八糟的中间处理。
    frantic
        57
    frantic  
       3 月 23 日
    我现在用下来是 GLM5 > kimi k2.5 > Minimax M2.5; 但问题也都很大,GLM5 能在编辑我代码的时候出现语法错误( yaml 格式的退格问题),kimi k2.5 感觉很蠢不知道我在说啥,M2.5 刚开始用感觉还行后面感觉突然降智(还害我忽悠我一同事上了年付的车)
    hrzlvn
        58
    hrzlvn  
    OP
       3 月 25 日
    @zhuangzhuang1988 本来内心最相投的是 ds ,可惜最近的版本实在有点久了
    8e47e42
        59
    8e47e42  
       3 月 28 日
    @andyxialm 这叫一个图穷匕见哈哈哈哈哈
    mh
        60
    mh  
       22 天前
    @CANTI qwen3.5 操作文件的时候,如果碰到“中文+数字”或“中文+字母”的文件名,也会自动加上空格,导致找不到文件。
    或者自动将一些中文间的半角符号改成全角,写出一些 bug 。可能一些跑分的测试不会覆盖中文 Agent 场景,导致出现这么离谱的问题。github 上很多类似的 issue 。
    不过新的 qwen3.6 已经没有这个问题了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1663 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 135ms UTC 16:24 PVG 00:24 LAX 09:24 JFK 12:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86