kimi K2 Thinking 都这样的玩的话,如何作为参考依据呢?纯刷榜? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Seck
V2EX    程序员

kimi K2 Thinking 都这样的玩的话,如何作为参考依据呢?纯刷榜?

  •  
  •   Seck 1 天前 3054 次点击
    体验和榜单的不一致,没有个说法吗?
    纯纯刷榜?


    19 条回复    2025-11-11 02:34:22 +08:00
    daybreakfangyang
        1
    daybreakfangyang  
       1 天前
    邪修
    jasonjie2015
        2
    jasonjie2015  
       1 天前   3
    每次国产大模型上新版本都是说超越了 Claude ,但是实战基本上是很明显感受的到差距的。
    clarkethan
        3
    clarkethan  
       1 天前   2
    放心,大家都这么完,不止国内厂商,只是有些告诉你了,有些你不知道而已,还是以实际使用体验为准吧
    xuhengjs
        4
    xuhengjs  
       1 天前
    所以,是不是 Kimi k2 跑出来的,大力飞砖也是水平啊
    ptstone
        5
    ptstone  
       1 天前
    可能前端 css,js,java python c++ 这种最通用的语言和框架确实,国产的还可以,前端 web 确实感觉很优秀,但凡小众的东西,开源框架什么的,国产的真的不懂,知识面太窄,训练的东西就是那些科目,其他东西都是瞎回答
    xiqingongzi
        6
    xiqingongzi  
       1 天前   1
    是的。作为某小龙的模型产品,补充一些我的看法(仅个人看法)
    评测和体感不一致

    1. 作为终端用户,我的建议是,不要太相信榜单,只作为参考,甚至也只能作为参考。原因是榜单本身是一个开卷考试,理论上如果你想考高分,你可以塞尽可能多的数据拟合题目,以获得足够高的分数。(为什么不是每个模型都刷满分?因为还需要加入其他类型的数据,以确保模型的在其他榜单效果上足够好)。所以,榜单看看就行。关键还是自己的使用体感或者自己的评测指标。

    2. 关于打榜推理:打榜推理的好处是用量可控加时间短,所以可以上八路推理;得到比较好的效果。但如果是日常使用,一个是损耗比较大,因为日常的问题往往不需要那么多并行推理选其一(大部分问题没那么复杂,这也是为啥 claude code 把 ultrathink 作为一个单独的 magic word 来使用);另外一块是要考虑到成本,国内的竞争非常的卷,以至于各家可能都是贴着成本在做,甚至亏本在卖 API ,这样导致其实很难会选择给你最强的模型推理方案。
    serco
        7
    serco  
       1 天前
    是不是 heavy 跑出来不是 huggingface 上直接可以看到的吗? https://huggingface.co/moonshotai/Kimi-K2-Thinking
    yuhaofe
        8
    yuhaofe  
       1 天前   2
    就不能自己去看一眼吗,heavy 对标的也是其他模型的类似模式


    Heavy Mode: K2 Thinking Heavy Mode employs an efficient parallel strategy: it first rolls out eight trajectories simultaneously, then reflectively aggregates all outputs to generate the final result. Heavy mode for GPT-5 denotes the official GPT-5 Pro score.
    yuhaofe
        9
    yuhaofe  
       1 天前   2
    https://moonshotai.github.io/Kimi-K2/thinking.html
    而且官方的技术博客着重晒的几个图表根本就没有用 heavy mode 的成绩

    Leoking222
        10
    Leoking222  
       1 天前
    国内:跑分没输过,实战没赢过
    Leoking222
        11
    Leoking222  
       1 天前
    @jasonjie2015 国产所有的模型都在对比 Claude ,但其实他们都只达到了 Claude sonnet 3.7 的水平
    maolon
        12
    maolon  
       1 天前
    首先所有榜单都只能是参考,每个人的用法天差地别,其次这些榜单每一个都是有侧重点的
    另外还有一个很简单的判断方法,什么时候 claude 和 openai 开始对标国产模型了,那他们就真超越了。
    谁对标谁就用被对标的那个, simple as that
    fbu11
        13
    fbu11 &nbs;
       1 天前
    跟国内还是国外没关系,GPT5 也一样,每个大模型的跑分榜单模式都是这样的,他们上榜说是吊打 XXX 模型,都是有特定条件的
    lance07
        14
    lance07  
       1 天前   1
    都这样,gpt 之前还测评作弊。差距有但不是在这里
    snw
        15
    snw  
       1 天前 via Android
    试过用免费版的 K2 Thinking 模式找些数据,结果思维陷入死循环了:
    > 一会儿说我在网上找到了一个数据 a ,但很难找到其他数据,也许我应该去官方信源找数据。
    > 过了十来分钟,又说我在网上找到了一个数据 a (和上面一样),但很难找到其他数据,也许我应该去官方报告找数据
    > ......
    如此循环了将近十次,然后直接清空了前面所有思考过程,输出空白。旁边提示可以试试付费版投入更多算力
    snw
        16
    snw  
       1 天前 via Android
    @snw
    又看了下,是提示“深度研究额度已用尽”。
    反正看试用版这表现我是不敢付费的,看起来额度被死循环耗尽了。
    zhangeric
        17
    zhangeric  
       1 天前
    楼主就是把外国人想的太好了啊.
    zhzy
        18
    zhzy  
       1 天前
    Gemini/GPT 有的时候还是能很明显感觉到降智的(即使是付费), 感觉这种虽然很难受但是也没什么办法
    jamesjammy061
        19
    jamesjammy061  
       1 天前
    GPT 降智太严重了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5737 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 01:54 PVG 09:54 LAX 17:54 JFK 20:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86