Grok 3 很强 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LaTero
V2EX    Twitter

Grok 3 很强

  •  2
     
  •   LaTero 286 天前 6765 次点击
    这是一个创建于 286 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我没给马斯克充钱,所以只能在 LMArena 上免费试试。虽然输出经常会被截断,但是可以感觉它还是挺强的。随便测了几个问题,非思考模型达到 o3-mini 的水平。比如我经常用来测新模型的问题:给一台发射固定速率炮弹的炮台设计瞄准程序,能按目标的速度进行线性预判。并不算是什么难题,而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点:1. 在炮弹移动时,目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度:往负方向(左手系就是顺时针)旋转 2°即可,不需要往正方向旋转 358°。

    主流模型中,除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中,OpenAI 家的 o3-mini 完全正确,所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点,第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版,普通版还在训练中,和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚,但是效果真的不错:在 https://lmarena.ai/里点“Direct Chat”即可试用。
    27 条回复    2025-02-20 11:24:28 +08:00
    p7IySTldqB
        1
    p7IySTldqB  
       286 天前
    今年 AI 大爆发令人兴奋。
    chipipi
        2
    chipipi  
       286 天前   13
    “工作中常见到的炮弹问题”
    Satansickle
        3
    Satansickle  
       286 天前
    咋?老哥是华为驻非洲工程师?
    paopjian
        4
    paopjian  
       286 天前
    妈耶, 老哥是军工设计师么, 为什么会有弹道预测的问题
    mingtdlb
        5
    mingtdlb  
       286 天前
    怎么认为他很强?
    ![1739866530780.png]( https://cdn-fusion.imgcdn.store/i/2025/e9c270a4bd523838.png)
    mingtdlb
        6
    mingtdlb  
       286 天前
    @mingtdlb 我随便问的
    pppcx
        7
    pppcx  
       286 天前
    @mingtdlb #5
    大部分人判断 ai 强不强都是用自己比较专业的领域去问 ai 看回复是否和自己判断类似
    me1onsoda
        8
    me1onsoda  
       286 天前
    大模型好像都是发布一开始强无敌,然后开始降智了。大模型质量问题,应该要有个监管的机制。
    lthon
        9
    lthon  
       286 天前
    还在等 Claude 4
    sunny352787
        10
    sunny352787  
       286 天前
    哈哈哈哈哈哈这例子要吓死了,其实是做游戏的吧?
    LaTero
        11
    LaTero  
    OP
       286 天前
    LaTero
        12
    LaTero  
    OP
       286 天前
    @mingtdlb 判断字符本来就不是 AI 该做的事,因为原理上 AI 收到的都是 token ,一个 token 可能有好几个字。而且假如真的有了 AGI ,和人类一样的智力水平,你觉得它会浪费算力去数吗?假如是一个聪明的人类,他应该做的是使用工具。AGI 也应该是写一个程序去数,不是自己数。最近 AI 进步也都是在数学、逻辑推理等方面。
    phinex
        13
    phinex  
       286 天前 via Android
    @LaTero 哈哈 不是还以为是军工大佬
    hiveex
        14
    hiveex  
       286 天前
    Poe 用户等上线体验
    pizone
        15
    pizone  
       286 天前
    不知什么时候能用上 Grok 3 的 api ,还是有点期待。
    CodeAllen
        16
    CodeAllen  
       286 天前
    没必要问 AI 字符问题,这个跟 NLP 的 token 分词技术有关系,没什么意义。
    这就有点像一个人口头问你,计算“饕餮盛宴”这几个字有几个笔画,能当面正确写下这四个字的人都不多吧,还得数笔画,有什么意义?
    sunny352787
        17
    sunny352787  
       286 天前
    @LaTero 哎,同行的敏锐性~
    stone9527
        18
    stone9527  
       286 天前
    你问它,5.21 和 5.3 谁大
    LaTero
        19
    LaTero  
    OP
       286 天前   1
    @stone9527 没问题呀,现在主流的模型这个都不会错的吧。我平时主用 openrouter ,这个网站的 chatroom ,预设的几个问题就有 9.9 和 9.11 哪个大,还有 strawberry 里几个 r 。后者还有些模型会错,但是前者这样比大小的基本都是没问题的。
    pkoukk
        20
    pkoukk  
       286 天前
    强是很强..
    但是老用了快 10 万张 h100 ,居然只获得了 1400 分出头,仅仅比 R1 强 40 多分,3%左右
    而且这么大的训练规模,预计参数量也不小,推理消耗估计也挺大
    有点不及预期了
    br00k
        21
    br00k  
       286 天前
    试了下,感觉没有多少差距。不及预期。
    me1onsoda
        22
    me1onsoda  
       286 天前
    @pkoukk 不是说 20w ,要加到 100w 吗
    yukino
        23
    yukino  
       286 天前 via Android
    要不你跟隔壁 openai 楼的老哥打一架
    kaedea
        24
    kaedea  
       286 天前 via Android
    做一下今年考公的行测题试试
    Ehend
        25
    Ehend  
       285 天前
    编程领域感觉不如 chatgpt 和 deepseek
    gitxuzan
        26
    gitxuzan  
       284 天前
    编程方面不行,比 gpt 差
    gitxuzan
        27
    gitxuzan  
       284 天前
    deepseek 如果有这么强的算力,不是要排行老大了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     921 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 22:02 PVG 06:02 LAX 14:02 JFK 17:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86