想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ken1028

想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗?

  •  
  •   Ken1028 11 天前 3367 次点击
    32 条回复    2026-04-18 18:04:00 +08:00
    MacsedProtoss
        1
    MacsedProtoss  
       11 天前 via iPhone
    这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主
    qweruiop
        2
    qweruiop  
       11 天前
    受限于上下文,太慢了,回复质量太差了。。。
    Jh1n
        3
    Jh1n  
       11 天前
    64G 我试过,龙虾请求频次太高了顶不住的,还有龙虾过时了建议用 Hermes
    huanxianghao
        4
    huanxianghao  
       11 天前
    感觉智商不够,等 gemma5
    Ken1028
        5
    Ken1028  
    OP
       11 天前
    @MacsedProtoss 纯 LM Studio 跑速度如何?
    zyxk
        6
    zyxk  
       11 天前
    我使用 lm studio , 加载不了 gemma4 mlx 系列,提示是不支持,gguf 系列可以正常用, 想问一下 mlx 系列怎么正常使用。
    penisulaS
        7
    penisulaS  
       11 天前   3
    小模型像是弱智员工,啥工作都不派给他就是最省心的
    liu731
        8
    liu731  
    PRO
       11 天前
    参数太小了,玩玩可以。生产还是 opus 吧~
    Ken1028
        9
    Ken1028  
    OP
       11 天前
    @zyxk mlx 我在 MBP 也是加载失败,gguf 可以
    wangtufly
        10
    wangtufly  
       11 天前 via Android
    试过了,不得行。Mac mini m4pro 64G 基本上不能用的状态。
    Dream4U
        11
    Dream4U  
       11 天前
    本来 AI 最大的问题就是不确定性,你再配这么个本地模型,纯折腾。
    nc
        12
    nc  
       11 天前
    搞个 nsfw 版提供情绪价值倒是挺好
    kirbyzhu
        13
    kirbyzhu  
       11 天前 via iPhone
    小模型不行
    EchoWhale
        14
    EchoWhale  
       11 天前
    64G macmini m4 pro, gemma4 31B Q6K
    很慢, 非常慢, 10token/s. 而且智商也一般
    有个钱买套餐都够好多年了
    EchoWhale
        15
    EchoWhale  
       11 天前
    nabanbaba
        16
    nabanbaba  
       11 天前
    工作,正常用途,还是调公有云接口吧
    像楼上说的数据本地化,nsfw 折腾才考虑本地部署,基本上也就是折腾着玩,打发时间。
    m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。
    Ken1028
        17
    Ken1028  
    OP
       11 天前
    @EchoWhale Q4 能用吗
    EchoWhale
        18
    EchoWhale  
       11 天前
    @Ken1028 速度快一点, 智商再低一点. 有啥用
    MacsedProtoss
        19
    MacsedProtoss  
       11 天前 via iPhone
    @Ken1028 我在 5090 跑的话主要是上下文开不到非常高,几万吧,到不了 256K ,速度受限在 preprocessing ,吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多
    nexo
        20
    nexo  
       11 天前
    你用这个给龙虾不是找罪受 找气受嘛
    Link99
        21
    Link99  
       11 天前
    除非你是有数据安全的需求 绝对不能联网
    否则性价比还是比较低的
    salor
        22
    salor  
       11 天前
    本地小模型仅用于文生图/AI 女友搞涩涩娱乐,再怎么折腾小学生也干不了大学生的活。
    timeyoyo
        23
    timeyoyo  
       11 天前
    我用 MBP M4 MAX 36G ?尝试部署了一个 千问小模型 , 温度达到了铁板烧,然后还是乖乖充值了
    jieee
        24
    jieee  
       11 天前
    我测试的 m4 max 配置满上下文内存占用 70G+,20t/s
    AmericanExpress
        25
    AmericanExpress  
       11 天前 via iPhone
    M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行,除了第一个回复要等一会
    问题是 mem 一下就不够了,随便跑个 skill mem 占用直接跑到 70gb
    local llm 还是只能跑跑简单的问答
    ggBalloon
        26
    ggBalloon  
       11 天前
    让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ,结果都说 qwen3.5-35b-a3b 表现最稳定,直接淘汰 gemma4-26b-a4b
    TheOutgoing
        27
    TheOutgoing  
       11 天前
    实测,M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ,tg 分别为 75 和 28 ,都是非常可用的状态。跑 claude code 不建议,会有 2-3 个并发很影响带宽
    ligogid
        28
    ligogid  
       11 天前 via iPhone
    @EchoWhale 古诗题别说小模型,就是正常模型不调用搜索都是胡说
    EchoWhale
        29
    EchoWhale  
       10 天前
    @ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
    当然这种问答白嫖 grok/gemini 就行了, 更快更好
    mapleshadowxda
        30
    mapleshadowxda  
       10 天前 via Android
    淘宝上有 AI 工作站,One XPlayerOneXStation ,这玩意可以,就是价格的再花点钱
    coefu
        31
    coefu  
       8 天前
    agent 这条路,本身就是跑不通的。理论决定了。

    每次 agent 的成功率到不了 100%,N 步之后,就会降到低于 1%,完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制,比云端 api 要低几个数量级。

    云端 api 的体验,在 local 本地,基本上就无法体验到,理论决定了。
    fansttty
        32
    fansttty  
       6 天前
    工作还是花钱买接口吧,我拿来给素材库写图片注释打标签这种活,还挺好用。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1488 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 68ms UTC 17:01 PVG 01:01 LAX 10:01 JFK 13:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86