想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题，有人测试过速度吗？

32 条回复 2026-04-18 18:04:00 +08:00

1

MacsedProtoss

11 天前 via iPhone

这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主

2

qweruiop

11 天前

受限于上下文，太慢了，回复质量太差了。。。

3

Jh1n

11 天前

64G 我试过，龙虾请求频次太高了顶不住的，还有龙虾过时了建议用 Hermes

4

huanxianghao

11 天前

感觉智商不够，等 gemma5

5

Ken1028

OP

11 天前

@MacsedProtoss 纯 LM Studio 跑速度如何？

6

zyxk

11 天前

我使用 lm studio ，加载不了 gemma4 mlx 系列，提示是不支持，gguf 系列可以正常用，想问一下 mlx 系列怎么正常使用。

7

penisulaS

11 天前

3

小模型像是弱智员工,啥工作都不派给他就是最省心的

8

liu731

PRO

11 天前

参数太小了，玩玩可以。生产还是 opus 吧～

9

Ken1028

OP

11 天前

@zyxk mlx 我在 MBP 也是加载失败，gguf 可以

10

wangtufly

11 天前 via Android

试过了，不得行。Mac mini m4pro 64G 基本上不能用的状态。

11

Dream4U

11 天前

本来 AI 最大的问题就是不确定性，你再配这么个本地模型，纯折腾。

12

nc

11 天前

搞个 nsfw 版提供情绪价值倒是挺好

13

kirbyzhu

11 天前 via iPhone

小模型不行

14

EchoWhale

11 天前

64G macmini m4 pro, gemma4 31B Q6K
很慢, 非常慢, 10token/s. 而且智商也一般
有个钱买套餐都够好多年了

15

EchoWhale

11 天前

16

nabanbaba

11 天前

工作，正常用途，还是调公有云接口吧
像楼上说的数据本地化，nsfw 折腾才考虑本地部署，基本上也就是折腾着玩，打发时间。
m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。

17

Ken1028

OP

11 天前

@EchoWhale Q4 能用吗

18

EchoWhale

11 天前

@Ken1028 速度快一点, 智商再低一点. 有啥用

19

MacsedProtoss

11 天前 via iPhone

@Ken1028 我在 5090 跑的话主要是上下文开不到非常高，几万吧，到不了 256K ，速度受限在 preprocessing ，吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多

20

nexo

11 天前

你用这个给龙虾不是找罪受找气受嘛

21

Link99

11 天前

除非你是有数据安全的需求绝对不能联网
否则性价比还是比较低的

22

salor

11 天前

本地小模型仅用于文生图/AI 女友搞涩涩娱乐，再怎么折腾小学生也干不了大学生的活。

23

timeyoyo

11 天前

我用 MBP M4 MAX 36G ？尝试部署了一个千问小模型，温度达到了铁板烧，然后还是乖乖充值了

24

jieee

11 天前

我测试的 m4 max 配置满上下文内存占用 70G+，20t/s

25

AmericanExpress

11 天前 via iPhone

M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行，除了第一个回复要等一会
问题是 mem 一下就不够了，随便跑个 skill mem 占用直接跑到 70gb
local llm 还是只能跑跑简单的问答

26

ggBalloon

11 天前

让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ，结果都说 qwen3.5-35b-a3b 表现最稳定，直接淘汰 gemma4-26b-a4b

27

TheOutgoing

11 天前

实测，M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ，tg 分别为 75 和 28 ，都是非常可用的状态。跑 claude code 不建议，会有 2-3 个并发很影响带宽

28

ligogid

11 天前 via iPhone

@EchoWhale 古诗题别说小模型，就是正常模型不调用搜索都是胡说

29

EchoWhale

10 天前

@ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
当然这种问答白嫖 grok/gemini 就行了, 更快更好

30

mapleshadowxda

10 天前 via Android

淘宝上有 AI 工作站，One XPlayerOneXStation ，这玩意可以，就是价格的再花点钱

31

coefu

8 天前

agent 这条路，本身就是跑不通的。理论决定了。

每次 agent 的成功率到不了 100%，N 步之后，就会降到低于 1%，完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制，比云端 api 要低几个数量级。

云端 api 的体验，在 local 本地，基本上就无法体验到，理论决定了。

32

fansttty

6 天前

工作还是花钱买接口吧，我拿来给素材库写图片注释打标签这种活，还挺好用。