
1 MacsedProtoss 11 天前 via iPhone 这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主 |
2 qweruiop 11 天前 受限于上下文,太慢了,回复质量太差了。。。 |
3 Jh1n 11 天前 64G 我试过,龙虾请求频次太高了顶不住的,还有龙虾过时了建议用 Hermes |
4 huanxianghao 11 天前 感觉智商不够,等 gemma5 |
5 Ken1028 OP @MacsedProtoss 纯 LM Studio 跑速度如何? |
6 zyxk 11 天前 我使用 lm studio , 加载不了 gemma4 mlx 系列,提示是不支持,gguf 系列可以正常用, 想问一下 mlx 系列怎么正常使用。 |
7 penisulaS 11 天前 小模型像是弱智员工,啥工作都不派给他就是最省心的 |
8 liu731 PRO 参数太小了,玩玩可以。生产还是 opus 吧~ |
10 wangtufly 11 天前 via Android 试过了,不得行。Mac mini m4pro 64G 基本上不能用的状态。 |
11 Dream4U 11 天前 本来 AI 最大的问题就是不确定性,你再配这么个本地模型,纯折腾。 |
12 nc 11 天前 搞个 nsfw 版提供情绪价值倒是挺好 |
13 kirbyzhu 11 天前 via iPhone 小模型不行 |
14 EchoWhale 11 天前 64G macmini m4 pro, gemma4 31B Q6K 很慢, 非常慢, 10token/s. 而且智商也一般 有个钱买套餐都够好多年了 |
15 EchoWhale 11 天前 |
16 nabanbaba 11 天前 工作,正常用途,还是调公有云接口吧 像楼上说的数据本地化,nsfw 折腾才考虑本地部署,基本上也就是折腾着玩,打发时间。 m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。 |
19 MacsedProtoss 11 天前 via iPhone @Ken1028 我在 5090 跑的话主要是上下文开不到非常高,几万吧,到不了 256K ,速度受限在 preprocessing ,吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多 |
20 nexo 11 天前 你用这个给龙虾不是找罪受 找气受嘛 |
21 Link99 11 天前 除非你是有数据安全的需求 绝对不能联网 否则性价比还是比较低的 |
22 salor 11 天前 本地小模型仅用于文生图/AI 女友搞涩涩娱乐,再怎么折腾小学生也干不了大学生的活。 |
23 timeyoyo 11 天前 我用 MBP M4 MAX 36G ?尝试部署了一个 千问小模型 , 温度达到了铁板烧,然后还是乖乖充值了 |
24 jieee 11 天前 我测试的 m4 max 配置满上下文内存占用 70G+,20t/s |
25 AmericanExpress 11 天前 via iPhone M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行,除了第一个回复要等一会 问题是 mem 一下就不够了,随便跑个 skill mem 占用直接跑到 70gb local llm 还是只能跑跑简单的问答 |
26 ggBalloon 11 天前 |
27 TheOutgoing 11 天前 实测,M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ,tg 分别为 75 和 28 ,都是非常可用的状态。跑 claude code 不建议,会有 2-3 个并发很影响带宽 |
30 mapleshadowxda 10 天前 via Android 淘宝上有 AI 工作站,One XPlayerOneXStation ,这玩意可以,就是价格的再花点钱 |
31 coefu 8 天前 agent 这条路,本身就是跑不通的。理论决定了。 每次 agent 的成功率到不了 100%,N 步之后,就会降到低于 1%,完全失败。云端无非就是用巨量资源让这个 N 长到能覆盖每个人的任务。端侧的这个 N 因为资源的限制,比云端 api 要低几个数量级。 云端 api 的体验,在 local 本地,基本上就无法体验到,理论决定了。 |
32 fansttty 6 天前 工作还是花钱买接口吧,我拿来给素材库写图片注释打标签这种活,还挺好用。 |