背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。
有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 bp 比较卡顿(目测 3token/秒)。
问题:
准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。
![]() | 1 unidotnet 2024-08-11 20:02:57 +08:00 24G 算了,64G 路过表示 14b ,int4 的话,占 40G 内存左右,自己算算吧。 |
![]() | 2 zmxnv123 2024-08-11 20:10:23 +08:00 刚入了台 24g 的 mini ,还没测 |
![]() | 3 neteroster 2024-08-11 20:14:10 +08:00 @unidotnet #1 14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大 |
6 ChipWat OP @unidotnet #1 我帖子里使用 Qwen1.5 parameters:14.2B quantization:Q4_0 文件大小:8.2GB 测的。老哥是不是还有其它应用,macos 系统策略是尽可能多的使用内存吧。 |
![]() | 7 slowgen 2024-08-11 22:06:23 +08:00 ![]() 大模型跑推理速度首先取决于带宽,带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾,只有 ultra 才值得跑大模型。 速度一览: https://github.com/ggerganov/llama.cpp/discussions/4167 简单粗暴的推理速度公式计算就是:同样的量化,14B 速度不到 7B 的 1/2 ,70B 的速度不到 7B 的 1/10 |
![]() | 8 heyjei 2024-08-11 22:17:50 +08:00 在 mac 上面,你们是怎么跑大模型的?用 ollama 吗? |
9 KcKXpykSg2777f5I 2024-08-11 22:24:04 +08:00 via Android AMD 7840hs ,32G 内存,分配 8G 显存,跑 14B 能用的状态,所以 24G 跑 14B 应该问题不大,7B 很轻松了 |
![]() | 11 alexmy 2024-08-11 23:20:11 +08:00 2018 16G mbp 还在服役中,也想换个,瞧瞧 m4 出来后什么情况。 |
![]() | 12 graetdk 2024-08-11 23:22:05 +08:00 18G 的 M3 ,ollama 跑所有的 10B 以下的模型都很爽,而且感觉够用 |
13 mumbler 2024-08-11 23:32:15 +08:00 gemma2 9B 能打 qwen1.5 110B ,M 芯片下能跑到 20+token 的速度,且中文支持很好 可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包,支持 mac ,自带 ollama+图形界面+知识库 |
14 234ygg 2024-08-12 00:04:59 +08:00 via iPhone gemma2 9b 勉强能跑的水平吧?但效果很差,满嘴胡言乱语 也就仅适合做做翻译。。 效果应该比我 4090 好点,4090 跑这玩意功耗 250W 简直爆炸,最烦的是电感在那丝丝叫。 做翻译那还不如直接用 gpt4o ,四舍五入不要钱 |
15 yinmin 2024-08-12 02:03:57 +08:00 via iPhone 个人在本地部署跑 9b 、14b 实用价值不大,也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计(个人使用),功能远超开源小模型。 目前企业(尤其是涉密单位)在内网部署小模型,做些文字审查、文字格式提炼的专项业务比较实用。 |
![]() | 16 bugcreator 2024-08-12 07:46:47 +08:00 via iPhone 32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明 |
17 ZiM77FAp328moIuB 2024-08-12 08:01:57 +08:00 via iPhone 最近在纠结 买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块) |
![]() | 18 murmur 2024-08-12 08:22:23 +08:00 如果没有研究或者折腾的打算,买付费商业大模型更划算 |
![]() | 19 kzzhr 2024-08-12 08:38:40 +08:00 via Android m 几呀? 3t/s 感觉像是没走 GPU ,可以看下监控 |
![]() | 20 lairdnote 2024-08-12 09:25:12 +08:00 macbook. 32G. 跑 gemma2b 还可以 |
22 xing7673 2024-08-12 10:16:33 +08:00 @unidotnet llm 推理内存很好算,q4 约等于当前参数/2=内存,比如 14b 应该是 7g 内存左右。 以此类推 q8 14b=14g f16 14b=28g 还需要加一些推理机制内存,不过大抵可以这么推算。 建议先自己运行检查一遍 |
23 wingerwwang 2024-08-12 10:49:18 +08:00 via iPhone ![]() m1max 32g 跑 llama3.1 7B 效果不错,6g 内存上下。效果比我试过的其他几个 13B 都要好。 |
![]() | 24 beyondsoft 2024-08-12 10:53:12 +08:00 建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s |
![]() | 25 8355 2024-08-12 13:59:12 +08:00 只能跑小模型吧。。大模型好像要内存拉满了 |
![]() | 26 unidotnet 2024-08-14 20:45:02 +08:00 @xing7673 @neteroster @ChipWat @Attenton 计算模型要多少内存没问题,我是个人使用经验。但 mac 共享内存,总不见得啥别的系统开销都不要吧,纯命令行裸写一堆 json 去交互。。。 跑模型把别的应用都关了就没啥实用价值。再多做点,开始 embed , 比如跑点 neo4j 什么的是吧,界面要有个吧,跑个 docker ,web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理,GPU full ,内存虽然 64G 没用满,但是基本在 40 几 G , 除非 pumas 命令显示不正确。 |