mac 64g 能部署哪个本地大模型

最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型不太懂纯请教

Mac

大模型

部署

17 replies 2026-06-05 16:54:28 +08:00

zh826256645

2 days ago

可以看看这个项目 https://github.com/Andyyyy64/whichllm

下面来自 HelloGitHub 122 期

whichllm：帮你找到本地能跑的最佳大模型。该项目能够自动检测本机 GPU/CU/RAM 配置，并从 HuggingFace 中筛选出适合当前硬件的大模型。它基于 LiveBench 、Chatbot Arena ELO 等综合评分排名，而非单纯按参数量排序，支持模拟指定 GPU 、查找运行目标模型所需显卡、一键启动对话和生成 Python 代码片段等功能。

kuhung

2 days ago

whichllm 我测了下不太准，top1 并非最佳选择。它提到的模型权重，你得细看不同量化，还要考虑 kv cache 预留一些空间。

kuhung

2 days ago

你是 mac ，直接下个 oMLX ，下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式，对于 mac 更友好。

clemente

2 days ago

我正好写过类似工具

如果是稠密模型
运行时显存需求 = 模型参数 x dtype(是什么量化版本） + 冗余量留给 kv cache

如果是 moe 的模型
实际运行时显存需求少于上面

用 13b 模型为例
格式每参数字节 13B 权重
FP16/BF16 2B ~26 GB
FP8 (E4M3) 1B ~13 GB
NVFP4 0.5B ~7 GB

kv cache 按照 1/4 冗余计算

26 * 5/4
13 * 5/4
7 * 5/4

clemente

2 days ago

一般小设备都跑 nvfp4 或者 fp8

mac fp8 的话你大概跑 36 - 40+ 左右的差不多了但可能你做其他功能就卡了

fcten

2 days ago

目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b

ShineyWang

2 days ago

有一个 llmfit :
https://github.com/AlexsJones/llmfit
有更多的模型比较

JiMuChan

2 days ago

https://www.canirun.ai/
看看这个吧 Can I Run AI locally?

microscopec

2 days ago

我是 m5pro20 核 64g ，写代码的话，本地跑 qwen3-coder-next 80B 没问题，速度 78token/s
gemma4 26b 也可以，非常快，也有很多去掉限制破解的模型，没有道德限..
z-image-turbo-q4 和 qwen3-q4.safetensors 可以做色图等等