Mac Studio 实战 671B 全量大模型成绩出来了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

根据产品序列号查看状态

有用链接

Apple 产品更新周期

Other World Computing 性能升级

Apple 软件 Beta 测试

这是一个创建于 404 天前的主题，其中的信息可能已经有所发展或是发生改变。

油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

DeepSeek R1 671B 4bit 量化

硬盘占用 404G
内存占用 448G
输出速度 17-18 token/s
功耗 200W ！！！

&feature=youtu.be

Mac Studio

DeepSeek R1

671b

35 条回复 2025-03-19 22:30:12 +08:00

scys

2025 年 3 月 18 日

只要 170w 就能跑 671b 也是牛

wsping

2025 年 3 月 18 日 via iPhone

太贵了，玩不起

felixcode

PRO

2025 年 3 月 18 日 via Android

以前：谁没有个 gpu 服务器，谁还本地跑模型
现在：苹果牛 B ！

aptupdate

2025 年 3 月 18 日 via iPhone

性价比最高的一集。

rqYzyAced2NbD8fw

2025 年 3 月 18 日

你拿买这个 macstudio 的价格去充 deepseek api ，按照目前平均 60 token/s 的速度可以持续不间断跑 19 年，整。

20649usd / (0.035 + 0.550) * 1M / 60 / (3600*24*365)

lucifer9

2025 年 3 月 18 日

@LanhuaMa 这几天用 deepseek v3 跑翻译，说实话 60 tokens 每秒是肯定没有的，大部分时候比翻墙的 gpt-4o-mini 慢

tpcy

2025 年 3 月 18 日

@LanhuaMa 有些场景是不能用 api 的

laikicka

2025 年 3 月 18 日

4bit 量化.. 几乎没啥用啊

mmmeeexxa

2025 年 3 月 18 日

目前翻译好像是 4o-mini 性价比最高了？有没有本地部署过的，本地翻译模型有哪些？

cheng6563

2025 年 3 月 18 日

4bit 全量

wclebb

2025 年 3 月 18 日

我观察一些网友对 Mac 的想法有点奇怪。

我就问一下，按能买到的 Mac Studio 512G 预算下，能做到跑大模型的有哪些 PC 或专门设备？ 2080Ti 魔改显卡交火配置 8 卡电脑？还是上百万的 H100 Nvidia 专业显卡服务器？

4Bit 精度量化部署本地的情况下只能唯一可选。
为什么？因为没有 8Bit 或 16Bit 公开。
（ 8Bit 应该能跑，但也太极限了）
我估计 70B 按 8Bit 也能跑？

DeepSeek 为何成功？是因为它降低了成本。
更有可能搭载在部署本地上跑。也使其在 Mac 上搭建更为可能。

FarmerChillax

2025 年 3 月 18 日

@LanhuaMa 但这样你就只能跑 Deepseek 了，买电脑肯定不是为了单一需求

tanrenye

2025 年 3 月 18 日

@wclebb 直接购买云设备部署就行了，不然你以为商业应用都跟普通人一样用 ollama 么

neteroster

2025 年 3 月 18 日 via Android

@wclebb

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

0.3-preview, 6454S×2, 4090D, D5-4800

pp~250, tg~12 ，我没记错的话这个 pp 远超 m3u ，tg 差些

更好的硬件：
https://zhuanlan.zhihu.com/p/30079534043

wclebb

2025 年 3 月 18 日

@tanrenye 所以这是可选项，你当然可以买云服务器超强性能，然后自行买 Mac mini ，也可以的。

我说的是它能提供这个搭建的可能。
退一步讲，Mac 128G 能搭建 70B 就能足够满足使用的情况下，也没多少 70B 显卡能跑的吧？

所以我说的是：它能做，在一定预算内可选。
普通人有钱买 67K 块 Mac 512G ？也不是没可能。

mumbler

2025 年 3 月 18 日

不用追求满血，年底 32B 就能达到 671B 水平，现在已经很接近了

hiiragiharunatsu

2025 年 3 月 18 日

512g 内存上下文开不了太大和在线版质量仍然有显著差距不知道使用两到三台 macstudio 是否能支持更大上下文但是对中小企业绝对是利好

swmjjy

2025 年 3 月 18 日

@wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
你没去了解=没有

wclebb

2025 年 3 月 18 日

@swmjjy 所以我说的是提供这个搭建 672B 4Bit 设备的可能。
至于 API 还是美团上能不能点个外卖还是什么 8Bit ，我就想问问，「按能买到的 Mac Studio 512G 预算下，能做到跑大模型的有哪些 PC 或专门设备？」你扯 API 云的是为了想答赢我吗？

好，你赢了。

承认这个 Mac 能跑 672B 有多难？

dilidilid

2025 年 3 月 18 日

很好，但确实没啥用。不然英伟达最近跌掉的市值应该涨在苹果上

swmjjy

2025 年 3 月 18 日

@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上

swmjjy

2025 年 3 月 18 日

@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已

wclebb

2025 年 3 月 18 日

@swmjjy #20 行吧，我承认对刚发的 GitHub 了解不多。

我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解；
它一开始表示不可能，所以我直接采纳了需要 3360G 这个答案；

后来表示你只要 3W 预算就能跑，我回去问 ChatGPT 表示你是不是算错了，它纠结了半天算了半天直到现在才告诉我它承认算错了，确实 PC 24G 显存和 300G 多内存，是理论上可以跑。

为我刚刚没理解你发 GitHub 答案抱歉。
@swmjjy #21