Mac Studio 实战 671B 全量大模型成绩出来了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
moudy
V2EX    Apple

Mac Studio 实战 671B 全量大模型成绩出来了

  •  
  •   moudy 2025 年 3 月 18 日 5821 次点击
    这是一个创建于 404 天前的主题,其中的信息可能已经有所发展或是发生改变。
    油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

    DeepSeek R1 671B 4bit 量化

    硬盘占用 404G
    内存占用 448G
    输出速度 17-18 token/s
    功耗 200W !!!

    &feature=youtu.be
    35 条回复    2025-03-19 22:30:12 +08:00
    scys
        1
    scys  
       2025 年 3 月 18 日
    只要 170w 就能跑 671b 也是牛
    wsping
        2
    wsping  
       2025 年 3 月 18 日 via iPhone
    太贵了,玩不起
    felixcode
        3
    felixcode  
    PRO
       2025 年 3 月 18 日 via Android
    以前:谁没有个 gpu 服务器,谁还本地跑模型
    现在:苹果牛 B !
    aptupdate
        4
    aptupdate  
       2025 年 3 月 18 日 via iPhone
    性价比最高的一集。
    rqYzyAced2NbD8fw
        5
    rqYzyAced2NbD8fw  
       2025 年 3 月 18 日   12
    你拿买这个 macstudio 的价格去充 deepseek api ,按照目前平均 60 token/s 的速度可以持续不间断跑 19 年,整。

    20649usd / (0.035 + 0.550) * 1M / 60 / (3600*24*365)
    lucifer9
        6
    lucifer9  
       2025 年 3 月 18 日
    @LanhuaMa 这几天用 deepseek v3 跑翻译,说实话 60 tokens 每秒是肯定没有的,大部分时候比翻墙的 gpt-4o-mini 慢
    tpcy
        7
    tpcy  
       2025 年 3 月 18 日
    @LanhuaMa 有些场景是不能用 api 的
    laikicka
        8
    laikicka  
       2025 年 3 月 18 日
    4bit 量化.. 几乎没啥用啊
    mmmeeexxa
        9
    mmmeeexxa  
       2025 年 3 月 18 日
    目前翻译好像是 4o-mini 性价比最高了? 有没有本地部署过的,本地翻译模型有哪些?
    cheng6563
        10
    cheng6563  
       2025 年 3 月 18 日
    4bit 全量
    wclebb
        11
    wclebb  
       2025 年 3 月 18 日
    我观察一些网友对 Mac 的想法有点奇怪。

    我就问一下,按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 2080Ti 魔改显卡交火配置 8 卡电脑?还是上百万的 H100 Nvidia 专业显卡服务器?

    4Bit 精度量化部署本地的情况下只能唯一可选。
    为什么?因为没有 8Bit 或 16Bit 公开。
    ( 8Bit 应该能跑,但也太极限了)
    我估计 70B 按 8Bit 也能跑?

    DeepSeek 为何成功?是因为它降低了成本。
    更有可能搭载在部署本地上跑。也使其在 Mac 上搭建更为可能。
        12
    FarmerChillax  
       2025 年 3 月 18 日
    @LanhuaMa 但这样你就只能跑 Deepseek 了,买电脑肯定不是为了单一需求
    tanrenye
        13
    tanrenye  
       2025 年 3 月 18 日
    @wclebb 直接购买云设备部署就行了,不然你以为商业应用都跟普通人一样用 ollama 么
    neteroster
        14
    neteroster  
       2025 年 3 月 18 日 via Android
    @wclebb

    https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

    0.3-preview, 6454S×2, 4090D, D5-4800

    pp~250, tg~12 ,我没记错的话这个 pp 远超 m3u ,tg 差些

    更好的硬件:
    https://zhuanlan.zhihu.com/p/30079534043
    wclebb
        15
    wclebb  
       2025 年 3 月 18 日
    @tanrenye 所以这是可选项,你当然可以买云服务器超强性能,然后自行买 Mac mini ,也可以的。

    我说的是它能提供这个搭建的可能。
    退一步讲,Mac 128G 能搭建 70B 就能足够满足使用的情况下,也没多少 70B 显卡能跑的吧?

    所以我说的是:它能做,在一定预算内可选。
    普通人有钱买 67K 块 Mac 512G ?也不是没可能。
    mumbler
        16
    mumbler  
       2025 年 3 月 18 日
    不用追求满血,年底 32B 就能达到 671B 水平,现在已经很接近了
    hiiragiharunatsu
        17
    hiiragiharunatsu  
       2025 年 3 月 18 日
    512g 内存上下文开不了太大 和在线版质量仍然有显著差距 不知道使用两到三台 macstudio 是否能支持更大上下文 但是对中小企业绝对是利好
    swmjjy
        18
    swmjjy  
       2025 年 3 月 18 日
    @wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
    你没去了解=没有
    wclebb
        19
    wclebb  
       2025 年 3 月 18 日
    @swmjjy 所以我说的是提供这个搭建 672B 4Bit 设备的可能。
    至于 API 还是美团上能不能点个外卖还是什么 8Bit ,我就想问问,「按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 」你扯 API 云的是为了想答赢我吗?

    好,你赢了。



    承认这个 Mac 能跑 672B 有多难?
    dilidilid
        20
    dilidilid  
       2025 年 3 月 18 日
    很好,但确实没啥用。不然英伟达最近跌掉的市值应该涨在苹果上
    swmjjy
        21
    swmjjy  
       2025 年 3 月 18 日   1
    @wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
    swmjjy
        22
    swmjjy  
       2025 年 3 月 18 日
    @wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
    wclebb
        23
    wclebb  
       2025 年 3 月 18 日
    @swmjjy #20 行吧,我承认对刚发的 GitHub 了解不多。

    我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解;
    它一开始表示不可能,所以我直接采纳了需要 3360G 这个答案;

    后来表示你只要 3W 预算就能跑,我回去问 ChatGPT 表示你是不是算错了,它纠结了半天算了半天直到现在才告诉我它承认算错了,确实 PC 24G 显存和 300G 多内存,是理论上可以跑。

    为我刚刚没理解你发 GitHub 答案抱歉。
    @swmjjy #21
    feikaras
        24
    feikaras  
       2025 年 3 月 18 日
    问题是 4bit 量化啊。这又不值得说道。你都付了十万块了,还不能跑那才是笑话。
    zeyangstudies
        25
    zeyangstudies  
       2025 年 3 月 18 日   1
    @LanhuaMa 但是人家是私有化部署的,这个是关键呀~
    june4
        26
    june4  
       2025 年 3 月 18 日
    @wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
    https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw
    moudy
        27
    moudy  
    OP
       2025 年 3 月 18 日   1
    @LanhuaMa #5 商业上很多客户资料都是有 NDA 限制的,根本不是钱的问题
    mXw
        28
    mXw  
       2025 年 3 月 18 日
    这个价格 我不如直接去买 api
    WuSiYu
        29
    WuSiYu  
       2025 年 3 月 18 日
    个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了,而人家云端至少几百张卡一组跑混合专家并行,平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型( 21B )差不多
    MacsedProtoss
        30
    MacsedProtoss  
       2025 年 3 月 19 日 via iPhone
    @june4 然而这个方案的 token 速度很差啊…
    showonder
        31
    showonder  
       2025 年 3 月 19 日
    等年底或明年 500b 的开源大模型是不是性能能逼近 GPT4.5 了?
    ssbg2
        32
    ssbg2  
       2025 年 3 月 19 日
    @MacsedProtoss 有成本限制啊,之前是没什么好办法,现在这个(包括 MAC STUDIO 方案)是可用。
    niubilewodev
        33
    niubilewodev  
       2025 年 3 月 19 日
    17-18 token/s 在带思考链的模型上,算勉强能用。
    就是不知道上下文多了之后,prefill 时间怎么样。
    beginor
        34
    beginor  
       2025 年 3 月 19 日 via Android
    Mac 跑文本和多模态大模型推理还行,但是如果要跑 comfy ui+多媒体生成的话,还是得 N 卡。
    gigishy
        35
    gigishy  
       2025 年 3 月 19 日 via iPhone
    @wsping 从能跑 671b 模型的机器来看,这个便宜太多太多太多太多太多太多……更别说使用成本的便宜。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3789 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 98ms UTC 00:11 PVG 08:11 LAX 17:11 JFK 20:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86