mac 64g 能部署哪个本地大模型 - V2EX
followadc

mac 64g 能部署哪个本地大模型

  •  
  •   followadc 2 days ago via iPhone 2988 views
    最近想在本地部属个 qwenpaw 用用。设备是 mac m4 64g 。想知道这个能部署哪个本地大模型 不太懂 纯请教
    17 replies    2026-06-05 16:54:28 +08:00
    zh826256645
        1
    zh826256645  
       2 days ago   3
    可以看看这个项目 https://github.com/Andyyyy64/whichllm

    下面来自 HelloGitHub 122 期

    whichllm:帮你找到本地能跑的最佳大模型。该项目能够自动检测本机 GPU/CU/RAM 配置,并从 HuggingFace 中筛选出适合当前硬件的大模型。它基于 LiveBench 、Chatbot Arena ELO 等综合评分排名,而非单纯按参数量排序,支持模拟指定 GPU 、查找运行目标模型所需显卡、一键启动对话和生成 Python 代码片段等功能。
    kuhung
        2
    kuhung  
       2 days ago
    whichllm 我测了下不太准,top1 并非最佳选择。它提到的模型权重,你得细看不同量化,还要考虑 kv cache 预留一些空间。
    kuhung
        3
    kuhung  
       2 days ago
    你是 mac ,直接下个 oMLX ,下模型的时候会建议你用哪个。而且基本限制了 MLX 模型格式,对于 mac 更友好。
    clemente
        4
    clemente  
       2 days ago
    我正好写过类似工具

    如果是稠密模型
    运行时显存需求 = 模型参数 x dtype(是什么量化版本) + 冗余量 留给 kv cache

    如果是 moe 的模型
    实际运行时显存需求 少于上面


    用 13b 模型为例
    格式 每参数字节 13B 权重
    FP16/BF16 2B ~26 GB
    FP8 (E4M3) 1B ~13 GB
    NVFP4 0.5B ~7 GB


    kv cache 按照 1/4 冗余计算

    26 * 5/4
    13 * 5/4
    7 * 5/4
    clemente
        5
    clemente  
       2 days ago
    一般 小设备都跑 nvfp4 或者 fp8

    mac fp8 的话 你大概跑 36 - 40+ 左右的差不多了 但可能你做其他功能就卡了
    fcten
        6
    fcten  
       2 days ago
    目前比较好的应该是 qwen3.6-35b-a3b 或 qwen3.6-27b
    ShineyWang
        7
    ShineyWang  
       2 days ago
    有一个 llmfit :
    https://github.com/AlexsJones/llmfit
    有更多的模型比较
    JiMuChan
        8
    JiMuChan  
       2 days ago
    https://www.canirun.ai/
    看看这个吧 Can I Run AI locally?
    microscopec
        9
    microscopec  
       2 days ago
    我是 m5pro20 核 64g ,写代码的话,本地跑 qwen3-coder-next 80B 没问题,速度 78token/s
    gemma4 26b 也可以,非常快,也有很多去掉限制破解的模型,没有道德限..
    z-image-turbo-q4 和 qwen3-q4.safetensors 可以做色图等等
    coefu
        10
    coefu  
       2 days ago
    是 max pro 还是 ultra ?不一样的。
    beginor
        11
    beginor  
       2 days ago via Android
    推荐的 用 llama.cpp 来跑 qwen3.6-35b ,qwen3-coder-next 或者 gemma4-26b 这些 moe 模型需要的算力不高,吐字速度快

    不建议跑 qwen3.6-27b gemma4-31b 跑密集模型,算力不够吐字太慢
    noahjsn
        12
    noahjsn  
       2 days ago
    不建议个人电脑跑参数小的大语言模型,能跑但没什么卵用。1. 太慢了; 2. 太弱智了。
    不如花点钱调用顶级模型的 API 。
    noahjsn
        13
    noahjsn  
       2 days ago
    要跑就跑顶级开源大模型
    DeepSeek-V4-Flash (158B params)
    DeepSeek-V4-Pro (862B params)
    followadc
        14
    followadc  
    OP
       1 day ago via iPhone
    @kuhung 安装了,现在不知道选哪个模型
    followadc
        15
    followadc  
    OP
       1 day ago via iPhone
    @coefu m4max
    1235467
        16
    1235467  
       1 day ago via Android
    个人来讲还是更推荐 qwen3.6 27B/gemma4 31B 一点,讲真有点慢但是 MoE 普遍不够聪明;现在 llama.cpp 有支持 mtp 了会比之前好一点
    coefu
        17
    coefu  
       3h 47m ago
    即便是 ultra ,dense 模型,在 263k 的 context 下,pp 依然会降到 100 一下,比较闹心。
    About     Help     Advertise     Blog     API     FAQ     Solana     2822 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 59ms UTC 12:41 PVG 20:41 LAX 05:41 JFK 08:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86