本地部署 DeepSeek-R1 671B 千亿大模型流程 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
snowkylin
V2EX    分享发现

本地部署 DeepSeek-R1 671B 千亿大模型流程

  •  
  •   snowkylin 331 天前 9767 次点击
    这是一个创建于 331 天前的主题,其中的信息可能已经有所发展或是发生改变。
    https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

    (以下介绍就是 DeepSeek R1 写的,我觉得还挺厉害的,我是写不出来……)

    测试模型:
    1.73-bit 量化版( 158GB ,每秒 7-8 个词)
    4-bit 量化版( 404GB ,每秒 2-4 个词)

    硬件需求:
    1.73-bit:内存+显存 ≥ 200GB
    4-bit:内存+显存 ≥ 500GB
    实测配置:4 块 RTX4090 显卡( 96G 显存) + 384G DDR5 内存

    性能对比:
    短文本生成:1.73-bit 速度碾压,长文本会卡到 1-2 词/秒
    瓶颈竟是 CPU 和内存,GPU 全程摸鱼(利用率 1-3% )

    模型性格差异:
    1.73-bit:毒舌傲娇,敢怼 ChatGPT:
    “哼!还在用老古董 ChatGPT ?() 我的训练费可没烧穿钱包!”
    4-bit:安全标兵,拒绝一切危险发言,全程官方脸

    部署步骤:
    下载+合并 GGUF 文件
    装 Ollama + 调参数( GPU 分层加载)
    跑模型,内存炸了?减层数!
    可选:搭配 OpenWebUI 变身高配版 ChatGPT !

    总结:
    1.73-bit 版性价比超高,适合短平快任务!长对话会变树懒…
    完整教程在博客,硬核玩家速来试试!
    第 1 条附言    330 天前
    24 条回复    2025-02-21 17:31:55 +08:00
    fcten
        1
    fcten  
       331 天前   1
    MoE 模型的主要瓶颈在于内存/显存带宽,对算力的要求比较小。你的这个配置的瓶颈全在内存带宽上,GPU 妥妥打酱油。

    用 24 通道的双路服务器主板,纯 CPU 跑 Q8 量化的模型也能达到 6 ~ 8 token/s 的速度。可以参考: https://x.com/carrigmat/status/1884244369907278106
    snowkylin
        2
    snowkylin  
    OP
       331 天前
    @fcten 是的,所以我在正文里写了,文中测试的这套配置对于跑大规模 LLM 推理并不是最有性价比的(我用这个只是因为我手上刚好有,主要是做训练用)。如果纯做 LLM 推理,目前最有性价比的新机方案我觉得可能是高配大内存的 Mac Studio 。

    https://x.com/ggerganov/status/1884358147403571466
    vpsvps
        3
    vpsvps  
       331 天前 via iPhone
    请问 1.73-bit 量化版( 158GB 大小的模型)
    一个 4090 24G 加上 160G 内存
    可以跑起来吗?
    不是需要 7 块 4090 吗?
    snowkylin
        4
    snowkylin  
    OP
       331 天前 via iPhone
    @vpsvps 可以,会比较慢(可能大约 2-3 token/s ,取决于内存带宽和 cpu 规模)
    vpsvps
        5
    vpsvps  
       331 天前 via iPhone
    @snowkylin #4 谢谢回复,用 ollama 就可以吧,显存用完就会调用内存,
    比如 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个,就是速度慢点是吧?
    snowkylin
        6
    snowkylin  
    OP
       331 天前 via iPhone
    BanShe
        7
    BanShe  
       330 天前
    马克一下。我缺显卡
    googlefans
        8
    googlefans  
       330 天前
    出个教程
    vpsvps
        9
    vpsvps  
       330 天前 via iPhone
    @snowkylin #6 ,这种方式是不是不能直接使用 ollama run deepseek-r1:671b 从 ollama 上下载,404G 的,而需要在 huginnface 上下载?

    Download the model files (.gguf) from HuggingFace (better with a downloader, I use XDM), then merge the seperated files into one
    snowkylin
        10
    snowkylin  
    OP
       330 天前 via iPhone   1
    @vpsvps 我没试过直接用 ollama 下载,不太确定,以及这个是 unsloth ai 出的动态量化版本,目前我只看到 huggingface 上有
    erek
        11
    erek  
       330 天前
    抱歉,一块 显卡都没有 T T
    uncat
        12
    uncat  
       330 天前
    > 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个吗?

    可以跑得动,跟你类似的配置,8 * 4090 + 512G 内存。Ollama 671B Q4 ,回答问题,短的 10s ,长的 20 - 30s 的样子。体验较差。

    实际显存+内存总共:180 - 200G 。

    ollama 现在会因为显存分配策略问题导致无法启动,需要 dump 出 Modefile 后手动添加 parameter num_gpu 为显卡数量 * 2
    uncat
        13
    uncat  
       330 天前
    vpsvps
        14
    vpsvps  
       330 天前
    @uncat 谢谢回复,是直接 ollama run deepseek-r1:671b 这个就行吗?这个简单些。huginnface 上的版本还得合并,比较麻烦,您说的是指用 unsloth/DeepSeek-R1-GGUF 这个模型文件吗
    uncat
        15
    uncat  
       330 天前
    > 是直接 ollama run deepseek-r1:671b 这个就行吗?

    先 ollama pull deepseek-r1:671b 拉下来后,保存 modefile 到本地,添加 num_gpu 参数后再重新导入即可。

    参考这个: https://github.com/ollama/ollama/issues/6950#issuecomment-2373663650

    @vpsvps
    uncat
        16
    uncat  
       330 天前
    1. ollama pull deepseek-r1:671b
    2. ollama show --modelfile deepseek-r1:671b | sed -e 's/^FROM.*/FROM deepseek-r1:671b/' > Modelfile
    3. echo "PARAMETER num_gpu 0" >> Modelfile
    4. ollama create deepseek-r1:671b-custom

    第 3 步,将 0 替换为 2 (假设你是 24G 显存的显卡,实际显存除以 9 取整数商)
    uncat
        17
    uncat  
       330 天前
    vpsvps
        18
    vpsvps  
       330 天前
    @uncat 谢谢 我试试
    TUCANA
        19
    TUCANA  
       330 天前
    这个介绍适合发小红书
    snowkylin
        20
    snowkylin  
    OP
       330 天前 via iPhone
    zhyim
        21
    zhyim  
       323 天前
    8 张 H100 和 2T 内存能跑完整版的 R1 吗? CPU 好像是 192 核的不知道啥型号
    snowkylin
        22
    snowkylin  
    OP
       322 天前
    @zhyim 8-bit 的吗,应该可以吧(可能得看 H100 是多少显存的版本),试试?
    zhyim
        23
    zhyim  
       321 天前
    @snowkylin 是 80G 版本的,Q8 的不一定能跑起来,刚把模型下载完。。。
    lifechan
        24
    lifechan  
       309 天前 via Android
    一下,跑做得小 20W ?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2623 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 06:46 PVG 14:46 LAX 22:46 JFK 01:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86