nvlink 能让多个显卡的显存叠加起来用吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
NeverBelieveMe
V2EX    硬件

nvlink 能让多个显卡的显存叠加起来用吗?

  •  
  •   NeverBelieveMe 133 天前 2524 次点击
    这是一个创建于 133 天前的主题,其中的信息可能已经有所发展或是发生改变。

    从如何选显卡的帖子看到了 nvlink 多 gpu 显存叠加,网上搜了一下,还是没太明白这个如何让显存叠加起来用的? 4 块 24G 显存的显卡能当 96G 显存用?

    第 1 条附言    33 天前
    感谢各位科普
    15 条回复    2025-06-03 14:38:34 +08:00
    TimCoke
        1
    TimCoke  
       133 天前
    不完全能,分布式代码很麻烦。且 nvlink 比卡贵系列
    zhanying
        2
    zhanying  
       133 天前 via Android
    1.NVLink 不能把显存叠加把多个显卡当一个显卡用
    2.要显存叠加也可以不用 NVLink
    clemente
        3
    clemente  
       133 天前
    只能走分布式
    Qazxcv123
        4
    Qazxcv123  
       133 天前
    现在的 nvidia 消费级 GPU 都不再支持 NVLINK P2P 桥接。用商业卡可能还支持
    dhb233
        5
    dhb233  
       133 天前
    pcie 太弱鸡了,然后 nv 用自己的协议和总线把多块显卡连接起来,就是这样
    NeverBelieveMe
        6
    NeverBelieveMe  
    OP
       133 天前
    @clemente 分布式的作用是什么呢?
    michaelzxp
        7
    michaelzxp  
       133 天前
    可以,就是之间的带宽没那么高,而且应用要支持。
    HeraingBus
        8
    HeraingBus  
       133 天前
    “4 块 24G 显存的显卡能当 96G 显存用”
    是的 ,你说的没问题
    martinf
        9
    martinf  
       133 天前
    @NeverBelieveMe 简单来讲,模型并行是在多张 GPU 间按层或算子切分模型,前向/反向时交换中间激活和梯度,并借助 NCCL ( NVLink/PCIe/网络)同步梯度后各自更新本地参数,以解决单卡显存不足的问题。
    rogerer
        10
    rogerer  
       133 天前
    有很多种方式来并行。最简单的,你如果有 256 个 batch 要训练/推理,那就分成若干份,比如 4 个 64 个样本,这样就能一次推理得到 256 个样本的结果。但是如果模型参数足够大,以至于一张卡装不下,那就得在其他层面进行并行。
    paopjian
        11
    paopjian  
       133 天前
    不同模型使用方法不一样吧,nvlink 用于加强卡间通信的, 比如这张卡算完的中间结果给下张卡继续计算, 这张卡处理下一个数据,或者训练完一个 batch 后互相更新本地参数. 并行计算也分多种方式, nvlink 是为了极致运算效率的, pcie 能用就先 pcie 吧
    Immunize
        12
    Immunize  
       133 天前
    是也不是,NVLINK 本身不能,只是一种告诉物理连接。需要通过 NCCL 和 NVSHMEM 这些 P2P 通信框架通过 NVLINK/PCIE/NET...将算力互联起来的,为上层训练框架屏蔽了底层细节。
    clemente
        13
    clemente  
       133 天前
    @Immunize 把公司的图拿来了.... 不太合适吧
    Immunize
        14
    Immunize  
       133 天前
    @clemente 这是华为的 zomi 在 github 上开源的 AIInfra 课程文档。https://github.com/chenzomi12/aiinfra/blob/main/02StorComm/02Communicate/02CCOverview.pdf
    iguess
        15
    iguess  
       133 天前
    nvlink 是给单机多卡的 GPU 之间通信的,总带宽远高于 PCIE 。 家用级的显卡还不配使用 nvlink 的。 我这边项目里都是 H100*8 的服务器,多个节点之间还得走 Infiniband 。 我上次鼓捣 bf16 的 deepseek v3 ,用了 32 张 H100 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3663 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 10:32 PVG 18:32 LAX 03:32 JFK 06:32
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86