多台 GPU 之间怎么组网互联？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

比如要部署 deepseek 满血版，总不能用一台跑对吧，那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

好奇问一下，想学习学习

第 1 条附言 14 小时 25 分钟前

为什么想了解这个，GPU太贵了，单节点可能都要几十上百万，集群才考虑组网，实践的机会更少了。

现在招人都要求有经验的，不像以前能从初级开始干，有机会从实践中学习。

GPU

互联

部署

17 条回复 2026-04-21 23:20:00 +08:00

makictos

PRO

15 小时 53 分钟前

每台机器插八个 cx7 400g 网卡，然后三台机器走 48 口交换机做互联

minami

15 小时 19 分钟前 via Android

关键字：NvLink 、NvSwitch 、InfiniBand

ptstone

15 小时 0 分钟前

网卡互联根本行不通，pcie5 的速度都不够，至少 1Tb/s 这种才能考虑

liaohongxing

14 小时 56 分钟前

有个 gpustack 的项目，据说可以组集群。

https://github.com/gpustack/gpustack

stoneabc

14 小时 51 分钟前

@ptstone ...现在主流集群参数面组网都是走网卡，有啥行不通的

catazshadow

14 小时 48 分钟前 via Android

@stoneabc 延迟要炸的

geekvcn

14 小时 35 分钟前

目前都是 IB 网卡或者雷电网桥，总之带宽越高越好，以太网也行但是效率堪忧

thevita

14 小时 34 分钟前

单台机内 nvlink
跨机器 RDMA 呗

网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内（比如 TP ）
跨 node 通信也需要深度的优化，通过各种 pipeline overlapped 来隐藏延迟

不是搞这个的，仅仅是个人粗浅的理解

mingtdlb

14 小时 31 分钟前

@ptstone #3 gpu 是 smx 的，单节点内 nvlink 没问题，但集群的话，按 1 楼哥 @makictos 说的那样那个是专用卡？然后走 rdma （ ib 或 rocev2 ）。

刚问了下 Gemini ，大概意思服务器安装网卡驱动
ib 的话：需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ，就没了
RoCEv2 的话：配上 ip ，还要优化网络，然后是主机这边 rdma 相关的配置

这么看下来，加上现在有 AI 的辅助，gpu 服务器的集群的部署也没很难？

roygong

14 小时 16 分钟前 via iPhone

Infiniband 是一个专门的硬件，有了就可以跨机跑模型

geekvcn

14 小时 14 分钟前

@mingtdlb 连接不要用光缆，用铜缆直通，有专门的直连铜缆，缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时

neteroster

14 小时 10 分钟前

除了硬件还要考虑并行，dp, ep, tp 啥的，各种调优，infra 没那么简单的

Muniesa

14 小时 5 分钟前 via Android

sglang：在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/

stoneabc

13 小时 56 分钟前

@catazshadow 没那么夸张，现在万卡集群不用 IB 直接走 roce 的都一堆，都是成熟方案了

catazshadow

11 小时 45 分钟前

@stoneabc 真这么夸张，本来推理几十 tps 用了网卡可能就十几 tps 了

COOOOOOde

11 小时 16 分钟前

未来的方案都是上光信号铜缆都不行了, 你炒股的话就知道现在的 CPO 题材有多火了

mingtdlb

10 小时 35 分钟前

@stoneabc #14 搜了一些文章，比较同意，用 roce ，ib 成本太高了。但具体怎么组网还没搜到。。。想看具体的方案细节