
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器
好奇问一下,想学习学习
为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。
现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。
1 makictos PRO 每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联 |
2 minami 15 小时 19 分钟前 via Android 关键字:NvLink 、NvSwitch 、InfiniBand |
3 ptstone 15 小时 0 分钟前 网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑 |
4 liaohongxing 14 小时 56 分钟前 |
6 catazshadow 14 小时 48 分钟前 via Android @stoneabc 延迟要炸的 |
7 geekvcn 14 小时 35 分钟前 目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧 |
8 thevita 14 小时 34 分钟前 单台机内 nvlink 跨机器 RDMA 呗 网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP ) 跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟 不是搞这个的,仅仅是个人粗浅的理解 |
9 mingtdlb OP |
10 roygong 14 小时 16 分钟前 via iPhone Infiniband 是一个专门的硬件,有了就可以跨机跑模型 |
12 neteroster 14 小时 10 分钟前 除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的 |
13 Muniesa 14 小时 5 分钟前 via Android sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek https://www.lmsys.org/blog/2025-05-05-large-scale-ep/ |
14 stoneabc 13 小时 56 分钟前 @catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了 |
15 catazshadow 11 小时 45 分钟前 @stoneabc 真这么夸张,本来推理几十 tps 用了网卡可能就十几 tps 了 |
16 COOOOOOde 11 小时 16 分钟前 未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了 |