V2EX makictos
makictos

makictos

V2EX 第 362179 号会员,加入于 2018-11-10 11:57:50 +08:00
今日活跃度排名 3110
PRO
PRO 会员
makictos 最近回复了
9 小时 10 分钟前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@coefu 多远不重要,但是对普通人来说,这是目前来钱最快的一条路之一。我也只是赚点钱的普通人。
9 小时 16 分钟前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@makictos https://docs.nvidia.com/dgx-basepod/deployment-guide-dgx-basepod/latest/introduction.html 首先把你的八台 DGX/HGX 上的 cx7 网卡全部连线到 ib 交换机上,之后把所有机器的网卡切到 ib 模式(如果存在 ES/QS/CS 卡片,需保证全部卡片必须为同一固件版本),然后打开 Subnet Manager ,如果你的机器没问题的话,这时候你应该就已经建立了一个简单的集群了(至少可以跑 nccl 了)
9 小时 25 分钟前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@mingtdlb 第一个问题,快速开展可以参考这篇文章
1 天前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。
1 天前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@coefu 无意冒犯,我目前就职于你所说的大厂,也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。
4 天前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。
4 天前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
@coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。
5 天前
回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联?
每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
先问是不是,再问为什么。
问题不成立,48g 是有的,你把单颗 2g 的 gddr7 换成单颗 3g 的 gddr7 是可以直接引导的,但是因为供货量和成本问题,目前没有办法直接对外卖。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     972 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 17ms UTC 18:36 PVG 02:36 LAX 11:36 JFK 14:36
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86