V2EX makictos
makictos

makictos

V2EX member #362179, joined on 2018-11-10 11:57:50 +08:00
PRO
PRO member
makictos's recent replies
@andlp 那没事了
@andlp 要是能直接给 aws 企业号或者代付账单也可以,aws 那个源头我们也行
@andlp 可以啊,额度够吗?怎么联系
@satac 我们必须要企业号,不然安全性无法保证,而且我们也不用直连
@coefu 多远不重要,但是对普通人来说,这是目前来钱最快的一条路之一。我也只是赚点钱的普通人。
@makictos https://docs.nvidia.com/dgx-basepod/deployment-guide-dgx-basepod/latest/introduction.html 首先把你的八台 DGX/HGX 上的 cx7 网卡全部连线到 ib 交换机上,之后把所有机器的网卡切到 ib 模式(如果存在 ES/QS/CS 卡片,需保证全部卡片必须为同一固件版本),然后打开 Subnet Manager ,如果你的机器没问题的话,这时候你应该就已经建立了一个简单的集群了(至少可以跑 nccl 了)
@mingtdlb 第一个问题,快速开展可以参考这篇文章
@coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。
@coefu 无意冒犯,我目前就职于你所说的大厂,也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。
@mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。
About     Help     Advertise     Blog     API     FAQ     Solana     4982 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 19ms UTC 04:01 PVG 12:01 LAX 21:01 JFK 00:01
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86