装一台深度学习主机,双 3090 显卡,请问配置怎么选择? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
reaCodes
V2EX    程序员

装一台深度学习主机,双 3090 显卡,请问配置怎么选择?

  •  
  •   reaCodes
    zhatlas 2020-11-04 10:52:04 +08:00 14978 次点击
    这是一个创建于 1859 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要是主板怎么选择,还有选什么样的 CPU 能让这两张 3090 物尽其用,电源起码 1100W 吧
    82 条回复    2021-11-12 20:12:03 +08:00
    wmwmajie
        1
    wmwmajie  
       2020-11-04 11:13:27 +08:00
    同问!!
    FantaMole
        2
    FantaMole  
       2020-11-04 11:19:26 +08:00
    先等厂商把炸机问题解决了再决定电源选多少,选什么牌子吧
    saintube
        3
    saintube  
       2020-11-04 11:20:57 +08:00   1
    3090 最近出现了几波爆炸事故,甚至涉及到海盗船 ax1600i 这种电源,建议观望
    mhycy
        4
    mhycy  
       2020-11-04 11:24:48 +08:00   1
    3090 据说峰值达到了 900W,1100W 电源不太够
    dadachen1997
        5
    dadachen1997  
       2020-11-04 11:27:52 +08:00   1
    楼主怎么选的呢?我们实验室要装一台 4 路 3090,愁大我了
    eInKLX6Kh6sS3wyc
        6
    eInKLX6Kh6sS3wyc  
       2020-11-04 11:29:30 +08:00
    起码 1100W.
    个人推荐到 1300,主要是怕你买的卡放宽了功率墙,瞬时峰值功率 1100 顶不住,伤卡伤电源
    (350 - 500) * 2 + cpu ( 150 ) + 200 (外设等)
    lrh3321
        7
    lrh3321  
       2020-11-04 11:29:48 +08:00
    据说有 1600W 的 EVGA 都被 3090 带走了。建议先观望
    eInKLX6Kh6sS3wyc
        8
    eInKLX6Kh6sS3wyc  
       2020-11-04 11:30:17 +08:00
    保险期间,到 1600w,毕竟电源比显卡便宜多了。。
    2kCS5c0b0ITXE5k2
        9
    2kCS5c0b0ITXE5k2  
       2020-11-04 11:31:28 +08:00
    如果能受得了 amd 就选 amd Threadripper PRO 3995WX;
    否则选 i9-10980XE
    eInKLX6Kh6sS3wyc
        10
    eInKLX6Kh6sS3wyc  
       2020-11-04 11:32:50 +08:00
    保险起见到 1600w,毕竟电源比显卡便宜多了
    IsA26hN4DcQDS7Z9
        11
    IsA26hN4DcQDS7Z9  
       2020-11-04 11:34:23 +08:00
    炸鸡好像振华电源多?

    不过先别买是真的

    主板 m12f,cpu10900k,电源海盗船 ax1600i
    2kCS5c0b0ITXE5k2
        12
    2kCS5c0b0ITXE5k2  
       2020-11-04 11:36:33 +08:00
    其实有 2000w 电源的
    IsA26hN4DcQDS7Z9
        13
    IsA26hN4DcQDS7Z9  
       2020-11-04 11:38:56 +08:00
    直接上 x299 吧( doge
    IsA26hN4DcQDS7Z9
        14
    IsA26hN4DcQDS7Z9  
       2020-11-04 11:44:33 +08:00
    @dadachen1997 你这个需求给你推荐个 tb 店:骋罡数码专营店
    deorth
        15
    deorth  
       2020-11-04 12:40:49 +08:00
    单卡瞬时功耗 940W,BOOM
    reaCodes
        16
    reaCodes  
    OP
       2020-11-04 12:49:07 +08:00
    @deorth 峰值有这么高吗,我查了一下,TDP 350,峰值到五六百都有可能,九百多这也太夸张了吧
    reaCodes
        17
    reaCodes  
    OP
       2020-11-04 12:49:27 +08:00
    @deorth 还打算组 4 卡,这得跳闸不可
    reaCodes
        18
    reaCodes  
    OP
       2020-11-04 12:50:55 +08:00
    @dadachen1997 分析了一下,4 卡行不通,选不到民用级别的主板和电源
    deorth
        19
    deorth  
       2020-11-04 12:56:49 +08:00
    ungrown
        20
    ungrown  
       2020-11-04 13:02:08 +08:00
    @mhycy #4 这搞个二次循环岂不是可以室内供暖了?
    maichael
        21
    maichael  
       2020-11-04 13:08:15 +08:00
    双路 7F52 (#滑稽
    Umenezumi
        22
    Umenezumi  
       2020-11-04 13:35:06 +08:00
    你在观望下,现在炸了很多,不清楚是 bios 调教问题还是电源缺陷
    eInKLX6Kh6sS3wyc
        23
    eInKLX6Kh6sS3wyc  
       2020-11-04 13:44:18 +08:00
    @dadachen1997
    去看服务器机箱吧
    关键词:冗余电源
    eInKLX6Kh6sS3wyc
        24
    eInKLX6Kh6sS3wyc  
       2020-11-04 13:48:20 +08:00
    @dadachen1997
    追风者 719 这个可以双电源
    dadachen1997
        25
    dadachen1997  
       2020-11-04 13:50:02 +08:00
    @w99wjacky 目前打算上的服务器 cpu 和 ecc 内存,电源选了 2000W 的,但是感觉压不住,4 个 turbo 3090 真不知道怎么搞,服务器那种噪音挺大的吧,机架式的那种吗?
    eInKLX6Kh6sS3wyc
        26
    eInKLX6Kh6sS3wyc  
       2020-11-04 13:51:16 +08:00
    @dadachen1997
    追风者 719
    dadachen1997
        28
    dadachen1997  
       2020-11-04 13:53:42 +08:00
    @w99wjacky 我看看,多谢老哥
    Porphet
        29
    Porphet  
       2020-11-04 13:54:00 +08:00   1
    一个星期之前刚用上:
    四路技嘉 3090 Turbo 24G
    192G 内存
    2000w 1+1 冗余电源
    2 路 CPU 就是
    Porphet
        30
    Porphet  
       2020-11-04 13:55:20 +08:00
    一个星期之前刚用上:
    四路技嘉 3090 Turbo 24G
    192G 内存
    2000w 1+1 冗余电源
    2 路 CPU 就是普通的 E5

    超微的塔式,总价不到 10w

    ![image.png]( https://i.loli.net/2020/11/04/aHr2WfT8qcKZdkA.png)
    secsilm
        31
    secsilm  
       2020-11-04 14:03:49 +08:00
    @Porphet 嚯,这是跑的啥模型?
    Porphet
        32
    Porphet  
       2020-11-04 14:06:52 +08:00
    @secsilm 基于 BERT 的实验,很占显存
    Kupanda82
        33
    Kupanda82  
       2020-11-04 14:07:42 +08:00
    电源上双电源吧,单 1100w 不够用。

    其实可以等等,3090 没那么强
    secsilm
        34
    secsilm  
       2020-11-04 14:12:21 +08:00
    @Porphet 你这 bert 够大啊,我之前跑的分类仅仅用了一块 12 G 的卡,不过我用的 base 。
    pC0oc4EbCSsJUy4W
        35
    pC0oc4EbCSsJUy4W  
       2020-11-04 14:14:17 +08:00
    振 2000w
    pC0oc4EbCSsJUy4W
        36
    pC0oc4EbCSsJUy4W  
       2020-11-04 14:15:13 +08:00
    振华( SUPER FLOWER ) 额定 2000W LEADEX P 2000 电源 ( 80PLUS 白金认证 /全模组 /智能免识别插拔 /十年质保)
    ThatYear
        37
    ThatYear  
       2020-11-04 14:22:20 +08:00
    过来学习,表示还没装过双显卡
    sl0000
        38
    sl0000  
       2020-11-04 14:23:08 +08:00
    supermicro 工作站
    northisland
        39
    northisland  
       2020-11-04 14:29:51 +08:00
    看起来是 350w,保险起见搞 1500w 不过分,双路电源也不过分。

    阔佬你打算搞箱式主机,还是刀片主机
    Porphet
        40
    Porphet  
       2020-11-04 14:30:39 +08:00
    @secsilm 拿来做关系抽取的,要写论文的嘛,哈哈哈。就这样 batch_size 只能设 1,DDP 用起来四卡就占满了
    northisland
        41
    northisland  
       2020-11-04 14:31:29 +08:00
    我只晓得,intel 家 cpu 貌似走到了瓶颈,明年的 cpu 还是 14nm 制程。。。

    选个农企 cpu 应该更强大。
    northisland
        42
    northisland  
       2020-11-04 14:37:01 +08:00
    要是做图像,这显卡,一个 iter,不得吃进去 256 张图,这个 batchsize,至少 48 核 cpu 。
    wangzhangup
        43
    wangzhangup  
       2020-11-04 15:01:13 +08:00
    @reaCodes 4 卡不太可行,3090 占 3 个宽度。工作站主板,2080ti 可以放 4 张,3090 只能插两张。
    reaCodes
        44
    reaCodes  
    OP
       2020-11-04 15:54:39 +08:00
    @dadachen1997 加我微信我们交流一下,WX 15651212115
    jeeyong
        45
    jeeyong  
       2020-11-04 15:59:50 +08:00
    @dadachen1997 你这个怕是要独立电源给显卡供电
    CallMeReznov
        46
    CallMeReznov  
       2020-11-04 16:04:05 +08:00
    8 路 2080TI 在机房瑟瑟发抖
    nightwitch
        47
    nightwitch  
       2020-11-04 16:09:36 +08:00
    这种一般找供应商,你在消费者市场是比较难找到合适的机箱和主板的。 可以咨询下 Dell,惠普,浪潮,联想之类的销售,他们塔式和刀片的方案都有。
    qiaobeier
        48
    qiaobeier  
       2020-11-04 16:20:51 +08:00
    1300W 的主机。。。 开了这玩意不需要开暖气了吧。
    dadachen1997
        49
    dadachen1997  
       2020-11-04 16:21:50 +08:00
    @wangzhangup #43 turbo 卡只占两个 slot
    zirconium
        50
    zirconium  
       2020-11-04 16:42:42 +08:00 via Android
    @Porphet 老哥在哪里配的
    murmur
        51
    murmur  
       2020-11-04 16:53:30 +08:00
    现在单一电源最猛的可以买到 1600w,供电不是问题,剩下看你的主板和 u 了,hedt 的板子应该都有 6 个 pci 插槽
    DesperadoJ
        52
    DesperadoJ  
       2020-11-04 17:00:48 +08:00
    RTX3090 的峰值功耗可以上到 940W,建议用双电源
    DesperadoJ
        53
    DesperadoJ  
       2020-11-04 17:01:33 +08:00
    Porphet
        54
    Porphet  
       2020-11-04 17:03:56 +08:00
    @zirconium #50 在 jd 上找了一家超微的代理,让他给出了个配置单。然后找我们自己的供应商给买的设备加上安装和调试。
    配置单我还有,但是供应商说这个 cpu 和主板马上要停产了,再买就要买新的了,超微的塔式四路 GPU 服务器好像就那一款
    qoras
        55
    qoras  
       2020-11-04 17:10:59 +08:00
    3090 背部显存温度非常高, 注意降温及小心烫伤
    zzh1224
        56
    zzh1224  
       2020-11-04 17:14:22 +08:00
    amd 不香吗
    nmecury
        57
    nmecury  
       2020-11-04 17:16:55 +08:00
    搞个超微准系统吧,别自己折腾了
    wangzhangup
        58
    wangzhangup  
       2020-11-04 17:29:40 +08:00
    如何配置一台适用于深度学习的工作站?知乎的下面有讲的很清楚。
    w1573007
        59
    w1573007  
       2020-11-04 17:39:23 +08:00 via Android
    兄弟,我和你研究的差不多,但多路显卡显存可以共享么,先谢大佬指路了。我没找到相关资料
    philobar
        60
    philobar  
       2020-11-04 20:07:22 +08:00
    感觉需要折腾双电源
    zhady009
        61
    zhady009  
       2020-11-04 20:39:53 +08:00
    现在不建议上 3090 各种 boom 的消息
    dlsflh
        62
    dlsflh  
       2020-11-04 22:37:14 +08:00 via Android
    不可以外接电源单独给显卡供电吗?
    daliandefei
        63
    daliandefei  
       2020-11-04 22:49:53 +08:00
    啊哈哈 来闲鱼搜一下我的顶配黑苹果 ,macpro 复刻机箱 小超到 1.22v 全核 4.7 mesh 33, 比 MACPRO 2019 顶配强一些~ 还有配套压缩机出 如果
    no1xsyzy
        64
    no1xsyzy  
       2020-11-04 23:53:54 +08:00
    @dlsflh 可以是可以,大部分塔式机箱没有双电源的位置,要么直接测试平台裸跑,要么特殊机箱。
    SorryChen
        65
    SorryChen  
       2020-11-05 00:38:42 +08:00 via iPhone
    @zzh1224 做很多深度学习用不了 amd,cuda 一统天下
    shiltian
        66
    shiltian  
       2020-11-05 02:22:26 +08:00
    要选 PCI-E Lane 大于 32+4 的 CPU
    diggerdu
        67
    diggerdu  
       2020-11-05 03:16:59 +08:00 via iPhone
    @w1573007 model parallel
    devlnt
        68
    devlnt  
       2020-11-05 04:27:43 +08:00
    担心电源的话,可以考虑工作站这种的,一般有俩电源,可以挑俩 2000W 这种的
    mostkia
        69
    mostkia  
       2020-11-05 08:14:13 +08:00
    老黄真就是造核弹的啊,带 9 的卡碰不得,想当年的 GTX690 也是个核弹[狗头]
    337136897
        70
    337136897  
       2020-11-05 09:36:06 +08:00   2
    楼上的全是搞深度学习的科学家吗...
    MeteorCat
        71
    MeteorCat  
       2020-11-05 09:39:34 +08:00 via Android
    单个 3090 的功耗 1100w 压不住,建议等等避免上烈士墙
    isler
        72
    isler  
       2020-11-06 16:18:47 +08:00
    @Porphet 你们的具体配置是怎么样呢?用的塔式?
    Porphet
        73
    Porphet  
       2020-11-06 17:08:31 +08:00
    @isler
    Supermicro SYS-7048GR-TR
    E5-2680V4 * 2
    三星 32G RECC 内存 * 6
    技嘉 RTX 3090 TURBO * 4
    硬盘机械加固态

    机箱和 CPU 应该是马上停产,供应商装好机器才跟我说,升级型号应该是 SYS-7049GP-TRT,CPU 也要换
    虽说是塔式,我们还买了导轨,放在那种恒温机房里
    Porphet
        74
    Porphet  
       2020-11-06 17:19:24 +08:00
    @w1573007 #59
    关于显存共享我差不多搞明白了,只针对深度学习:
    1. 显存不可能在底层叠加,也就是说永远是四个单独的 24G 显存
    2. 我认为的显存叠加只是增加了 batch_size 的大小(已实现),或者可以把模型分半一块卡加载一部分模型。
    3. 第二条所述的功能都需要在代码层面实现,底层上是通过 PCIe 来传输梯度
    4. NvLink 的作用就是加速第三条中梯度传输的速度,避免数据通过 CPU 传输,以实现类似一整块 4*24G 显卡的效果

    这些是我踩坑之后的理解
    w1573007
        75
    w1573007  
       2020-11-06 17:55:00 +08:00 via Android
    谢谢啦,太感谢了
    isler
        76
    isler  
       2020-11-07 12:45:22 +08:00
    @Porphet
    果然技嘉 turbo 是唯一选择。。

    不过你们是不是被坑了啊。。。我的 SYS-7049GP-TRT+4*2080Ti 还是 18 年买的呢,都用了两年了。。。CPU 用的 6128
    isler
        77
    isler  
       2020-11-07 12:52:58 +08:00
    @Porphet

    另外不知道你们用了几台,我感觉几台单独用,利用率不行,今年打算做集群,不过方案还没选好
    Porphet
        78
    Porphet  
       2020-11-07 14:54:29 +08:00
    @isler
    反正不吃 CPU,坑就坑了,现在我自己用这一台,也没有多余的。
    集群我反正是在机房里看见了四台 DGX A100 外加单独的万兆路由,酸死我了
    fchypzero
        79
    fchypzero  
       2020-11-07 18:06:39 +08:00
    @Porphet 有钱啊,DGX A100 一台大几十万
    isler
        80
    isler  
       2020-11-08 01:24:39 +08:00
    @Porphet
    DGX A100 买不起,不过万兆网卡和交换机就好说了,Intel 的万兆寨卡也没几百,没有现成的万兆交换机,直接上全 sfp+的也不贵,接几个服务器买几个模块就是了
    chenjunqiang
        81
    chenjunqiang  
       2021-11-06 15:37:02 +08:00
    @Porphet 你好,我准备上你这个方案,你这个是放在恒温机房托管的吗?还是放在公司的?我感觉这个玩意散热会不会有问题,不敢直接上
    Porphet
        82
    Porphet  
       2021-11-12 20:12:03 +08:00
    @chenjunqiang 我们放在恒温机房,放在公司应该也可以。就是噪音大,显卡 io 板上装了两个暴力服务器风扇,直接往外抽风,反正不用插 hdmi 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2671 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 14:25 PVG 22:25 LAX 06:25 JFK 09:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86