高性能计算: RoCE v2 vs. InfiniBand 网络该怎么选? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
ppj
V2EX    Linux

高性能计算: RoCE v2 vs. InfiniBand 网络该怎么选?

  •  
  •   ppj 2022-09-18 14:26:03 +08:00 3541 次点击
    这是一个创建于 1197 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RoCE 规范在以太网上实现了 RDMA 功能,ROCE 需要无损网络,RoCE 的主要优势在于它的延迟较低,因此可提高网络利用率;同时它可避开 TCP/IP 并采用硬件卸载,因此 CPU 利用率也较低。

    高性能计算:RoCE v2 vs. InfiniBand 网络该怎么选

    13 条回复    2022-09-19 22:28:24 +08:00
    ea3ba5c0
        1
    ea3ba5c0  
       2022-09-18 16:43:44 +08:00 via Android   2
    泼点冷水,这文章写的太水了。
    都 2022 年了,还怎么选。roce v2 早就占满了各个机房。
    A01514035
        2
    A01514035  
       2022-09-18 19:13:46 +08:00   1
    第一次在 V2 看到了 RDMA 。
    webcape233
        3
    webcape233  
       2022-09-18 19:17:55 +08:00
    hpc 里面基本都是 ib ,但是 ib 太贵了。
    abbottcn
        4
    abbottcn  
       2022-09-18 23:31:04 +08:00
    中文读上去有点怪,
    感觉像机器翻译的 RHEL 技术手册.

    不说十年前, 至少 8 年前, 我们机房的机器, 就在用 IB 了.
    High bandwidth and low latency, 这是关键, 当然还有高并发 I/O.
    应用很简单, 要么是一个任务使用上百个 MPI, 这种任务一般三五天; 要么就是一个用户, 一下发 2000 到 1 万个单 CPU 核心的计算任务, 每一个可能跑十来分钟.

    IB 是标配.

    现在看到好多小伙伴咸鱼搞 56G IB 网卡,
    拿回家在以太网模式玩集群并行计算, 好搞笑.
    ppj
        5
    ppj  
    OP
       2022-09-19 09:39:14 +08:00
    @abbottcn RoCE v2 已经广泛应用,只是目前国内超算 /高算的领导喜欢听人忽悠搞政绩而已。
    abbottcn
        6
    abbottcn  
       2022-09-19 09:50:14 +08:00
    @ppj 简单测试过 VASP.
    E5 2686v4 + 10GbE, 使用 RDMA 之后,
    双节点并行(72 个物理核心), 纯 MPI,
    加速效率 0.8 (理论上, 如果 36 核心需要 2 小时; 那么使用 72 核心应该是 1 小时), 已经算不错了.

    而使用 IB, 多达 8 个节点, 线性效率依旧能保持在 0.85 左右(测试数据来自挪威的一个实验室).

    如果使用更多节点的时候, 比如 3 个节点, 4 个节点, 以太网+RDMA, 效果很差劲.
    主要的问题是 high latency.

    VASP MPI 多核心并行, MPI Rank 之间频繁交换数据, 不过数据包很小.
    所以, 对于这类 MPI 并行, 大规模并行, latency 还是很重要的.

    未测试其他应用, 不敢妄加评论 RoCE 实际效果.
    Defined
        7
    Defined  
       2022-09-19 10:39:12 +08:00
    看钱啊,有钱整套网络设备都换掉,肯定是 IB 好啊,不管从性能还是稳定性考虑。
    spacezip
        8
    spacezip  
       2022-09-19 12:26:30 +08:00
    稳定性 肯定 ib
    前两年看人折腾过 intel opa 各种问题硬着头皮上
    ea3ba5c0
        9
    ea3ba5c0  
       2022-09-19 13:10:33 +08:00
    @abbottcn RoCE v2 最重要的是流控,估计是流控没做好。
    ppj
        10
    ppj  
    OP
       2022-09-19 13:11:22 +08:00
    @abbottcn 分布式并行存储用的什么?小文件并行计算,存储软件选择也是影响 latency 的因素。
    ea3ba5c0
        11
    ea3ba5c0  
       2022-09-19 13:12:17 +08:00
    @Defined 不觉得 IB 好,这种专有设备,机房都要特殊布线,出问题不好排查。
    RoCE v2 走以太网,更好的网络互联。
    abbottcn
        12
    abbottcn  
       2022-09-19 14:27:01 +08:00 via iPhone
    @ppj 我自己的集群,就四个节点,要什么高大上的并行文件系统,分布式存储?
    直接 NVMe RAID0 搞定。整个系统满负荷运行时,可以做到 CPU 99%被用户利用。稍有 iowait 占比。

    之前的浪潮,曙光产品,不晓得他们用啥做存储,有点卡。

    我只是个外行。只晓得怎么让我用过的程序,
    在集群上,跑得更快更稳定。其他不懂。

    我只会用 netdata 分析系统负载压力,其他不会。

    [容易忽略的性能短板] https://b23.tv/EnbjGkw
    lustyone
        13
    lustyone  
       2022-09-19 22:28:24 +08:00 via iPhone
    @ea3ba5c0 2022 年了,ib 可以稳定支撑 60k 节点规模网络稳定运行。至于 roce 如果你是业内人员的话应该知道没有一个集群可以稳定运行超过 1k 个节点,或者堆人力去运维或者损失很多带宽效率。至于国内的 harp 等是另外一个故事不展开。

    不要想当然认为全球的高性能计算专家都在黑钱。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2687 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 07:12 PVG 15:12 LAX 23:12 JFK 02:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86