关于海量的大数据文件传输问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
brando

关于海量的大数据文件传输问题

  •  
  •   brando 2024 年 3 月 28 日 1738 次点击
    这是一个创建于 757 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有这么一个问题,一直很困扰,就是关于海量的大数据文件传输问题。 环境: 企业局域网传输,数据文件都在华为的分布式存储里,然后通过 CIFS 进行共享工作。 由于某个项目文件夹需要迁移,而这个文件夹内容几乎达到了 100TB 的内容,现在将这部分文件夹冻结进行迁移出这个分布式存储,然后就尴尬了。

    传输速度峰值也就 250M 左右,用的是第三方工具叫 fastcopy 程序,这样大家也可以理解,是通过客户端,使用第三方软件,再到分布式存储共享文件夹,迁移到另一个异地环境,当然网络还是在同一个局域网里。

    因为是分布式存储,我们也无法使用 rsync 这样的工具来进行镜像同步。问了售后的官方华为,给的方案也不是很理想,靠第三方工具来进行传输,而华为自家的传输工具也只能在同等环境下进行传输,也就是迁移的对象也是分布式存储系列。

    然后,文件夹的内容是杂乱的,大大小小的都有,当然这里面的内容也不用去管它,我曾想过进行压缩,但这么多的海量文件,压缩起来也是非常耗时的。

    不知道在 v2 的各位有什么好的建议吗?


    我现在只能寄托于网络上进行找突破,在客户端设备硬盘条件 OK 的情况下,用堆叠网线来进行传输。当然用光纤也是不行,即使我的客户端设备有光纤网卡,但分布式存储环境并不支持。

    第 1 条附言    2024 年 4 月 17 日
    目前暂时找到一种方法,使用 robocopy 来进行传输。
    13 条回复    2024-03-29 00:17:19 +08:00
    Mithril
    1
    Mithril  
       2024 年 3 月 28 日   1
    看看他们有没有基于硬盘的数据迁移功能,让他们直接导出所有数据到一些硬盘里,然后把硬盘过去挂机柜上恢复。
    brando
        2
    brando  
    OP
       2024 年 3 月 28 日
    @Mithril 目前是没有,但不我理解您指的硬盘数据迁移,他的方式是什么?我这边是不能动物理设备的,毕竟这些设备都在工作,又有很多人在使用。
    Mithril
        3
    Mithril  
       2024 年 3 月 28 日
    @brando 没太用过华为云,不过 AWS 有类似的服务: https://aws.amazon.com/cn/snowball/
    他会寄给你一个设备,你把它连到本地服务器,然后把数据复制进去。寄回去以后他们会把数据传到 S3 或者类似的服务里。
    也可以用于从 S3 导出数据。

    这种方式用于导入导出大量数据非常有效。

    AWS 很久以前用的是硬盘邮寄完成这种工作的。不知道华为云是不是提供类似的服务,你可以咨询一下他们的销售。
    brando
        4
    brando  
    OP
       2024 年 3 月 28 日
    @Mithril #3 我这是企业私有云(就是企业内部服务群集),您说的这种是数据用公有云,我们客户端传输的速度给公有云会直接死翘翘的,如果是公有云,一般直接在线扩容(或者你说的 AWS ,直接用 AZCOPY 这种功能),关键我们这边不想再部署那么大的服务群集在本地了,毕竟机房限制也会有瓶颈。

    EMMMMMM ,我另外再想想办法突破下。
    dode
        5
    dode  
       2024 年 3 月 28 日
    中转机器安装全套的固态硬盘,并且挂载选项关闭同步写入缓存
    Mithril
        6
    Mithril  
       2024 年 3 月 28 日
    @brando 你说华为的分布式存储我还以为你用的是华为云。是那个存储设备是吧?那就更简单了。

    直接存储上挂硬盘,数据复制到硬盘里,然后硬盘拿到目的机房挂到服务器上导入进去。

    不过虽然一般大容量的文件传输不会走网线,但你这网络速度都已经能到平均 250MB/S ,用硬盘迁移也快不了多少的。你挂 USB 顶多 500MB/S ,然后你到目的机器还得读出来。SATA 极限速度也就差不多这样了,除非你用 SSD 。个人感觉还不如想办法去优化网络。
    brando
        7
    brando  
    OP
       2024 年 3 月 28 日
    @Mithril #6 存储是分布式的,不能直接挂靠硬盘,分布式的存储方式和普通的存储是两回事。大容量的数据是可以走网线的,但目前资金有限,没法在升级网络硬件的情况下,有个叫 RoceV2 的协议,当然现在是只能从现有的环境条件去一步步分析了。

    客户端设备硬盘是 M2 的,但这个不是问题所在,就是你最后所说的,还是核心网络方面有点问题,毕竟网卡都 20G ,40G 了。(我是后妈,对前期的资源或设置是不了解嘀)

    挂靠移动硬盘毕竟是有风险存在的,并不是很可靠,对企业来说是个硬伤,何况数据是几十 TB 的文件了。
    brando
        8
    brando  
    OP
       2024 年 3 月 28 日
    @dode 这也算是个方案,但属于没办法的办法,一般不到这一步是不会做的。
    Mithril
        9
    Mithril  
       2024 年 3 月 28 日
    @brando 可能我没说清,不是直接把硬盘挂上去,而是用一台带高速网卡的机器直连,然后那台机器写硬盘。
    这个硬盘只是用来转移数据的,你自己应该还是有校验的。

    不过你说得对,还是先搞网络吧。就算你现在核心网有问题,这速度也比你折腾这个硬盘方案快。
    bt7vip
        10
    bt7vip  
       2024 年 3 月 28 日 via Android
    是单链路峰值 250m 吗,如果是的话,一个存储挂多台设备,然后文件夹分类,A 机器传 A-C 文件夹,B 机器传 D-G 文件夹,这样链路聚合宽带会加快速度,省钱费时间,要想快就找供应商提供全闪对拷,但机器进到机房和接入存储要走不少流程,需要你的供应商协调好。
    lbp0200
        11
    lbp0200  
       2024 年 3 月 28 日
    很简单,邮政快递
    ntedshen
        12
    ntedshen  
       2024 年 3 月 28 日
    既不让物理接。。。
    又理不清配置。。。
    协议还换不掉。。。
    瓶颈也不知道。。。

    神仙难救。。。
    brando
        13
    brando  
    OP
       2024 年 3 月 29 日
    @bt7vip 不是单链路,我也有考虑过堆叠线和链路聚合的方式,因为听说分布式是网卡 20G 的,有 2 个链路连接到核心交换机上,海量的碎片文件是非常多,但是以 G 为单位的文件也不在少数,所以我就觉得 250M 这个实在是低。进机房和就介入存储到不是问题,关键是能帮助企业解决些问题才是实实在在的。
    @Mithril #9 能提供一些思路和方式,很感激您。。感谢感谢!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1085 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 49ms UTC 18:22 PVG 02:22 LAX 11:22 JFK 14:22
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86