关于 oss 存储数据迁移到本地(搭建本地存储) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
guochenglong
V2EX    程序员

关于 oss 存储数据迁移到本地(搭建本地存储)

  guochenglong 2024-03-18 11:31:21 +08:00 4071 次点击
这是一个创建于 621 天前的主题,其中的信息可能已经有所发展或是发生改变。

背景

我司去年在 oss 存储费用达到 100w+,公司觉得费用过高,期望在存储方面可以降本。

方案

目前团队定的方案是放弃 oss ,自己搭建一套本地存储。将 oss 数据迁移到本地,后续各个服务 oss 操作全部替换成操作本地存储。

存储服务:MinIO

问题

请教各位有什么建议和相关经验?

ps:我个人感觉自己实现存储风险很大,要考虑的东西很多,备份,容灾,带宽速度等。

第 1 条附言    2024-03-18 12:14:01 +08:00
文件类型:音频文件,每个音频大约 40mb 左右。
存储类型:去年 6 月之前全是标准,6 月后标准 50% 低频 50%。
费用:打完折后 100w
53 条回复    2024-03-28 22:23:56 +08:00
hefish
    1
hefish  
   2024-03-18 11:36:52 +08:00
这个风险大小跟投资应该是成比例关系的。
自建存储,多投点钱,搞点分布式,搞点冷热备,再搞一些专职人员维护,肯定能做到安全性,效率 兼顾的。
yinft
    2
yinft  
   2024-03-18 11:41:29 +08:00
能做到分布式么?带宽资源够么?能解决这些才行
daimaosix
    3
daimaosix  
   2024-03-18 11:42:11 +08:00
文件类型是大文件居多还是海量小文件?在 OSS 用的是什么存储类型? OSS 存储费用能花 100W+这个量不算小啊,美团技术团队之前在他们的博客分享了自建 MinIO 遇到的挑战,你可以去看一下。
knives
    4
knives  
   2024-03-18 11:43:18 +08:00
好奇数据量有多少,存储哪些类型数据?

个人经验是 MinIO 稳定性不错,但是使用 HDD 存大量小文件性能捉急。另外扩容比较麻烦。
lcy630409
    5
lcy630409  
   2024-03-18 11:44:14 +08:00
没有谈折扣么? 被别人吃了?
建议计算成本,超过阈值就自建 先算好
daimaosix
    6
daimaosix  
   2024-03-18 11:45:17 +08:00
建议从长计议,多大存储量,100W+这费用阿里肯定给了不少的折扣了,能解决容灾和网络的话,这成本肯定下云会省钱。
ohayoo
    7
ohayoo  
   2024-03-18 11:51:17 +08:00
这个 100 万是纯粹的存储费用还是说包含了文件访问产生的 CDN 费用?
如果是纯粹的存储费用,这得是多少个 P 的海量数据了,缺失是个很大的挑战
guochenglong
    8
guochenglong  
OP
   2024-03-18 11:58:48 +08:00
统一回复下:
1.文件类型:音频文件,每个音频大约 40mb 左右。属于海量小文件。
2.100W 只是存储费用,目前存储使用量在 1000TB 。
daimaosix
    9
daimaosix  
   2024-03-18 11:59:32 +08:00
@guochenglong 海量小文件,强烈不建议使用 MinIO
opengps
    10
opengps  
   2024-03-18 12:01:21 +08:00
能花 100W 了,本地当然得考虑很多因素,但其实最好是先别删除-冷存,以备随时能退回 oss 的方案上去
guochenglong
    11
guochenglong  
OP
   2024-03-18 12:01:26 +08:00
@daimaosix
文件类型:音频文件,每个音频大约 40mb 左右。
存储类型:去年 6 月之前全是标准,6 月后标准 50% 低频 50%。
费用:打完折后 100w
guochenglong
    12
guochenglong  
OP
   2024-03-18 12:02:34 +08:00
@knives 各种格式的音频文件( wav,flac,mp3 等)
guochenglong
    13
guochenglong  
OP
   2024-03-18 12:03:22 +08:00
@ohayoo 只是存储费用,并且是打折后的。存储量 1000TB
daimaosix
    14
daimaosix  
   2024-03-18 12:07:17 +08:00
@guochenglong 回源带宽有多大?应该用了 CDN 吧?初步+保守计算,自建可省下三分之一至少
guochenglong
    15
guochenglong  
OP
   2024-03-18 12:08:19 +08:00
@lcy630409 打完折 100w ,所以打算自建
guochenglong
    16
guochenglong  
OP
   2024-03-18 12:09:44 +08:00
@opengps 是的,现有 oss 文件先不删。
ksc010
    17
ksc010  
   2024-03-18 12:10:28 +08:00
一样的情况,目前正在逐步迁移到本地
guochenglong
    18
guochenglong  
OP
   2024-03-18 12:19:14 +08:00
@daimaosix 回源带宽 100mb ,用了 cdn 。
aloxaf
    19
aloxaf  
   2024-03-18 12:29:23 +08:00
有些公司,比如七牛,提供了私有云的解决方案。如果你们觉得公有云太贵,自建又没经验,也可以考虑这类服务。
daimaosix
    20
daimaosix  
   2024-03-18 12:29:40 +08:00 via Android
@guochenglong 干吧,三分之二省了
106npo
    21
106npo  
   2024-03-18 12:41:36 +08:00 via Android
回源 100Mbps 机械盘随便都能撑住。一百万费用储存量大概 2PB 左右,按照和 OSS 一样的安全性(仅阵列),半个机柜就够了
daimaosix
    22
daimaosix  
   2024-03-18 13:00:10 +08:00
楼主不介意可以联系我,给你提供 0.035/GB 的价格,按照归档存储的价格提供标准存储
ursash
    23
ursash  
   2024-03-18 13:07:36 +08:00
楼主,现在 Cloudera 提供线下部署对象存储的方法,有兴趣可以联系我,微信同号
https://docs.cloudera.com/cdp-private-cloud-base/7.1.8/ozone-storing-data/topics/ozone-config-https-endpoint.html
dayeye2006199
    24
dayeye2006199  
   2024-03-18 13:18:56 +08:00
贵司这个业务也挺猛的
trzzzz
    25
trzzzz  
   2024-03-18 13:26:50 +08:00
@guochenglong 可以试一下 seaweedfs
trzzzz
    26
trzzzz  
   2024-03-18 13:28:48 +08:00
还有一个方向,还在 oss 上,只不过可以把不常用的放入 [低频存储] 中。费用会降低,只是读取不方便
reeco
    27
reeco  
   2024-03-18 13:55:00 +08:00
加个冷数据归档功能就好了
yuzo555
    28
yuzo555  
   2024-03-18 13:59:49 +08:00
1PB 1 年 100w 这个价格,就算全是标准存储也贵了,公司商务可以去阿里腾讯华为百度这些大厂谈谈,绝对能压到更低。
3IOhG7M0knRu5UlC
    29
3IOhG7M0knRu5UlC  
   2024-03-18 14:01:18 +08:00 via Android
你这个要求低,直接搞
defunct9
    30
defunct9  
   2024-03-18 14:04:35 +08:00
刚好都弄过,oss 和 minio 以及 truenas 。你这个用生命周期扔冻桶里比较合适。自建风险太大。前面套 CDN 的话又涉及到带宽,没法弄,到处都是坑。
totopper312
    31
totopper312  
   2024-03-18 14:27:33 +08:00
我知道有大厂对象存储用的也是 minio ,没有优化,还有一些用 ceph 的,还有一些基于 glusterfs 的,自研的很少,因为对象存储都是基于开源的,比较稳定,所以维护的人并不多,对象存储在云厂商里是比较挣钱的产品。
knives
    32
knives  
   2024-03-18 14:32:01 +08:00
@guochenglong 我这边也做过类似的选型。

当时也测了一轮 Seaweedfs ,在各种场景下性能是好,但是纠删码功能基本残废,数据可靠性很差。能接受双副本/三副本的空间占用的话用 Seaweedfs 倒是没问题……
Ceph 传说运维成本高,对小文件也没有优化,Pass 了。
目前在部署 OZone ,还没开始测试。
8355
    33
8355  
   2024-03-18 14:37:17 +08:00
其实是冷热桶问题,冷桶甚至可以存到网盘里用 api 对接,对实时性要求没那么高的话,热桶数据也不会太多,可以通过业务代码做文件做 cdn 预热,把可访问实时性转嫁给 cdn 。
vivisidea
    34
vivisidea  
   2024-03-18 14:50:35 +08:00
1000TB 的容量,1 本体+2 副本的话,需要 3000T 的磁盘,一台存储服务器按 8T * 12 = 96T 算,80%使用容量,至少需要 40 台,可以算下采购服务器要多少钱,搬迁之后多少年回本(还没算带宽、机架、运维等费用)
f6x
    35
f6x  
   2024-03-18 14:55:44 +08:00
自己买硬盘确实省钱. 其他可不一定省钱
daimaosix
    36
daimaosix  
   2024-03-18 14:56:13 +08:00
@8355 放网盘里...大哥你认真的嘛
ivmm
    37
ivmm  
   2024-03-18 14:58:04 +08:00
咱们有阿里原厂团队来优化过存储价格么? 没有的话 微信 aGctY3V0ZQ== (已经 base64 加密)



可以帮助阿里云上存储降本,我们很多大型医院、某大型连锁摄影 P 图公司都是我们存储成本优化的客户案例
xiebinbin666
    38
xiebinbin666  
   2024-03-18 15:00:21 +08:00
缤纷云可以看看
cwei3790
    39
cwei3790  
   2024-03-18 15:06:04 +08:00
有兴趣用火山的吗
8355
    40
8355  
   2024-03-18 15:16:23 +08:00
@daimaosix #36 阿里云盘,可以啊,速度也快,朋友公司他们是这样用的,关键看你对数据的可靠性要求,他们都是内部的一些办公文件存储有办公室 nas 做备份防止云盘线路故障,比较多就是一些 psd cad 文件,成本对比 oss 开销已经可以忽略不计了,他们是几十 TB 这种规模。
qishua
    41
qishua  
   2024-03-18 15:25:38 +08:00
这个首先要看你们本地(线下)是否有机房,要是已经有机房,且有对应的 it ( idc )运维人员,我觉得可以自建。要是没有,都是运维,从头搞的话,不建议,光灾备就够你忙的了
CaptainD
    42
CaptainD  
   2024-03-18 15:28:11 +08:00
我们就是自建的 minio ,存图片,不算纠删码冗余大概 200+TB ,防护措施基本为 0 ,没有任何多余的备份容灾措施,风雨飘摇

建设的时候我们就想用云服务,监控扩容备份都方便,领导嫌贵,资源也给的紧巴巴,根本没有多余空间和服务器做冗余
Qetesh
    43
Qetesh  
   2024-03-18 15:39:08 +08:00
这个体量,难道不考虑使用品牌专业分布式存储吗? Dell EMC PowerScale 、华为 FusionStorage 等等对象存储
qiubinren
    44
qiubinren  
   2024-03-18 16:14:26 +08:00
40m ,1000TB ,也就千万级的对象,这个量对所有私有云存储厂商来说都 so easy ,你们完全可以先找一些有自研对象存储的私有云厂商(比如我司)要个报价,再比对下自己玩 minio 的成本,看看哪个更合算,哪个风险更低。感兴趣可以联系我,微信:YWJvZGlfOTExMQ==
Seanfuck
    45
Seanfuck  
   2024-03-18 16:18:46 +08:00
好奇每年流量费用有多少,这个更贵
duanxianze
    46
duanxianze  
   2024-03-18 16:25:52 +08:00
同好奇,这么大的业务量,一年光 cdn 流量费要多少钱?
dann73580
    47
dann73580  
   2024-03-19 04:22:46 +08:00
@vivisidea 你这个算法肯定有问题……基本上都是用 24 或者 36 盘的单机了。pb 级别算冗余刚好是一个 4-6 台机器的小集群。半个机架撑死,拿不回企业找 idc 托管也花不了几个钱。
salmon5
    48
salmon5  
   2024-03-19 09:43:58 +08:00
这个体量还远没到自建的分界线。既然是优化成本,自建硬件、托管费、人力 大概率不舍得投入。
最后大概率一地鸡毛。
最好请厂商来一起优化下。
salmon5
    49
salmon5  
   2024-03-19 09:47:00 +08:00
特别是过了几年,这堆硬件要报废的时候,一般公司肯定不舍得报废。遗患无穷。
ansemz
    50
ansemz  
   2024-03-19 10:02:23 +08:00
自己搞完会发现,100w/年真是不贵。但是自己手里留了一堆硬件,骑虎难下。
tkisme
    51
tkisme  
   2024-03-19 11:46:45 +08:00
目前是近期文件会反复访问,久远的文件以存档为主,下载的几率不大
brando
    52
brando  
   2024-03-19 15:16:02 +08:00
坐等 PB 级别的业务相关人士出现。。。
panzhc
    53
panzhc  
   2024-03-28 22:23:56 +08:00
MinIO 扩容维护麻烦,Ceph 维护操作方便,另外可以考虑下 JuiceFS
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2685 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 28ms UTC 14:16 PVG 22:16 LAX 06:16 JFK 09:16
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86