每天几百 G 的数据, 有什么好的办法管理, 比如 k8s? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
DinoStray

每天几百 G 的数据, 有什么好的办法管理, 比如 k8s?

  •  
  •   DinoStray Jun 14, 2019 4155 views
    This topic created in 2509 days ago, the information mentioned may be changed or developed.

    数据都是一条一条的, 比如 user:123, hash:123

    彼此之间没有联系.

    然后会写入文件, 目前每天 400 G 的数据, 通过定时脚本上传到阿里云 OSS.

    写入文件既是为了持久化, 也是为了其他组件读取数据出分析统计结果.

    最近一年内数据膨胀很厉害, 已经从单日 40G 快速涨到了现在 400G, 预计后续还会持续上涨.

    所以目前想改进一下方案.

    大家有什么推荐么. 最好是基于 k8s, 能跨阿里云 google 云实现的.

    我的需求关键字应该是

    1. 持久化数据

    2. 数据可供消费

    持久化的时间需求应该是半年

    16 replies    2019-06-15 06:58:56 +08:00
    gz911122
        1
    gz911122  
       Jun 14, 2019
    写入数仓呗

    这跟 k8s 没什么关系吧

    阿里云有个 odps
    xlent
        2
    xlent  
       Jun 14, 2019
    阿里云的 sls,直接当日之存呢,也能消费
    snappyone
        3
    snappyone  
       Jun 14, 2019
    跟 k8s 有啥关系,跨 google 阿里云这个也很迷啊
    snappyone
        4
    snappyone  
       Jun 14, 2019
    另外这个需求挺适合 kafka 的
    lihongjie0209
        5
    lihongjie0209  
       Jun 14, 2019
    和 k8s 有什么关系?
    pmispig
        6
    pmispig  
       Jun 14, 2019
    先部署一个 k8s 再部署一个 es ?
    ai277014717
        7
    ai277014717  
       Jun 14, 2019
    感觉没什么好改进的。可以尝试先消费数据?
    fireapp
        8
    fireapp  
       Jun 14, 2019 via iPhone
    minio 走起,压缩 + 序列化
    jingxyy
        9
    jingxyy  
       Jun 14, 2019
    这么大的量 又有 olap 的消费需求 还是好好搞搞大数据那一套吧
    petelin
        10
    petelin  
       Jun 14, 2019 via iPhone
    @snappyone 这个应该不适合 一不需要多 replica 二不需要频繁读
    压缩传到一个文件系统就完事了
    hihipp
        11
    hihipp  
       Jun 14, 2019 via iPhone
    看楼主描述,每天文本数据并不是实时消费掉。

    压缩文本数据,能节约好多空间,后续消费时只多了解压步骤。

    压缩我推荐用 rar,设置恢复记录!!!
    goodryb
        12
    goodryb  
       Jun 14, 2019
    压缩上传 oss,然后 odps 创建外部表,数据源就是 oss

    如果不是经常查询老数据,可以设置定期转成归档存储,半年后自动删除
    ColinZeb
        13
    ColinZeb  
       Jun 14, 2019
    @hihipp rar 压缩性能好点,但 7z 支持多线程比 rar 好
    tyoung
        14
    tyoung  
       Jun 14, 2019 via Android
    MySQL+TokuDB 存储引擎,可以压缩 5 到 10 倍存储
    Giny
        15
    Giny  
       Jun 14, 2019
    emmm 跟 k8s 有关系 又是类似与键值对的形式 抱歉,我只能想到 etcd
    luozic
        16
    luozic  
       Jun 15, 2019 via iPhone
    键值对 ?还是啥值都有? key:value 的 es 集群一天 400G 没多少,Postgres 也能塞。 其他的 请搜大数据咋存的我。
    About     Help     Advertise     Blog     API     FAQ     Solana     952 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 57ms UTC 21:43 PVG 05:43 LAX 14:43 JFK 17:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86