自建数据湖方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
ihnfsa
V2EX    云计算

自建数据湖方案

  •  
  •   ihnfsa 2024-04-23 09:37:38 +08:00 4849 次点击
    这是一个创建于 540 天前的主题,其中的信息可能已经有所发展或是发生改变。

    导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?

    第 1 条附言    2024-04-23 14:39:26 +08:00
    AI Agent + RAG + 数据湖,不涉及大模型的训练。这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,我都写 llamaindex 测过,但感觉这些查询系统放在湖里面有点强行了。
    dayeye2006199
        1
    dayeye2006199  
       2024-04-23 09:48:53 +08:00 via Android
    什么是数据湖的大模型应用?两个名词堆一块儿了?
    ihnfsa
        2
    ihnfsa  
    OP
       2024-04-23 09:55:54 +08:00
    @dayeye2006199 我也只知道几个关键字,AI Agent + RAG + 数据湖
    dog82
        3
    dog82  
       2024-04-23 09:56:22 +08:00
    数据湖炒概念的成分更大,我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点,楼主去看看 http://www.moojnn.com/product-center/publicinto.html
    ihnfsa
        4
    ihnfsa  
    OP
       2024-04-23 09:57:35 +08:00
    @dog82 好的,谢谢哥
    yjhatfdu2
        5
    yjhatfdu2  
       2024-04-23 10:18:15 +08:00
    开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ,但这玩意儿都还是适合写入为主,偶尔批量计算的场景,不适合实时查询,和 AI Agent 、RAG 有啥关系?
    ihnfsa
        6
    ihnfsa  
    OP
       2024-04-23 10:28:03 +08:00
    @yjhatfdu2 我也没搞清楚,现在想的是能不能把 Text2SQL 用在湖上一些查询系统上,类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent
    CadonHo
        7
    CadonHo  
       2024-04-23 10:35:12 +08:00
    数据湖就是一个存储,特点就是各种数据格式都能存。不过有一说一,大模型的应用不是应该往垂直领域找么,这个跟数据湖关系不大吧,数据湖就是大模型应用中的一个环节而已。
    hero1874
        8
    hero1874  
       2024-04-23 10:48:05 +08:00
    数据湖和大模型这俩关系挂靠在一起,有点违和
    看你上面说的 AI Agent + RAG + 数据湖
    是把数据湖作为 RAG 的外部数据来源吗,数据湖里存一些非结构化的数据
    数据湖可以看看 Apache Paimon 这个倒支持流式读写,批读写,也支持 S3
    opengps
        9
    opengps  
       2024-04-23 10:49:02 +08:00   2
    先把数据湖改个名,叫对象存储,理解起来瞬间容易不少
    zlo309618100
        10
    zlo309618100  
       2024-04-23 11:08:59 +08:00
    啥是数据湖?文盲.jpg
    roidinev
        11
    roidinev  
       2024-04-23 11:12:05 +08:00
    是啊, 大模型的应用应该往垂直领域找。除非你想研究出论文:比如研究大模型对存储吞吐量/延迟的需求,优化数据湖等。
    wheat0r
        12
    wheat0r  
       2024-04-23 11:12:59 +08:00   5
    导师:我啥也不懂,你们弄好了挂我一作
    ZGame
        13
    ZGame  
       2024-04-23 11:15:39 +08:00
    首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点...
    mightybruce
        14
    mightybruce  
       2024-04-23 11:18:45 +08:00
    你的题目写得不对,数据湖和对象存储是两个东西
    大模型应用和这个也没有关系。
    要么导师误入子弟,要么导师没有说清楚,需要再次沟通。
    sampeng
        15
    sampeng  
       2024-04-23 11:19:45 +08:00
    灰常简单啊。。
    搭个 mysql 。咯。这就是数据糊
    o562dsRcFqYl375i
        16
    o562dsRcFqYl375i  
       2024-04-23 11:25:02 +08:00
    @CadonHo 正解
    yalin
        17
    yalin  
       2024-04-23 11:25:41 +08:00
    AWS 云方案?
    o562dsRcFqYl375i
        18
    o562dsRcFqYl375i  
       2024-04-23 11:26:46 +08:00
    c3de3f21
        19
    c3de3f21  
       2024-04-23 11:28:19 +08:00
    flink + paimon + trino [ connector + store + search]
    c3de3f21
        20
    c3de3f21  
       2024-04-23 11:29:41 +08:00
    @c3de3f21 收了数据有了实时数据流喂给模型?练个大模型?真是不是你说的 数据湖的大模型应用?应付一下吧
    deorth
        21
    deorth  
       2024-04-23 11:39:47 +08:00 via Android
    op:虽然完全不知道导师出的什么吊题目,但是我先问问网友
    nullboy
        22
    nullboy  
       2024-04-23 11:54:05 +08:00
    "数据湖" 这名字听起来怎么感觉怪怪的
    HughRyu
        23
    HughRyu  
       2024-04-23 12:19:08 +08:00
    我个人理解 Datalake 就是各个 Dataware 的集合,不能为了强行推 Datalake 概念而堆砌 Dataware 。
    ihnfsa
        24
    ihnfsa  
    OP
       2024-04-23 12:31:27 +08:00 via Android
    @deorth 哈哈哈是这样的,导师也不懂
    ihnfsa
        25
    ihnfsa  
    OP
       2024-04-23 12:34:23 +08:00 via Android
    @opengps 我的理解是数据湖要有个持久化的存储系统,可以是对象存储,也可以是 hdfs 这种
    ihnfsa
        26
    ihnfsa  
    OP
       2024-04-23 12:35:12 +08:00 via Android
    @hero1874 谢谢哥,我去看看
    ihnfsa
        27
    ihnfsa  
    OP
       2024-04-23 12:38:38 +08:00 via Android
    @ZGame 只是用现成的大模型,我也不会微调什么的
    ihnfsa
        28
    ihnfsa  
    OP
       2024-04-23 12:48:58 +08:00 via Android
    这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,但感觉这些查询系统放在湖里面有点强行了。
    VermouthcZzz
        29
    VermouthcZzz  
       2024-04-23 13:55:40 +08:00
    @ihnfsa 目前跟 AI/数据 相关的似乎向量数据库符合你的要求
    我最近在看向量搜索相关的内容 分享给你 希望你能获取一些灵感
    https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6
    mhycy
        30
    mhycy  
       2024-04-23 13:59:56 +08:00
    数据湖的大模型应用?是现有数据的 AI 标注再利用么?
    这东西和数据湖没啥关系啊,反正是个信息量足够大的东西都能称之为湖
    改个高大上名字罢了
    cbythe434
        31
    cbythe434  
       2024-04-23 14:20:11 +08:00
    重点是套大模型上去,数据湖不是重点
    随便云平台整个 mysql ,搞一套大数据一键部署下
    写的时候 replace_all("数仓","数据湖")
    ihnfsa
        32
    ihnfsa  
    OP
       2024-04-23 14:40:48 +08:00
    @VermouthcZzz 谢谢,好文章。
    b821025551b
        33
    b821025551b  
       2024-04-23 14:43:57 +08:00
    去年软考备考的时候还真看过这玩意,个人理解是这样的:
    目前的任何采用数据库的结构化存储方式,都不可以叫数据湖,而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。
    真要说什么是数据湖,可以理解成就是一个巨大的文件,里面存储着各种乱七八糟毫无章法的东西,结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下,重要的是如何去挖掘,而数据湖仅仅是一块硬盘,最重要的指标是 IO 速度,仅此而已。
    whileFalse
        34
    whileFalse  
       2024-04-23 14:56:07 +08:00 via Android
    数据湖就像你的磁盘,甭管是什么数据都一股脑丢进去,所以里面有各种不同格式的文件,相同格式的文件也有各种不同的数据结构

    然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引,然后再清洗、查询、可视化。

    以 aws 为例,s3 就是磁盘,通过 glue 来为不同的数据文件创建结构,通过 athena 和 redshift spectrum 查询,通过 quicksight 可视化(这玩意很垃圾),还有 lake formation 这种管理服务。
    jiangbao888
        35
    jiangbao888  
       2024-04-23 14:59:20 +08:00
    可以看下这个,感觉是你的需求。https://github.com/lakesoul-io/LakeSoul
    HkMuxxx
        36
    HkMuxxx  
       2024-04-23 15:16:30 +08:00
    数据湖本质也就是数仓吧,只是解决了传统数仓 upsert 的痛点
    ihnfsa
        37
    ihnfsa  
    OP
       2024-04-23 20:59:18 +08:00
    @jiangbao888 谢谢了,这是个好东西,我部署一下试试
    ihnfsa
        38
    ihnfsa  
    OP
       2024-04-23 21:06:20 +08:00
    @whileFalse 我理解的数据湖差不多就是这样,现在想自己部署一个,不然总有点知其表不知其里。
    930RC92EtcpqT2vM
        39
    930RC92EtcpqT2vM  
       2024-04-23 23:03:17 +08:00
    @b821025551b

    今天在做一个培训,才第一次听说 Datalake 。 概念和你说的差不多,DATAWH 是一些整理过的数据,Datalake 就是一些未处理过,等着挖掘的数据。
    dayeye2006199
        40
    dayeye2006199  
       2024-04-24 03:20:14 +08:00 via Android
    @wheat0r 这位教授您快请主席台入座
    yjhatfdu2
        41
    yjhatfdu2  
       2024-04-24 17:09:20 +08:00
    数据糊技术显然是为了写入和低成本优化的,查询速度会慢的离谱(正常场景下),例如使用 apache hudi ,即使使用了记录级索引,在 1TB20 亿行数据中使用索引取一行也要 12 秒,取 40000 行要 115 秒(来源 https://hudi.apache.org/blog/2023/11/01/record-level-index/),这在 RAG 的场景中简直是离谱
    yjhatfdu2
        42
    yjhatfdu2  
       2024-04-24 17:12:00 +08:00
    其实现在技术上几种数据糊技术核心的目的是解决传统 hadoop 系统中,parquet 等列存格式,难以支持 ACID 和事务的问题
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1231 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 77ms UTC 23:41 PVG 07:41 LAX 16:41 JFK 19:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86