导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?
1 dayeye2006199 2024-04-23 09:48:53 +08:00 via Android 什么是数据湖的大模型应用?两个名词堆一块儿了? |
![]() | 2 ihnfsa OP @dayeye2006199 我也只知道几个关键字,AI Agent + RAG + 数据湖 |
![]() | 3 dog82 2024-04-23 09:56:22 +08:00 数据湖炒概念的成分更大,我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点,楼主去看看 http://www.moojnn.com/product-center/publicinto.html |
5 yjhatfdu2 2024-04-23 10:18:15 +08:00 开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ,但这玩意儿都还是适合写入为主,偶尔批量计算的场景,不适合实时查询,和 AI Agent 、RAG 有啥关系? |
![]() | 6 ihnfsa OP @yjhatfdu2 我也没搞清楚,现在想的是能不能把 Text2SQL 用在湖上一些查询系统上,类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent |
![]() | 7 CadonHo 2024-04-23 10:35:12 +08:00 数据湖就是一个存储,特点就是各种数据格式都能存。不过有一说一,大模型的应用不是应该往垂直领域找么,这个跟数据湖关系不大吧,数据湖就是大模型应用中的一个环节而已。 |
![]() | 8 hero1874 2024-04-23 10:48:05 +08:00 数据湖和大模型这俩关系挂靠在一起,有点违和 看你上面说的 AI Agent + RAG + 数据湖 是把数据湖作为 RAG 的外部数据来源吗,数据湖里存一些非结构化的数据 数据湖可以看看 Apache Paimon 这个倒支持流式读写,批读写,也支持 S3 |
![]() | 9 opengps 2024-04-23 10:49:02 +08:00 ![]() 先把数据湖改个名,叫对象存储,理解起来瞬间容易不少 |
10 zlo309618100 2024-04-23 11:08:59 +08:00 啥是数据湖?文盲.jpg |
11 roidinev 2024-04-23 11:12:05 +08:00 是啊, 大模型的应用应该往垂直领域找。除非你想研究出论文:比如研究大模型对存储吞吐量/延迟的需求,优化数据湖等。 |
![]() | 12 wheat0r 2024-04-23 11:12:59 +08:00 ![]() 导师:我啥也不懂,你们弄好了挂我一作 |
13 ZGame 2024-04-23 11:15:39 +08:00 首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点... |
![]() | 14 mightybruce 2024-04-23 11:18:45 +08:00 你的题目写得不对,数据湖和对象存储是两个东西 大模型应用和这个也没有关系。 要么导师误入子弟,要么导师没有说清楚,需要再次沟通。 |
15 sampeng 2024-04-23 11:19:45 +08:00 灰常简单啊。。 搭个 mysql 。咯。这就是数据糊 |
16 o562dsRcFqYl375i 2024-04-23 11:25:02 +08:00 @CadonHo 正解 |
![]() | 17 yalin 2024-04-23 11:25:41 +08:00 AWS 云方案? |
18 o562dsRcFqYl375i 2024-04-23 11:26:46 +08:00 |
![]() | 19 c3de3f21 2024-04-23 11:28:19 +08:00 flink + paimon + trino [ connector + store + search] |
21 deorth 2024-04-23 11:39:47 +08:00 via Android op:虽然完全不知道导师出的什么吊题目,但是我先问问网友 |
22 nullboy 2024-04-23 11:54:05 +08:00 "数据湖" 这名字听起来怎么感觉怪怪的 |
![]() | 23 HughRyu 2024-04-23 12:19:08 +08:00 我个人理解 Datalake 就是各个 Dataware 的集合,不能为了强行推 Datalake 概念而堆砌 Dataware 。 |
![]() | 25 ihnfsa OP @opengps 我的理解是数据湖要有个持久化的存储系统,可以是对象存储,也可以是 hdfs 这种 |
![]() | 28 ihnfsa OP 这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,但感觉这些查询系统放在湖里面有点强行了。 |
29 VermouthcZzz 2024-04-23 13:55:40 +08:00 @ihnfsa 目前跟 AI/数据 相关的似乎向量数据库符合你的要求 我最近在看向量搜索相关的内容 分享给你 希望你能获取一些灵感 https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6 |
![]() | 30 mhycy 2024-04-23 13:59:56 +08:00 数据湖的大模型应用?是现有数据的 AI 标注再利用么? 这东西和数据湖没啥关系啊,反正是个信息量足够大的东西都能称之为湖 改个高大上名字罢了 |
31 cbythe434 2024-04-23 14:20:11 +08:00 重点是套大模型上去,数据湖不是重点 随便云平台整个 mysql ,搞一套大数据一键部署下 写的时候 replace_all("数仓","数据湖") |
![]() | 32 ihnfsa OP @VermouthcZzz 谢谢,好文章。 |
![]() | 33 b821025551b 2024-04-23 14:43:57 +08:00 去年软考备考的时候还真看过这玩意,个人理解是这样的: 目前的任何采用数据库的结构化存储方式,都不可以叫数据湖,而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。 真要说什么是数据湖,可以理解成就是一个巨大的文件,里面存储着各种乱七八糟毫无章法的东西,结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下,重要的是如何去挖掘,而数据湖仅仅是一块硬盘,最重要的指标是 IO 速度,仅此而已。 |
34 whileFalse 2024-04-23 14:56:07 +08:00 via Android 数据湖就像你的磁盘,甭管是什么数据都一股脑丢进去,所以里面有各种不同格式的文件,相同格式的文件也有各种不同的数据结构 然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引,然后再清洗、查询、可视化。 以 aws 为例,s3 就是磁盘,通过 glue 来为不同的数据文件创建结构,通过 athena 和 redshift spectrum 查询,通过 quicksight 可视化(这玩意很垃圾),还有 lake formation 这种管理服务。 |
![]() | 35 jiangbao888 2024-04-23 14:59:20 +08:00 可以看下这个,感觉是你的需求。https://github.com/lakesoul-io/LakeSoul |
![]() | 36 HkMuxxx 2024-04-23 15:16:30 +08:00 数据湖本质也就是数仓吧,只是解决了传统数仓 upsert 的痛点 |
![]() | 37 ihnfsa OP @jiangbao888 谢谢了,这是个好东西,我部署一下试试 |
![]() | 38 ihnfsa OP @whileFalse 我理解的数据湖差不多就是这样,现在想自己部署一个,不然总有点知其表不知其里。 |
![]() | 39 930RC92EtcpqT2vM 2024-04-23 23:03:17 +08:00 |
40 dayeye2006199 2024-04-24 03:20:14 +08:00 via Android @wheat0r 这位教授您快请主席台入座 |
41 yjhatfdu2 2024-04-24 17:09:20 +08:00 数据糊技术显然是为了写入和低成本优化的,查询速度会慢的离谱(正常场景下),例如使用 apache hudi ,即使使用了记录级索引,在 1TB20 亿行数据中使用索引取一行也要 12 秒,取 40000 行要 115 秒(来源 https://hudi.apache.org/blog/2023/11/01/record-level-index/),这在 RAG 的场景中简直是离谱 |
42 yjhatfdu2 2024-04-24 17:12:00 +08:00 其实现在技术上几种数据糊技术核心的目的是解决传统 hadoop 系统中,parquet 等列存格式,难以支持 ACID 和事务的问题 |