请教一个 RAG 相关的问题,求解惑 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
elza
V2EX    程序员

请教一个 RAG 相关的问题,求解惑

  •  
  •   elza 2024-08-08 14:17:39 +08:00 2172 次点击
    这是一个创建于 436 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近,在看一些 RAG 相关的内容,但在实操的时候发现生成的内容有些不尽人意。

    第一个想到的点就是提供的原始数据有问题。比如,直接上传一本 <斗破苍穹.txt> 的小说,然后进行文本 chunk ,接着就是后面的流程,但效果就是脏数据进,脏数据出。

    疑惑,是不是不应该直接使用原始数据,而是需要对数据进行处理。

    但是怎么进行处理呢,比如 <斗破苍穹.txt> 这个小说,是要人工的总结里面的内容变为 Q&A 这种问答型结构在存储到知识库里面(这样做是不是工程量太大),还是要怎么样。

    所以针对原始数据的数据清洗这一块要怎么做?清洗成什么样的结构给到知识库才能产生更好的效果。

    10 条回复    2024-08-08 15:24:10 +08:00
    cinlen
        1
    cinlen  
       2024-08-08 14:23:27 +08:00
    现有流程是啥?分段 -> text embeding -> 向量数据库 -> rerank -> llm ?
    elza
        2
    elza  
    OP
       2024-08-08 14:28:28 +08:00
    @cinlen 是的,现有的流程和你讲的差不多。但里面有很多细节。其中最重要的就是数据清洗这一块,直接决定了生成数据的质量。现在的问题是直接对原始数据进行分段,提问得到的效果并不好。怎么对原始数据进行清洗或者变换为某种结构,在进行分段会好一点呢?
    kneo
        3
    kneo  
       2024-08-08 14:30:44 +08:00 via Android
    别抱太大期待。单纯基于 RAG 做通用问答系统,现状就是你说的“不尽人意”。
    SunnyRain
        4
    SunnyRain  
       2024-08-08 14:31:39 +08:00
    换一个中文的 embedding 模型试试看
    elza
        5
    elza  
    OP
       2024-08-08 14:31:41 +08:00
    cinlen
        6
    cinlen  
       2024-08-08 14:31:58 +08:00
    SunnyRain
        7
    SunnyRain  
       2024-08-08 14:35:53 +08:00
    或者试试 GraphRAG ,我看官方给的例子跟你的需求差不多。GraphRAG 每一段 chunk 会有知识图谱关联,索引出来的内容关联性更高一些。
    elza
        8
    elza  
    OP
       2024-08-08 14:41:13 +08:00
    @SunnyRain 感谢,我去看看
    yuhr123
        9
    yuhr123  
       2024-08-08 15:07:20 +08:00
    GraphRAG 的关系图应该可以满足楼主的需要,只是这个东西对 embedding 的消耗会比较大,每次新增内容都会重新计算它与现有资源的关系。增长不是线性的,但 token 消耗量会有相对固定的模式。比如最近一次的消耗量是 50k token ,要新增一个 2000 字的文本文件,它也可能会有 50k 左右的消耗(主要取决于内容的关联度,不是一定的)。

    简言之,对计算资源的消耗要有心理准备,但值得一试。
    GrayXu
        10
    GrayXu  
       2024-08-08 15:24:10 +08:00
    只是 llm 提取成 q&a 的话,细节会丢失很多(参考 fastgpt 的实现)。
    现在最优解应该还是 graphrag 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2793 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 07:04 PVG 15:04 LAX 00:04 JFK 03:04
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86