- 项目想读取多种类型的文本,比如 doc,md,xlsx 等文件的内容
- 将其向量化后,存储到向量数据库

1 Haku Jan 11, 2024 人肉分割。别笑,我们公司就是这么干的,效果不说有多好,但是起码比机械地按句子标点符号啥的分割要好很多。 一定要程序来分割的话,可以直接交给 AI 然后按照语义分割试试。 |
2 LuffyPro OP 谢谢回复,确实,感觉绝大部分 ai 应用还是专用型,专用型一般是特定场景,语义分割时的约束比较好定义,人工分割也简单些,比较适合初期落地。 这是我找到的别人的回复: https://zhuanlan.zhihu.com/p/673906072 ,共勉。 PS:新号 注册 15 天后才能回复 |
3 shm7 Feb 27, 2024 按照句子分割,再长的按照分句分割。中英那么多标点符号呢。NLPer 的祖传技能了。 |
4 IanG Feb 28, 2024 SpacyTextSplitter |
5 LuffyPro OP |