希望用于给用户回答问题,检索出信息,类似回答下答案,给他下来源哪儿篇指导手册之类的,要私有化,不依赖外部 api 。
目前已知的基于 Embedding+RAG+LLM 的类似工作流的系统有 Dify Langchain fastgpt 之类的,但是这些下游 LLM 服务消耗的资源太大了,看起来简单的 LLM 模型都得一个 16G 显卡,这个成本有点高
现在有这些问题
可以找到的相关帖子 https://cn.v2ex.com/t/999563
1 fredweili 2024-06-21 09:46:03 +08:00 llama3 8b 资源要求不高,m1 pro 16g 就能跑了,效果也还行 |
![]() | 2 ladeo 2024-06-21 11:47:28 +08:00 |
![]() | 4 MoYi123 2024-06-21 13:55:05 +08:00 ![]() B 站前几天开源的这个 https://github.com/bilibili/Index-1.9B 配置要求应该挺低的. |
![]() | 5 shengkai 2024-06-21 15:15:28 +08:00 可以用 Coze 搭一个试试: https://www.coze.cn/docs/guides/product_knowledge_bot |
![]() | 6 shengkai 2024-06-21 15:17:04 +08:00 对不起粗心没注意要私有化,上面回答的请忽略… |
7 jianchang512 2024-06-21 15:22:43 +08:00 ![]() |
8 jianchang512 2024-06-21 15:23:25 +08:00 api 可使用本地部署大模型 |
![]() | 9 RandomJoke 2024-06-21 16:03:08 +08:00 目前这些工作流系统都大差不差,可选择的也挺多的,LZ 想要的是低成本的 LLM ,这个目前来说就没有,meta 开源的 llama3 已经算是消费级显卡上能玩了,本质上 LLM 目前来说就是得靠 GPU 。现阶段比较好的方案就是如果轻量使用,则调用大厂的 API ,不然想要低成本玩转还是很困难的 |
![]() | 10 wheat0r 2024-06-21 16:29:25 +08:00 等浏览器内置模型普及了,在客户端跑 |
![]() | 11 MrDarnell 2024-07-22 09:02:06 +08:00 @jianchang512 你这个不是还要接第三方么? |