关于在本地部署开源模型的一些问题请教 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ddvswgg
V2EX    Local LLM

关于在本地部署开源模型的一些问题请教

  •  
  •   ddvswgg 2024-08-12 17:25:57 +08:00 1895 次点击
    这是一个创建于 424 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好,我之前没有这方面的经验,但现在有个小的 project ,想请教咨询一下大家。大致上来说,我有一个 node ,为 40G A100 + 128GB 内存,需要部署的是通义千问 7B 。

    1. 这个配置跑这样的模型 ok 吗?
    2. 想找部署在远端的 node 上的教程,搜索什么关键词比较好?
    3. 这样的部署,大概需要多长的时间呢?
    4. 假设部好了,想从外部访问怎么做到呢?
    5. 如果再加上 RAG 的话,难度/时间大概是什么样的?
    6. 有没有其它需要注意的地方?

    目前看的教程感觉有点乱,希望大家指导,谢谢各位

    9 条回复    2024-08-13 17:42:35 +08:00
    ztm0929
        1
    ztm0929  
       2024-08-12 17:34:38 +08:00 via iPhone
    仔细翻一下 ollama 的文档,应该能解决你的问题,可以实现 API 访问
    https://github.com/ollama/ollama
    312ybj
        2
    312ybj  
       2024-08-12 17:36:56 +08:00
    1. 7B ,7*4 大概要 28G 显存,加上一些推理时的消耗,40G 也够了
    2. 你去魔塔社区或者 hugging face 直接搜索 tongyi 7B, 有直接运行的测试代码,不过没有超参调节,需要你自己后续加
    3. 看你的需求了,因为还有一些上下文配置,超参调节,终止词配置等等,很多细枝末节,你应该先跑起来
    aiqinxuancai
        3
    aiqinxuancai  
       2024-08-12 17:37:15 +08:00
    7b 拿用的上 A100 ,72B 吧?
    312ybj
        4
    312ybj  
       2024-08-12 17:37:26 +08:00
    4. 外部访问,你再用 fastapi + sse 就能流失返回数据了
    312ybj
        5
    312ybj  
       2024-08-12 17:38:25 +08:00
    5. 你先把部署弄好再说,如果你要简单的 RAG ,去看 langchain ,有现成的开源的,看能不能直接用
    clvin
        6
    clvin  
       2024-08-12 17:58:13 +08:00
    1. 40G 可以跑 7B 的模型。
    2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
    3. 熟练的话就很快,不熟的话照着文档来部署。
    4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
    5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
    6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
    cinlen
        7
    cinlen  
       2024-08-12 18:05:53 +08:00
    ollama + dify
    zoharSoul
        8
    zoharSoul  
       2024-08-13 10:26:15 +08:00
    我顺便想问下
    这种自己部署出来的 api 并发请求能支持多大的 qps 啊?
    CynicalRose
        9
    CynicalRose  
       2024-08-13 17:42:35 +08:00
    ollama 在今年四月之前,还是单服务单线程运行,现在已经支持多线程了,需要在服务启动前加参数。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     923 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:19 PVG 06:19 LAX 15:19 JFK 18:19
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86