AI(大模型)本地化项目 和 部署设备 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Int100
V2EX    Local LLM

AI(大模型)本地化项目 和 部署设备

  •  
  •   Int100 2024-01-11 04:31:46 +08:00 4609 次点击
    这是一个创建于 639 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问一下各位都是怎么"AI(大模型)本地化"的?

    有没有一些推荐的项目?例如 hugging face ,localai 。

    另外大家的本地模型都是跑在什么设备上?直接 Linux 服务器 + Nvidia 显卡吗?

    手头的设备是 MacBook Pro M3, 尝试跑一些编译的时候经常因为 arm64 架构出错。

    6 条回复    2024-01-11 16:43:03 +08:00
    slowgen
        1
    slowgen  
       2024-01-11 07:32:38 +08:00   20
    客户端
    https://lmstudio.ai/ 界面布局合理,功能也 ok 。
    https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
    都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

    模型
    https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

    设备
    m2 ultra 76-core 192gb 官翻版

    推荐模型
    https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
    https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
    https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
    https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


    其它推荐
    https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
    https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
    https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
    shawndev
        2
    shawndev  
       2024-01-11 10:01:12 +08:00   1
    能用 cuda 还是用 cuda ,以下转自自己的推特:

    换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景,13700K 1it/s ,4090 30it/s ,M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现,其中 M2 Max 使用 mps 后端(但未验证是否所有 operator 都支持 mps )。
    MonTubasa
        3
    MonTubasa  
       2024-01-11 11:25:42 +08:00   3
    曾经我也很苦恼这个问题,大部分时间用的云服务器。直到有一天我老婆送了我一张 4090
    Alias4ck
        4
    Alias4ck  
       2024-01-11 11:58:03 +08:00   2
    mac 有个傻瓜的,原理是基于 llama.cpp 和 docker ,偏命令行,对命令行情有独钟的可以试试(它也支持 linux

    ollama( https://ollama.ai/)
    Lockroach
        5
    Lockroach  
       2024-01-11 12:47:14 +08:00   1
    llama.cpp ,直接配合其他文件运行大模型
    Int100
        6
    Int100  
    OP
       2024-01-11 16:43:03 +08:00
    @shuimugan 这是我在 v2 上看到的质量最高的回复!感谢分享!

    @shawndev @MonTubasa @Lockroach @Alias4ck 谢谢分享,我这去试试。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     932 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 22:20 PVG 06:20 LAX 15:20 JFK 18:20
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86