![]() | 1 HatMatrix 330 天前 但是 32B 的模型,你本地部署也不太容易呀 |
2 panxiuqing 330 天前 本地要什么硬件配置 |
![]() | 3 spkingr 330 天前 via Android 厉害,本地部署能跑动的配置最低得多少呢? |
![]() | 4 ShadowPower OP ![]() @HatMatrix 双 3090 或者一块 RTX8000 改散热就可以了,运行 8bit 量化版本,质量损失很小。 我觉得再过一两年可能会有价格低廉的消费级设备来跑。 很多处理器和显卡的架构设计都是两年之前就开始的,当时根本不会有本地 LLM 的需求。 没准将来的普通电脑都会有四通道内存,搭载高性能 NPU 而且针对 LLM 特别优化,同时还有配套的软件设施。 |
![]() | 5 ShadowPower OP @spkingr 如果追求运行速度,最低的话,都是整机售价一万多到两万的设备…… 门槛还是有点高。 |
6 zhmouV2 330 天前 Deepseek 确实深有同感 cursor 上用 ds 的 api 问题很严重 |
![]() | 7 kennylam777 330 天前 主在本地用量化跑吧? 有用 Continue 一 VSCode 插件用? |
8 Donaldo 330 天前 请问这个需要多少显存? |
![]() | 9 MakHoCheung 330 天前 |
![]() | 10 kennylam777 330 天前 @ShadowPower 哈哈帖就看到配置了, 3090 跑 8bit 量化感 VRAM 很充裕, 多出的 VRAM 就用起 context length, 我得之前用 Qwen 2.5 32B 8bit 量化, 在 3090 成 20K 也, 如今 Coder 版能用更大的 context window |
11 zhmouV2 330 天前 顺便看了下 ollama 上已经有各种量化版本了 https://ollama.com/library/qwen2.5-coder/tags 14b q2_k 应该是我本地 8G 显存能跑的极限了 有没有兄弟说说效果 |
![]() | 12 ShadowPower OP ![]() @kennylam777 我还没试过用 Continue ,改天有空的时候试试看 |
![]() | 13 ShadowPower OP ![]() @Donaldo 8bit 的权重有 30.29 GB ,再加上 context 的大小,40GB 应该足够了 |
![]() | 14 yanyuechuixue 330 天前 看了一下,如果用 INT4 的模型,4090 没问题了。精度损失也很少。 但问题是不可能将一块 4090 用在这上面。成本太高了,不考虑保护隐私的情况下,还不如订阅 ChatGPT. 4060Ti 16G 的价格比较低,我买了一块,这个可以用来“全职”部署 LLM, 但目前即便是 INT4 也无法跑在 16G 上。 也许 Windows 的共享显存会有用,但不知道速度会降低到多少。 |
![]() | 15 kennylam777 330 天前 @spkingr 淘上的 P40 很便宜, 能跑 32B 8bit 量化, N 卡的量化比 Apple Silicon 多, 也可以跑 fine-tuning 然比 3090 慢就是了 |
![]() | 16 ShadowPower OP @yanyuechuixue 共享显存不行,对 LLM 性能影响极大,因为 PCIe 带宽太小了。而且 4060Ti 还是 PCIe x8 接口…… |
![]() | 17 kennylam777 330 天前 @yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超了 dedicated VRAM 後性能大幅下降, 得不失 |
18 kzfile 330 天前 多卡独显只跑这个,性能有些过剩了。 大内存 mac 的话单人用应该还行 |
![]() | 19 liulicaixiao 330 天前 copilot 和 cursor 都能白嫖,我觉得本地大模型真的没有必要,除非你是断网开发 |
![]() | 20 F1Justin 330 天前 笔记本上用 ollama 跑了 Q4_K_M 量化的 2.5-coder ( 20GB ),推理速度感觉勉强可以接受 eval count: 383 token(s) eval duration: 52.807s eval rate: 7.25 tokens/s |
![]() | 21 yanyuechuixue 330 天前 @liulicaixiao cursor 怎么白嫖呀? |
![]() | 22 yanyuechuixue 330 天前 @F1Justin 纯 CPU 么? |
![]() | 23 kizunai 330 天前 ![]() 利好那些因为保密等原因,写代码的时候不能上网查资料的程序员。 现在只要在内网里面部署一个,开发效率大增 |
![]() | 24 liulicaixiao 330 天前 @yanyuechuixue 直接注册就行,新用户免费 14 天,用完重新注册一个就好 |
![]() | 25 liuliuliuliu PRO @liulicaixiao #19 copilot 怎么白嫖呀? |
![]() | 26 so1n 330 天前 32b 的话显卡和内存的要求也挺高的把...再加上自己的一些程序,基本要高配才能运行 |
![]() | 27 liulicaixiao 330 天前 @nikenidage1 用 edu 邮箱去 github 找学生包,学生权限里就有 copilot |
![]() | 28 spike0100 330 天前 |
![]() | 29 kennylam777 330 天前 ![]() 了一下, 4090 跑 Qwen2.5 32B coder exl2 4.25b 量化, 速度 32tokens/s, 配 VSCode Continue 能做不的"explain this code to me", Custom OpenAI API 之後用真的任看, 至少在知道 4bit 配 Continue 直接能用, 希望有能比一下 8bit 量化的分 |
![]() | 30 NouveauNom 330 天前 @zhmouV2 #6 我看了 cursor 当时没法用 Deepseek 的 api ,您是怎么设置的呢 |
![]() | 31 kennylam777 330 天前 @spike0100 Apple Silicon + 24GB 能跑 GGUF q3 吧, q4 可能也可以但有勉 |
32 yxhzhang185 330 天前 mac studio 64G 能跑吗,效果怎么样 |
![]() | 33 ooTwToo 330 天前 32B 的模型有点大,我想问下 通过 ollama 下载,有镜像加速吗? 太费梯子了。 |
![]() | 34 Liftman 330 天前 很好。早上还探讨这个事情的。要不要把 qwen coder 来一套本地。。。 |
35 xloger 330 天前 请教一下,本地 LLM 有哪些比较好玩或者有用的用法嘛? 比如如题所说,可以跑本地的 AI 代码提示,而且应该可以用更多的项目本身上下文,效果说不定比 Copilot 好。( Copilot 因为隐私设置,感觉它并没有怎么学我项目里的一些写法)。 再有一个是 Obsidian 的一些 AI 插件,这样可以读我笔记的数据且也不用担心隐私问题。 所以还有啥用法嘛~我最近也想搭一个试试 |
36 eric1 330 天前 |
![]() | 37 hutoer 330 天前 2 张 2080ti 22G ,价格不高,有条件的可以试试 |
![]() | 39 F1Justin 330 天前 @yanyuechuixue M2 Pro ,应该是有 Metal 加速的(? |
40 m1nm13 330 天前 |
![]() | 41 SoulSleep 330 天前 ![]() 没必要啊,直接阿里云百练开一个 api 就好了...部署模型的时间+硬件成本,够跑 10 年了...... QWen 2.5 Coder 刚出来就私有化部署了,云服务器成本 6k+/月,换成百练,一个月一两百块,用来做公司 gitlab 代码审查工具 |
![]() | 43 kennylam777 330 天前 @m1nm13 nat1 化的 jargon 也太欺 LLM 了吧? Local AI 用在 code review 一 RAG 的用途比好。 |
![]() | 44 kennylam777 330 天前 @SoulSleep 你 use case 是 Ops 方案啦, 租用 GPU 不是都了 fine-tuning ? 用完快掉的那, 6K 月你私有硬件了吧。初研用量? |
![]() | 45 beginor 330 天前 ![]() @kennylam777 continue 的本地话提示分两种, 一种是 tabAutocompleteModel 也就是写代码时的智能提示,这个本地模型推荐的是 starcoder2-3b.q8_0.gguf ,这个只有 3G 大小, 一般的显卡甚至 CPU 都可以跑,效果不错, 基本上每天都在用; 另一种是 chat , 也就是问答, 资源富裕的话跑 gemma 2 27b 或者 qwen 2.5 coder 32b 都可以这个规模的模型应对代码问答肯定没问题了;, 如果不富裕的话,跑个 7b/8b 的做问答也不是不行,但是效果肯定不如 27b/32b 规模的。 |
![]() | 46 JayZXu 330 天前 Qwen2.5 Coder 32B 确实挺好,能够配合 override 使用了 |
![]() | 48 9dP06m83vIV00l72 330 天前 Qwen2.5 Coder 32B 的代码质量已经很高了; 袋鼠数据库工具已经搭载 Ollama 提供了 Qwen2.5 Coder 32B 的本地化支持,并提供了数据库专有配套,体验还不错; |
49 Donaldo 330 天前 @kennylam777 #43 不会,测试了几个在线的和离线的,答的都不错。这种已经算是事实上的标准称呼了,没啥太难的。 |
![]() | 50 jianzhao123 330 天前 via iPhone @F1Justin 哥们你啥配置啊,我这 3050 4GB 跑个 Qwen 7B Q4 量化的都卡的一批 |
![]() | 51 wnanbei 330 天前 4060 8G 的笔记本跑了个 qwen2.5-coder:7b-instruct-q8_0 ,通过 continue 接入 vscode 用,感觉还可以 |
![]() | 52 kevan 330 天前 试试 B 站的 1GB 版本。我觉得本地部署很好了。 |
![]() | 53 F1Justin 330 天前 @jianzhao123 Apple 的 M2 Pro ,32G 统一内存() |
54 mintist 330 天前 冲一个 |
55 sampeng 330 天前 本地基本不太可能。只能做一些特别指向性的和 ai agent 配合的工作。开发,chat 这种通用性工作实在不划算,错误的提示影响编码节奏,也特别浪费心情。 我就算你显卡也好 mac 也好。算你 1 万额外成本不过分吧。 按 chatgpt 的 20 美金一个月算 1 万大洋约等于 7 年。其实一般 chatgpt 也用不上。。编码直接 github copilot 用已经无敌了。同样 1 万额外的支出能得到 10 多年的使用效果。我特别不理解本地跑 coder 的所谓效果为什么能接受。简直是天壤之别,尤其是现在 copilot 支持了 claude 。。我通常都是花很长时间描述我的输入和输出要求。本地?想都别想。。。自动提示本地那个 token 生成时间黄花菜都凉了。 |
![]() | 56 kennylam777 330 天前 @sampeng 有道理, 即使工作上要 deploy LLM 也先 ChatGPT/Claude API 按量付。 但於本就有 4090 和 3090 用玩的我, Local AI 就是用榨出有硬件值的玩法。 我相信 Apple Silicon 的玩法也是一的, 本就一台用, 看到免的 LLM 拿用起不必多一服。 |
57 Yadomin 330 天前 @ooTwToo 你需要 modelscope, https://modelscope.cn/models/Qwen/Qwen2.5-Coder-32B-Instruct |
58 sampeng 330 天前 via iPhone @kennylam777 local ai 不是完全不行,完成特定的任务是 ok 的。幻觉问题调试过程中很好解决。比如把文档总结一下,做一下自动归类,智能分析工作这类还是很 OK 的。只不过 code 啊,chat 啊这类需要及时响应,最大限度的不要出错,copilot 或者 chatgpt o1 才是最终解。何必自己为难自己。 |
59 SantinoSong 330 天前 @yanyuechuixue #14 魔改的 22g 3080 呢 |
![]() | 60 jianzhao123 330 天前 via iPhone @F1Justin 那没事了 |
61 trungdieu031 330 天前 配 64G 内存的主机,做下量化,完全可以跑 32B 的模型了。如果不特别追求速度的话也不用非得上两块 GPU~ |
62 WispZhan 330 天前 M3 MAX 128G 或者 M4 Ultra 128G 应该能勉强跑起来吧,只是 token 输出有点慢。 |
![]() | 63 GuryYu 330 天前 ![]() |
64 orangeD 330 天前 ![]() @spike0100 那手头的机器刚测了一下,Qwen2.5 32b 模型 M4Pro 高配+48G 内存上能达到 10.55tokens/s ,M1Pro 高配+32G 内存 :6.83 tokens/s ![]() |
65 yinmin 330 天前 问:你使用哪个 AI 模型?是哪个公司开发的? 回答的结果有点出乎意料,又有点意料之中。2024 年末训练出来的 AI 还出这种情况,汗~ |
![]() | 66 emberzhang 330 天前 @orangeD 我刚才拿 m2 max 跑 qwen2.5:32b 是 11.04 toks ,这个 toks 没法用代码补完的,根本等不到出字。chat 的话倒是基本没问题 @yanyuechuixue 显存爆了之后直接扑街,刚才拿 4070tis+8845hs+5600mhz 内存,qwen2.5:32b 只有 6.00 toks |
67 chachi 330 天前 m4max qwen2.5 coder 32B Q8 MLX 12.94 tok/sec |
68 234ygg 330 天前 ![]() 别搞笑了,连 3.5 都远不如,还和 4o 比。。。只能说你写的代码毫无价值 |
69 csys 330 天前 这个确实很不错,主要是 32B 刚好碰到了本地部署的门槛了 |
70 Ayahuasec 330 天前 手头在用 2080ti 22g 跑,32b q4_k_s 性能大概是 prompt_token/s: 475.37, response_token/s: 23.82 qwen2.5-coder-32b 的输出感觉和 qwen2.5-32b 差不太多,之前耍 qwen2.5 已经觉得有很高的可用性了 |
![]() | 71 ShadowPower OP @234ygg 3.5 没有你想象中那么强,目前 7B 参数量就有 3.5 的能力。3.5 只能写一些模板代码,或者提供代码给它做一些调整,写不出有点深度的东西。 只是在那个从 0 到 1 的时期显得非常惊艳罢了。 |
![]() | &bsp; 72 ShadowPower OP @WispZhan M3 MAX 128G 可以随便跑,估计还挺快的。M4 Ultra 还没发布呢…… |
73 leo72638 330 天前 请问怎么确定自己的硬件适合什么模型 |
![]() | 74 cooltechbs 329 天前 via Android ![]() 原来 DeepSeek 本身就有循环输出一个单词的问题啊。我还以为是我 finetune 搞坏了... |
76 fox0001 329 天前 via Android 本地化部署的话,lm studio 给我打开了新世界 |
77 dimondai 329 天前 本地上 MAC Mini M4 能跑了吧? |
![]() | 81 nutting 329 天前 24G 显存的 p40 显卡能玩吗 |
![]() | 82 yanyuechuixue 329 天前 |
![]() | 83 Loocor 329 天前 哈哈,今天我也有这样的感概,不过不实用 32b 而是 7b ,因为我手上的机器是 m3 16Gb Macbook Air... 实际跑下来的速度可以接受,12.69 tok/sec 而电脑 cpu/mem 占用没超过 50% 所以 m4 / m4 pro 就可以期待了 |
![]() | 84 yanyuechuixue 329 天前 @yanyuechuixue ok 找到了,谢谢! |
![]() | 86 beginor 329 天前 看来 M1 Max 还是很能打的嘛, 本地用 llama.cpp 跑 qwen2.5-coder-32b-instruct-q8_0.gguf 结果如下: ``` prompt eval time = 2354.87 ms / 117 tokens ( 20.13 ms per token, 49.68 tokens per second) eval time = 71813.88 ms / 521 tokens ( 137.84 ms per token, 7.25 tokens per second) total time = 74168.75 ms / 638 tokens srv update_slots: all slots are idle request: POST /chat/completions 127.0.0.1 200 ``` 自己用的话还是可以的,继续等 M5 、M6 、M7 ... |
![]() | 87 beginor 329 天前 @emberzhang 补全代码用 starcoder2-3b.q8_0.gguf 就好,超过 7b 的都是浪费。chat 可以再跑一个大一点儿的 |
![]() | 88 glcolof 329 天前 32B 使用 4bit 量化,可以在 4090 上比较流畅的跑了。但是上下文长度可能跑不到 128K ,我还没试过。 其实 14B 的模型也很有可用性了。 |
![]() | 89 kennylam777 329 天前 @yanyuechuixue 你是 exl2 的量化吧? 我用, bartowski 家的 exl2 量化很多。 https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2 model 大家都用的 Instruct 版, Base model SFT 不好用。 @glcolof 我在 Windows 跑 4.25b 量化, 20K 是的, 省其他的可能 30K 也行, 但我也 YARN 就是了。 |
![]() | 91 9 329 天前 本地大模型纯折腾,现在网上这么多好用的 |
92 WispZhan 329 天前 @ShadowPower M4 Ultra 快了,不是这个月底,就是下个月。和 Studio 一起吧 |
![]() | 95 yanyuechuixue 329 天前 @kennylam777 不好意思,我是个新手,能否请教您一下,不同的量化有什么不同呀? 例如 exl2 量化,W4A16 量化 , GPTQ 量化,他们的性能会有比较大的不同么? 我现在简单起见,直接用了 ollama 给出的 Int4 ,想去挑一个好的 |
![]() | 96 clino 329 天前 @zhmouV2 我在 cursor 上用 deepseek 感觉还挺好,你说的是哪方面问题? 是不是我很多时候是在用 ctrl+k 做局部代码迭代,所以比较没有碰到你们说的这些问题。 |
![]() | 97 kennylam777 328 天前 @yanyuechuixue 不同量化方案各有千秋, 主要分是硬件支援, 表也各有不同。 例如 exl2 是我用最快的方案, 而且量化比多. 4bit 以外有 5/5.5/6bit 等等, 我比容易一好塞 4090 的配搭。是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援件不足, 也不能配 PEFT, 所以只能用跑推理。 GPTQ 是只有 4bit 和 8bit , VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好是支援件比多, 而且能直接用 PEFT 做 LoRA 微。 GGUF 用, 但我知道 Apple Silicon 的用家都是靠它的量化。 其有 bitsandbytes 的量化, 直接入原 model 的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微的, bitsandbytes 是最通用的方案。 |
![]() | 98 yanyuechuixue 326 天前 |