
配置为 m1max 64g+1T ,最近搞了个小小龙虾,消耗的 token 太快了,打算部署各本地模型,一来了解了解,而来是想做下简单的翻译、文档处理的工作。能有合适的本地模型吗?
1 zenfsharp 1h 16m ago Gemma4-31b-it-q8_0 ,记得开满 256Context 窗口,也用 Q8 质量压缩。 |
2 huaweii 1h 16m ago via Android qwen3.6 系列,你 64gb 的选择挺多的。你去 hf 上把你的型号输入进去让他给你选个合适的压缩模型就行 |
3 xFrye 1h 13m ago https://ollama.com/blog/mlx 看看这个合适不 |
4 sentinelK 1h 6m ago mlx 的 qwen3.6-35B-A3B 试试看 |
6 rrubick 40 mins ago via iPhone 用 LM sutio ,它会根据你的内存大小标记合适的模型。注意由于模型需要常驻内存,不要卡着上限 |