2026 大模型部署框架终极选型指南

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

懒人看板：

总结：
云端高性能选 TensorRT-LLM ，云端灵活性选 vLLM ，Agent 场景选 SGLang ，Mac 用户闭眼选 oMLX ，本地试错选 Ollama ，手机端选 MLC LLM ，国产算力选 LMDeploy 。

大模型

部署

框架

11 条回复 2026-04-12 23:28:21 +08:00

Curtion

11 天前

这是哪个 ai 总结的哦，把 Ollama 放进去了，但既没有 LM Studio 也没有 llama.cpp, 到底按什么分类算的。

jetsung

11 天前

llama.cpp 呢？

jimrok

11 天前

有没有适合端侧的框架，可以处理个人的知识库数据，深度信息还可以从云端更新知识库。

suke119

11 天前

@Curtion @jetsung 没放 llama cpp 以及 lm studio 是出于大众的常识和方便程度而言，对于普通真实想要使用的人而言要么快速上手要么极致性能生产使用。如果换个角度比如测试模型或者调试啥的在 iot 设备等上那最方便的还是 llama cpp.

suke119

11 天前

@jimrok 端侧一般说的是边缘设备，但是你的想法应该是个人私有本地使用，这种其实 ollama+graphrag 是最佳的，因为我们自己用最重要的是准确，性能其实没必要多好的

jetsung

11 天前

@suke119 ...不是。LLAMA.CPP 怎么也说不得不能快速上手吧？

sudo -i
V=b7885
curl -LO https://github.com/ggml-org/llama.cpp/releases/download/$V/llama-$V-bin-ubuntu-x64.tar.gz
rm -rf /usr/local/llama
tar -zxvf llama-$V-bin-ubuntu-x64.tar.gz
mv llama-$V /usr/local/llama
rm -rf llama-$V-bin-ubuntu-x64.tar.gz

ln -sf /usr/local/llama/* /usr/local/bin/

ExplodingDragon

11 天前

ollama / LM Studio 本质还是 llama.cpp ，而且你这个不是框架/引擎对比吗，没太大参考价值

ExplodingDragon

11 天前

回复快了 ( ollama 不适合，自从搞了所谓的 cloud 后新模型适配很慢了，还有 lm studio 是闭源的并且也是 llama.cpp ，不如直接用 llama.cpp ; 至于说使用复杂度，你都提到了 vllm 了，llama.cpp 那不是更简单，现在 llama.cpp 也可以去拉 hf 的模型了

suke119

11 天前

@jetsung @ExplodingDragon 你把角度放到专业和非专业上，专业的人员对于配置 vllm 或者 llama cpp 而言没什么区别，但是考虑到部署是绝不会用 llama cpp 的，然后再回到非专业人员上，命令行都不懂，直接下载个 exe 安装多方便

google2023

9 天前

@Curtion 把 Ollama 放进去有什么问题么？

Curtion

9 天前

@google2023 没问题啊，只是奇怪如果按实际使用终端分只有 Ollama 但是却没有 LM Studio ，如果按照底层框架分有 vLLM 但是却没有 llama.cpp ，所以我只是怀疑这个 AI 总结漏掉了