2026 大模型部署框架终极选型指南 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
suke119
0D

2026 大模型部署框架终极选型指南

  •  
  •   suke119
    wangsrGit119 11 天前 2177 次点击
    懒人看板:

    总结:
    云端高性能选 TensorRT-LLM ,云端灵活性选 vLLM ,Agent 场景选 SGLang ,Mac 用户闭眼选 oMLX ,本地试错选 Ollama ,手机端选 MLC LLM ,国产算力选 LMDeploy 。
    11 条回复    2026-04-12 23:28:21 +08:00
    Curtion
        1
    Curtion  
       11 天前
    这是哪个 ai 总结的哦,把 Ollama 放进去了,但既没有 LM Studio 也没有 llama.cpp, 到底按什么分类算的。
    jetsung
        2
    jetsung  
       11 天前
    llama.cpp 呢?
    jimrok
        3
    jimrok  
       11 天前
    有没有适合端侧的框架,可以处理个人的知识库数据,深度信息还可以从云端更新知识库。
    suke119
        4
    suke119  
    OP
       11 天前
    @Curtion @jetsung 没放 llama cpp 以及 lm studio 是出于 大众的常识和方便程度而言,对于普通真实想要使用的人而言 要么快速上手 要么极致性能生产使用。如果换个角度 比如 测试模型或者 调试啥的 在 iot 设备等上 那最方便的还是 llama cpp.
    suke119
        5
    suke119  
    OP
       11 天前
    @jimrok 端侧一般说的是边缘设备,但是你的想法应该是个人私有本地使用,这种其实 ollama+graphrag 是最佳的,因为我们自己用最重要的是 准确,性能其实没必要多好的
    jetsung
        6
    jetsung  
       11 天前
    @suke119 ...不是。LLAMA.CPP 怎么也说不得不能快速上手吧?

    sudo -i
    V=b7885
    curl -LO https://github.com/ggml-org/llama.cpp/releases/download/$V/llama-$V-bin-ubuntu-x64.tar.gz
    rm -rf /usr/local/llama
    tar -zxvf llama-$V-bin-ubuntu-x64.tar.gz
    mv llama-$V /usr/local/llama
    rm -rf llama-$V-bin-ubuntu-x64.tar.gz

    ln -sf /usr/local/llama/* /usr/local/bin/
    ExplodingDragon
        7
    ExplodingDragon  
       11 天前
    ollama / LM Studio 本质还是 llama.cpp ,而且你这个不是框架/引擎对比吗,没太大参考价值
    ExplodingDragon
        8
    ExplodingDragon  
       11 天前
    回复快了 ( ollama 不适合,自从搞了所谓的 cloud 后新模型适配很慢了,还有 lm studio 是闭源的并且也是 llama.cpp ,不如直接用 llama.cpp ; 至于说使用复杂度,你都提到了 vllm 了,llama.cpp 那不是更简单,现在 llama.cpp 也可以去拉 hf 的模型了
    suke119
        9
    suke119  
    OP
       11 天前
    @jetsung @ExplodingDragon 你把角度放到专业和非专业上,专业的人员对于配置 vllm 或者 llama cpp 而言没什么区别,但是 考虑到部署是绝不会用 llama cpp 的,然后再回到非专业人员上,命令行都不懂,直接下载个 exe 安装多方便
    google2023
        10
    google2023  
       9 天前
    @Curtion 把 Ollama 放进去有什么问题么?
    Curtion
        11
    Curtion  
       9 天前
    @google2023 没问题啊,只是奇怪如果按实际使用终端分只有 Ollama 但是却没有 LM Studio ,如果按照底层框架分有 vLLM 但是却没有 llama.cpp ,所以我只是怀疑这个 AI 总结漏掉了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3700 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 04:37 PVG 12:37 LAX 21:37 JFK 00:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86