推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上 - V2EX
Hermitist

推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上

  •  
  •   Hermitist 9 days ago 2202 views
    18 replies    2026-05-08 10:29:51 +08:00
    ddddad
        1
    ddddad  
       8 days ago
    挺好,给出模型评分参考就更好了
    tanglinchuanz
        2
    tanglinchuanz  
       7 days ago
    好东西
    shiyuu
        3
    shiyuu  
       7 days ago
    上面的推理速度就图个乐,实际只有 1/3 ,至少我选了自己用的显卡和模型对比了一下,而且我还是部署的量化版
    jifengg
        4
    jifengg  
       5 days ago
    选了我在用的硬件和模型,估算出来的速度倒是蛮接近的。
    clemente
        5
    clemente  
       5 days ago
    没用
    clemente
        6
    clemente  
       5 days ago
    实际部署性能影响的因素蛮多的
    diudiuu
        7
    diudiuu  
       5 days ago
    @shiyuu 兄弟看下参数,模型还有先看我去看下实际效果
    midraos
        8
    midraos  
       5 days ago
    不太准确,我在 amd 7950x + nvidia 5080 上部署的 qwen 3.6 35b a3b 模型,速度能达到 40t/s
    diudiuu
        9
    diudiuu  
       5 days ago
    @midraos
    https://tps.bunai.cc/?gpu=rtx5080&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int3&ctx=16384&pl=1024&ol=1024&fw=theory&pcie=gen4&co=1

    我在别人得帖子回复我得东西,老哥你采用什么方式部署得 nvidia 5080 ,我看理论是 39
    midraos
        10
    midraos  
       5 days ago
    @diudiuu #9 直接用的 lm studio ,用的 Q6 量化,通过调整配置,将 MOE 层部署在 cpu ,通用层部署在显卡,这样做比使用低量化的效果好,比在 CPU 部署的速度快,上下文大小能达到 128k 以上,token 生成速度有 40t/s
    diudiuu
        11
    diudiuu  
       5 days ago
    @midraos 有个疑问采用--n-gpu-layers 还是--n-cpu-moe 这个哪个参数,我用公式--n-cpu-moe 理论跟你的差不多,希望能给看下真实的部署参数,目前是按照--n-gpu-layers 分层计算的

    可以把图 https://github.com/adiudiuu/tps/issues 放在这
    diudiuu
        12
    diudiuu  
       4 days ago
    @midraos
    https://tps.bunai.cc/?gpus=rtx5080%3A1&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int6&ctx=16384&pl=1024&ol=1024&fw=llamacpp&pcie=gen5&co=1&pw=x16

    其实系统已经有这个逻辑,判断有点问题,已经修复了
    详细可以看 https://github.com/adiudiuu/tps/issues/2 这个,我已经总结了

    多提问题就当学习了
    Hermitist
        13
    Hermitist  
    OP
       4 days ago
    @diudiuu 原来你是这个产品作者啊, 失敬失敬, 这个软件用什么做的? 可以用来做一些推荐站, 方便留个联系方式吗?
    diudiuu
        14
    diudiuu  
       4 days ago
    @Hermitist

    https://github.com/adiudiuu/tps
    代码是全公开的,vue 前端写法。
    算法是一边看一边学,大部分还是 ai+实际帖子例子。
    beginor
        15
    beginor  
       4 days ago
    算法不太准确,比实际的高很多,M1Max 用户路过
    Hermitist
        16
    Hermitist  
    OP
       4 days ago
    @diudiuu 这个直接是页面? 没有后台管理系统?
    diudiuu
        17
    diudiuu  
       3 days ago
    @Hermitist 单页面应用,没有管理后台,纯靠 js 算出来的
    diudiuu
        18
    diudiuu  
       3 days ago
    @beginor 希望提供下真实数据,我瞅瞅算法
    About     Help     Advertise     Blog     API     FAQ     Solana     1019 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 66ms UTC 22:29 PVG 06:29 LAX 15:29 JFK 18:29
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86