推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上

GPU

推理

模型

18 replies 2026-05-08 10:29:51 +08:00

1

ddddad

8 days ago

挺好，给出模型评分参考就更好了

2

tanglinchuanz

7 days ago

好东西

3

shiyuu

7 days ago

上面的推理速度就图个乐，实际只有 1/3 ，至少我选了自己用的显卡和模型对比了一下，而且我还是部署的量化版

4

jifengg

5 days ago

选了我在用的硬件和模型，估算出来的速度倒是蛮接近的。

5

clemente

5 days ago

没用

6

clemente

5 days ago

实际部署性能影响的因素蛮多的

7

diudiuu

5 days ago

@shiyuu 兄弟看下参数，模型还有先看我去看下实际效果

8

midraos

5 days ago

不太准确，我在 amd 7950x + nvidia 5080 上部署的 qwen 3.6 35b a3b 模型，速度能达到 40t/s

9

diudiuu

5 days ago

@midraos
https://tps.bunai.cc/?gpu=rtx5080&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int3&ctx=16384&pl=1024&ol=1024&fw=theory&pcie=gen4&co=1

我在别人得帖子回复我得东西，老哥你采用什么方式部署得 nvidia 5080 ，我看理论是 39

10

midraos

5 days ago

@diudiuu #9 直接用的 lm studio ，用的 Q6 量化，通过调整配置，将 MOE 层部署在 cpu ，通用层部署在显卡，这样做比使用低量化的效果好，比在 CPU 部署的速度快，上下文大小能达到 128k 以上，token 生成速度有 40t/s

11

diudiuu

5 days ago

@midraos 有个疑问采用--n-gpu-layers 还是--n-cpu-moe 这个哪个参数,我用公式--n-cpu-moe 理论跟你的差不多,希望能给看下真实的部署参数,目前是按照--n-gpu-layers 分层计算的

可以把图 https://github.com/adiudiuu/tps/issues 放在这

12

diudiuu

4 days ago

@midraos
https://tps.bunai.cc/?gpus=rtx5080%3A1&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int6&ctx=16384&pl=1024&ol=1024&fw=llamacpp&pcie=gen5&co=1&pw=x16

其实系统已经有这个逻辑，判断有点问题，已经修复了
详细可以看 https://github.com/adiudiuu/tps/issues/2 这个，我已经总结了

多提问题就当学习了

13

Hermitist

OP

4 days ago

@diudiuu 原来你是这个产品作者啊, 失敬失敬, 这个软件用什么做的? 可以用来做一些推荐站, 方便留个联系方式吗?

14

diudiuu

4 days ago

@Hermitist

https://github.com/adiudiuu/tps
代码是全公开的，vue 前端写法。
算法是一边看一边学，大部分还是 ai+实际帖子例子。

15

beginor

4 days ago

算法不太准确，比实际的高很多，M1Max 用户路过

16

Hermitist

OP

4 days ago

@diudiuu 这个直接是页面? 没有后台管理系统?

17

diudiuu

3 days ago

@Hermitist 单页面应用，没有管理后台，纯靠 js 算出来的

18

diudiuu

3 days ago

@beginor 希望提供下真实数据，我瞅瞅算法