
1 ddddad 8 days ago 挺好,给出模型评分参考就更好了 |
2 tanglinchuanz 7 days ago 好东西 |
3 shiyuu 7 days ago 上面的推理速度就图个乐,实际只有 1/3 ,至少我选了自己用的显卡和模型对比了一下,而且我还是部署的量化版 |
4 jifengg 5 days ago 选了我在用的硬件和模型,估算出来的速度倒是蛮接近的。 |
5 clemente 5 days ago 没用 |
6 clemente 5 days ago 实际部署性能影响的因素蛮多的 |
8 midraos 5 days ago 不太准确,我在 amd 7950x + nvidia 5080 上部署的 qwen 3.6 35b a3b 模型,速度能达到 40t/s |
9 diudiuu 5 days ago @midraos https://tps.bunai.cc/?gpu=rtx5080&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int3&ctx=16384&pl=1024&ol=1024&fw=theory&pcie=gen4&co=1 我在别人得帖子回复我得东西,老哥你采用什么方式部署得 nvidia 5080 ,我看理论是 39 |
10 midraos 5 days ago @diudiuu #9 直接用的 lm studio ,用的 Q6 量化,通过调整配置,将 MOE 层部署在 cpu ,通用层部署在显卡,这样做比使用低量化的效果好,比在 CPU 部署的速度快,上下文大小能达到 128k 以上,token 生成速度有 40t/s |
11 diudiuu 5 days ago @midraos 有个疑问采用--n-gpu-layers 还是--n-cpu-moe 这个哪个参数,我用公式--n-cpu-moe 理论跟你的差不多,希望能给看下真实的部署参数,目前是按照--n-gpu-layers 分层计算的 可以把图 https://github.com/adiudiuu/tps/issues 放在这 |
12 diudiuu 4 days ago @midraos https://tps.bunai.cc/?gpus=rtx5080%3A1&ic=nvlink5&model=qwen3_6_35b_a3b&quant=int6&ctx=16384&pl=1024&ol=1024&fw=llamacpp&pcie=gen5&co=1&pw=x16 其实系统已经有这个逻辑,判断有点问题,已经修复了 详细可以看 https://github.com/adiudiuu/tps/issues/2 这个,我已经总结了 多提问题就当学习了 |
14 diudiuu 4 days ago |
15 beginor 4 days ago 算法不太准确,比实际的高很多,M1Max 用户路过 |