KaiWuBOSS 最近的时间轴更新

KaiWuBOSS

V2EX 第 794716 号会员，加入于 2026-03-18 09:14:31 +08:00

今日活跃度排名 1993

KaiWuBOSS 提问技术话题好玩工作信息交易信息城市相关

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

Local LLM KaiWuBOSS 2 小时 7 分钟前最后回复来自 kevan

KaiWuBOSS 创建的更多主题

KaiWuBOSS 最近回复了

3 小时 59 分钟前

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@coefu 刚找 opus 拿到解决方案搜一下。结论很清楚，有三种方案，按稳定性排序。

---

## 最稳的方案：nvidia-smi XML 输出

NVIDIA 官方的 Go collector 就是用 `nvidia-smi -q -x` 的 XML 输出解析多卡信息，这种方式在所有驱动版本和 GPU 型号上输出格式一致。

```go
// 执行：nvidia-smi -q -x
// 输出是结构化 XML ，直接解析
type NvidiaSMI struct {
GPUs []GPU `xml:"gpu"`
}
type GPU struct {
Name string `xml:"product_name"`
Memory struct {
Total string `xml:"total"`
Free string `xml:"free"`
} `xml:"fb_memory_usage"`
ComputeCap string `xml:"compute_cap"`
}
```

优点：
- 不受 `\r\n` 影响
- 不受分隔符格式影响
- Tesla/Quadro/GeForce 全部统一格式
- 不需要 CGO ，纯 Go

---

## 最精确的方案：go-nvml

NVIDIA 官方维护的 Go NVML 绑定，直接调用 `libnvidia-ml.so`，不需要解析任何文本输出，API 向后兼容所有驱动版本。

```go
import "github.com/NVIDIA/go-nvml/pkg/nvml"

nvml.Init()
count, _ := nvml.DeviceGetCount()
for i := 0; i < count; i++ {
device, _ := nvml.DeviceGetHandleByIndex(i)
name, _ := device.GetName()
mem, _ := device.GetMemoryInfo()
// mem.Total, mem.Free, mem.Used 精确到字节
}
```

缺点：
- 目前只支持 Linux ，Windows 不支持。
- 需要 CGO ，编译复杂度增加
- 跨平台打包麻烦

---

## 结论

```
对 Kaiwu 的最优方案：

主路径：nvidia-smi -q -x （ XML 解析）
- Linux + Windows 都支持
- 不需要 CGO
- 一次改好，多卡识别永久稳定
- Kaiwu 的目标用户主要是 Windows

备用路径：go-nvml （仅 Linux ）
- 将来如果要精确读带宽、温度等
- 作为 Linux 上的增强路径

兜底：环境变量手动指定
KAIWU_GPUS="12288,12288,12288"
```

让 Opus 把 `probe_windows.go` 和 `probe_linux.go` 里的 csv 解析全部改成 XML 解析，这是一劳永逸的方案，之后所有多卡识别问题都解决了。

4 小时 28 分钟前

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hongdengdao 已经定位问题了正在抢修感谢反馈

5 小时 24 分钟前

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@mingtdlb ollama 用的是 llama 架构你可以试试 lm 也是这个架构体验更好但要自己调参

5 小时 25 分钟前

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@osilinka 还没吧，官方还没编译把已经出来了吗

5 小时 48 分钟前

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

产品最大担忧我让 tok/s 最优值设定在 20 左右就是让 kaiwu 在这个速度下寻找上下文和显存最优解如果用户显存有效又期盼高速度这个就不合适了。之所以 20 是因为网上说 20 就是甜区了，但我觉得有点慢了。