
https://zhuanlan.zhihu.com/p/657550065
看了下,它用的应该是个 kde 的 linux ,比如 kubuntu ,竟然 跑起来了 13b
1 ElsaGranger Jan 23, 2024 via iPhone 不想量化可以试试 powerinfer |
2 zhlenmao OP @ElsaGranger 谢谢~~~ |
3 zhlenmao OP 已经试成了。用的 linux mint ,就是不能问太长,长了就直接 cuda 溢出报错。然后换成了 int4 量化版,这样输入就能长的多了。至于"ElsaGranger "说的方法还没空试 |
4 shm7 Feb 27, 2024 显存太小,随便 2k 可能都爆了,都是无效试。 |
5 smalltong02 May 1, 2024 在 windows 平台下可以,前提是内存够大,不怕推理慢。 |