
想到的几种方式
1 jangit Jul 19, 2023 线上部署第一种是不大可能的,还是要等 gptq 支持,不然现在 7b 以上消费级显卡都不够跑的 |
2 captray Jul 20, 2023 a target="_blank" href="https://huggingface.co/blog/llama2#using-text-generation-inference-and-inference-endpoints" rel="nofollow noopener">https://huggingface.co/blog/llama2#using-text-generation-inference-and-inference-endpoints |
4 GL8885 Jul 21, 2023 via Android 本地应该是能跑的,量化过的模型可以用 CPU 加内存跑,一个好点的主板最多可以插 192G 内存,主要是这样推理很慢。 |
5 AIGod Jul 22, 2023 用 GPU 服务器部署呢,如 V100 的服务器 |