求教 4090 的稳定运行的硬件配置，可以跑的大模型配置？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 791 天前的主题，其中的信息可能已经有所发展或是发生改变。

想求一个 4090 的配置单，还有就是基于这个配置单，如何配置一个本地化运行的大模型呢？感觉有点无从下手啊，需要学习哪些？目前的目标是机器装起来，本地化大模型配置起来，自己稳定的运行一下。不知道会不会像黑苹果那样认硬件认系统啥的，求教了，感谢大家。

配置

求教

模型

本地化

21 条回复 2023-08-23 00:03:54 +08:00

FlashEcho

2023-08-20 12:13:08 +08:00

不会认硬件系统，大模型是一个 OS 上的应用程序的任务，当然不会对硬件有要求
深度学习任务，内存最好的显存的两倍或以上，CPU 没有要求，其实想省钱就缩一点，也是能跑的
如果你想保留未来的拓展性，最好选服务器平台支持多个 pcie 通道，因为单张 4090 也只能跑 llama-7b 这种参数最少的大模型，再往上显存就不够了

如果你是想用单张 4090 ，随便买个 4090 的游戏整机的配置都没问题，这种方案 tb 上一搜全都是，对着抄就行了
如果想用多张 4090 的服务器/工作站，可以看下 https://www.autodl.com/machine/list
或者上 tb 看 GPU 服务器的方案，当然 dell 这种大型服务器厂商也有方案的，就是会很贵

jinsongzhao

2023-08-20 12:24:44 +08:00

Mate 最近开源的 7B 模型，不训练只开发测试最低 10GB 显存，双志强 48 核 CPU 。它之上还有 13B, 70B 模型，所以说没有上限，完全看跑什么模型，大家都在优化降低模型需求，比如 4bit 可以让显存降到 8GB, 转换个格式，换其他引擎跑，还能不依赖 GPU,纯 CPU 跑。以上还只是不训练。

jinsongzhao

2023-08-20 12:30:27 +08:00

@chesha1 原来老看到人提到的 8k 训练就里这里头 19w 的那个呀

sjmcefc2

2023-08-20 13:59:12 +08:00

@chesha1 感谢指点。就是对未来能够跑的模型不是很熟悉，现在在用 cpu 跑清华的模型，感觉就对话而言，清华模型好像并不太好，让他对比两个文件或者从文件里面计算一个生产成本，没办法计算出来。现在是想着分析年报或者成本收益调查，计算其中产品的成本信息。现在都不知道有啥好用的模型，还请大家指点
@jinsongzhao 我刚开始学习大模型，是不是不训练的话，模型就不懂行业黑话（术语）呢？现在的模型是否各有所长呢？大家都怎么选择大模型呢

lrigi

2023-08-20 14:05:51 +08:00 via iPhone

@sjmcefc2 你这种需求先去问问 gpt4 和 gpt3.5 ，gpt4 如果能搞定开源模型才有希望，gpt4 搞不定就别指望开源模型了。除非是有专门针对某一领域微调好的模型，比如微软的数学模型

ysc3839

2023-08-20 14:06:52 +08:00 via Android

sjmcefc2

2023-08-20 14:11:34 +08:00

@lrigi 注册了几个号，都没封了，也不知道啥原因。其实数学用的并不多，就是用一个小学除法而已。

threebr

2023-08-20 17:52:53 +08:00

24g 显存怎么跑大模型，别说训练了部署都做不到。b 站上有用 7950x CPU 跑性能达到 99%chatgpt 的一个模型，你可以搜一下。用 CPU 而不是 GPU 是因为个人电脑可以做到大内存，但做不到大显存。我电脑上就是 4090 ，只能用在绘图作曲这些地方。

threebr

2023-08-20 17:54:53 +08:00

@threebr 另外用 amd 的 cpu 而不是 intel 是因为 Intel 现在没有 avx512 指令集了。当然服务器 cpu 上的 avx512 指令集更好用

gamekiller0010

2023-08-20 18:13:59 +08:00 via iPhone

4090 的显存没办法跑大模型吧

airqj

2023-08-20 20:25:57 +08:00

@threebr
@gamekiller0010
能跑量化模型的显卡不是有很多吗

cs3230524

2023-08-20 20:49:41 +08:00

选 A100

FlashEcho

2023-08-20 20:52:54 +08:00

@sjmcefc2 具体哪个模型比较好我也不清楚，不过 llama2 是现在比较火的模型
你可以看一下 hugging face 这个网站，text-generation 这个任务下面，哪些 model 比较火

要是不训练，确实大概不懂你的行业黑化，不过如果你的行业黑话比较短，模型支持的 token 又比较多，也可以试一下直接在 prompt 里说明白。如果背景知识太多还是微调吧

zion03

2023-08-20 23:35:12 +08:00

ChatGLM2-6B ，十几 G 显存就可运行。我刚组了 4090 的主机，离线大模型跑的挺快的。推理速度感觉比 GPT 3.5 快不少

zion03

2023-08-20 23:40:04 +08:00

把领域知识的整个文件（比如 PDF ）导入到向量数据库，利用 langchain 查询可以在一定程度上达到 finetune 模型的效果。B 站上有相关的详细分享。

quake0day

2023-08-21 08:36:53 +08:00

@gamekiller0010 亲测 4090 可以跑 llma2 13b 的

sducxh

2023-08-21 09:55:01 +08:00

ChatGLM2-6B 我在 3080 （ 10G ）上 8bit 量化跑，速度确实快，但试用了 qwen-7b 和 baichuan-13b ，我自己的感受是 ChatGLM2-6B 也就速度和资源上的优势了。

sducxh

2023-08-21 09:57:17 +08:00

@threebr 24g 怎么就不行呢，我一开始一张 3080 ，也就能跑跑 ChatGLM2-6B ，后来又加了一块，baichuan-13b 也能跑了，只能 4bit 量化~

ShadowPower

2023-08-21 13:07:20 +08:00

@sjmcefc2 这个需求可以考虑用 WizardMath-70B ，我试了很多复杂的小学数学/奥数题，都比 ChatGPT 3.5 好

sjmcefc2

2023-08-22 20:03:14 +08:00

@ShadowPower 还不完全是解题，主要从年报等资料里面找到计算成本相关的变量，比如营业成本 xx 元，生产量 xx 吨，
这样的数字，才能计算出来，是否 wizardmath-70b 也具备这样的提取数据能力呢？

@sducxh 这样两块显卡是怎么配置呢？

@zion03 能具体给一个链接吗？这个是不是还是利用的外部的计算能力？
@chesha1 行业黑话专业术语是否可以导入而不训练呢？比如化工领域、农业领域、会计领域的。

FlashEcho

2023-08-23 00:03:54 +08:00

@sjmcefc2 有可能可以直接导入，但是效果不能保证，而且有的 LLM 对于 prompt 很敏感，直接说不一定有效

比如，下面是一个 prompt 的实例，“请解读下面这一张文本，它代表了一张资产负债表，任务是总结资产类科目的期末值。资产负债表的格式是 xxx”
这样，可能对于人类，可以有不同的方式说一段类似的话，但是模型可能会输出很不一样的结果
从成本考虑，先做 prompt engineering 是比较好的，如果不行再微调