求教 4090 的稳定运行的硬件配置,可以跑的大模型配置? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
sjmcefc2
V2EX    程序员

求教 4090 的稳定运行的硬件配置,可以跑的大模型配置?

  •  
  •   sjmcefc2 2023-08-20 11:59:39 +08:00 5960 次点击
    这是一个创建于 791 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想求一个 4090 的配置单, 还有就是基于这个配置单,如何配置一个本地化运行的大模型呢? 感觉有点无从下手啊,需要学习哪些?目前的目标是机器装起来,本地化大模型配置起来,自己稳定的运行一下。 不知道会不会像黑苹果那样认硬件认系统啥的,求教了,感谢大家。

    21 条回复    2023-08-23 00:03:54 +08:00
    FlashEcho
        1
    FlashEcho  
       2023-08-20 12:13:08 +08:00
    不会认硬件系统,大模型是一个 OS 上的应用程序的任务,当然不会对硬件有要求
    深度学习任务,内存最好的显存的两倍或以上,CPU 没有要求,其实想省钱就缩一点,也是能跑的
    如果你想保留未来的拓展性,最好选服务器平台支持多个 pcie 通道,因为单张 4090 也只能跑 llama-7b 这种参数最少的大模型,再往上显存就不够了


    如果你是想用单张 4090 ,随便买个 4090 的游戏整机的配置都没问题,这种方案 tb 上一搜全都是,对着抄就行了
    如果想用多张 4090 的服务器/工作站,可以看下 https://www.autodl.com/machine/list
    或者上 tb 看 GPU 服务器的方案,当然 dell 这种大型服务器厂商也有方案的,就是会很贵
    jinsongzhao
        2
    jinsongzhao  
       2023-08-20 12:24:44 +08:00
    Mate 最近开源的 7B 模型,不训练只开发测试最低 10GB 显存,双志强 48 核 CPU 。它之上还有 13B, 70B 模型,所以说没有上限,完全看跑什么模型,大家都在优化降低模型需求,比如 4bit 可以让显存降到 8GB, 转换个格式,换其他引擎跑,还能不依赖 GPU,纯 CPU 跑。以上还只是不训练。
    jinsongzhao
        3
    jinsongzhao  
       2023-08-20 12:30:27 +08:00
    @chesha1 原来老看到人提到的 8k 训练就里这里头 19w 的那个呀
    sjmcefc2
        4
    sjmcefc2  
    OP
       2023-08-20 13:59:12 +08:00
    @chesha1 感谢指点。就是对未来能够跑的模型不是很熟悉,现在在用 cpu 跑清华的模型,感觉就对话而言,清华模型好像并不太好,让他对比两个文件或者从文件里面计算一个生产成本,没办法计算出来。现在是想着分析年报或者成本收益调查,计算其中产品的成本信息。现在都不知道有啥好用的模型,还请大家指点
    @jinsongzhao 我刚开始学习大模型,是不是不训练的话,模型就不懂行业黑话(术语)呢?现在的模型是否各有所长呢?大家都怎么选择大模型呢
    lrigi
        5
    lrigi  
       2023-08-20 14:05:51 +08:00 via iPhone
    @sjmcefc2 你这种需求先去问问 gpt4 和 gpt3.5 ,gpt4 如果能搞定开源模型才有希望,gpt4 搞不定就别指望开源模型了。除非是有专门针对某一领域微调好的模型,比如微软的数学模型
    ysc3839
        6
    ysc3839  
       2023-08-20 14:06:52 +08:00 via Android
    sjmcefc2
        7
    sjmcefc2  
    OP
       2023-08-20 14:11:34 +08:00
    @lrigi 注册了几个号,都没封了,也不知道啥原因。其实数学用的并不多,就是用一个小学除法而已。
    threebr
        8
    threebr  
       2023-08-20 17:52:53 +08:00
    24g 显存怎么跑大模型,别说训练了部署都做不到。b 站上有用 7950x CPU 跑性能达到 99%chatgpt 的一个模型,你可以搜一下。用 CPU 而不是 GPU 是因为个人电脑可以做到大内存,但做不到大显存。我电脑上就是 4090 ,只能用在绘图作曲这些地方。
    threebr
        9
    threebr  
       2023-08-20 17:54:53 +08:00
    @threebr 另外用 amd 的 cpu 而不是 intel 是因为 Intel 现在没有 avx512 指令集了。当然服务器 cpu 上的 avx512 指令集更好用
    gamekiller0010
        10
    gamekiller0010  
       2023-08-20 18:13:59 +08:00 via iPhone   1
    4090 的显存没办法跑大模型吧
    airqj
        11
    airqj  
       2023-08-20 20:25:57 +08:00
    @threebr
    @gamekiller0010
    能跑量化模型的显卡不是有很多吗
    cs3230524
        12
    cs3230524  
       2023-08-20 20:49:41 +08:00
    选 A100
    FlashEcho
        13
    FlashEcho  
       2023-08-20 20:52:54 +08:00
    @sjmcefc2 具体哪个模型比较好我也不清楚,不过 llama2 是现在比较火的模型
    你可以看一下 hugging face 这个网站,text-generation 这个任务下面,哪些 model 比较火

    要是不训练,确实大概不懂你的行业黑化,不过如果你的行业黑话比较短,模型支持的 token 又比较多,也可以试一下直接在 prompt 里说明白。如果背景知识太多还是微调吧
    zion03
        14
    zion03  
       2023-08-20 23:35:12 +08:00
    ChatGLM2-6B ,十几 G 显存就可运行。我刚组了 4090 的主机,离线大模型跑的挺快的。推理速度感觉比 GPT 3.5 快不少
    zion03
        15
    zion03  
       2023-08-20 23:40:04 +08:00
    把领域知识的整个文件(比如 PDF )导入到向量数据库,利用 langchain 查询可以在一定程度上达到 finetune 模型的效果。B 站上有相关的详细分享。
    quake0day
        16
    quake0day  
       2023-08-21 08:36:53 +08:00
    @gamekiller0010 亲测 4090 可以跑 llma2 13b 的
    sducxh
        17
    sducxh  
       2023-08-21 09:55:01 +08:00
    ChatGLM2-6B 我在 3080 ( 10G )上 8bit 量化跑,速度确实快,但试用了 qwen-7b 和 baichuan-13b ,我自己的感受是 ChatGLM2-6B 也就速度和资源上的优势了。
    sducxh
        18
    sducxh  
       2023-08-21 09:57:17 +08:00
    @threebr 24g 怎么就不行呢,我一开始一张 3080 ,也就能跑跑 ChatGLM2-6B ,后来又加了一块,baichuan-13b 也能跑了,只能 4bit 量化~
    ShadowPower
        19
    ShadowPower  
       2023-08-21 13:07:20 +08:00
    @sjmcefc2 这个需求可以考虑用 WizardMath-70B ,我试了很多复杂的小学数学/奥数题,都比 ChatGPT 3.5 好
    sjmcefc2
        20
    sjmcefc2  
    OP
       2023-08-22 20:03:14 +08:00
    @ShadowPower 还不完全是解题,主要从年报等资料里面找到计算成本相关的变量,比如营业成本 xx 元,生产量 xx 吨,
    这样的数字,才能计算出来,是否 wizardmath-70b 也具备这样的提取数据能力呢?


    @sducxh 这样两块显卡是怎么配置呢?

    @zion03 能具体给一个链接吗?这个是不是还是利用的外部的计算能力?
    @chesha1 行业黑话专业术语是否可以导入而不训练呢?比如化工领域、农业领域、会计领域的。
    FlashEcho
        21
    FlashEcho  
       2023-08-23 00:03:54 +08:00
    @sjmcefc2 有可能可以直接导入,但是效果不能保证,而且有的 LLM 对于 prompt 很敏感,直接说不一定有效

    比如,下面是一个 prompt 的实例,“请解读下面这一张文本,它代表了一张资产负债表,任务是总结资产类科目的期末值。资产负债表的格式是 xxx”
    这样,可能对于人类,可以有不同的方式说一段类似的话,但是模型可能会输出很不一样的结果
    从成本考虑,先做 prompt engineering 是比较好的,如果不行再微调
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5869 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 03:23 PVG 11:23 LAX 20:23 JFK 23:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86