打算配一台主机用于跑大模型玩,大佬们有推荐的配置吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在答技术问题时复制粘贴 AI 生成的内容
shoumu
V2EX    程序员

打算配一台主机用于跑大模型玩,大佬们有推荐的配置吗

  •  
  •   shoumu
    shoumu 2024-03-13 00:13:43 +08:00 via iPhone 6163 次点击
    这是一个创建于 579 天前的主题,其中的信息可能已经有所发展或是发生改变。
    虽然是搞互联网的,但是对硬件这块确实没啥研究,所以想请大佬们帮忙推荐下配置,目前在京东上看了朴赛装的机器,券后 27849 ,不知道是否有坑,求指教
    第 1 条附言    2024-03-13 07:54:26 +08:00

    主要是本地推理,最大跑13B模型,目前考虑的cpu 14900kf、内存128g、显卡4090

    30 条回复    2024-03-17 14:03:30 +08:00
    52boobs
        1
    52boobs  
       2024-03-13 01:13:48 +08:00 via Android   1
    如果你不太确定想怎么玩大模型,其实可以花点小钱租台顶配机器跑跑感觉有点意思的项目,玩一段时间后你自然就知道怎么选择了。
    mythabc
        2
    mythabc  
       2024-03-13 01:21:05 +08:00   1
    本地只能跑跑推理和 7B lora 训练。更大规模的训练可以选择租 A100
    我的配置是:
    GPU:4090D 虽然是 dog 版,但是目前 4090D 的性价比是比 4090 高的。
    板 U 内存:B550I + 5800X + 2 *32G 以前攒的,跑大模型对 CPU 要求不高,内存要注意有一些步骤,比如 lora 合并、量化会使用内存,如果内存太小可能就跑不起来,64G 是需要的。

    电源散热机箱:根据自己需求配把。

    主要成本还是显卡。
    forgetlight
        3
    forgetlight  
       2024-03-13 01:21:47 +08:00   1
    主要是在于你想要怎么大模型,我预估是做 inference ,不太可能 fine-tuning 。这样的话主要是根据你需要跑的模型大小是否能放进显存。最好是提前调研下需要在什么精度下跑什么模型。
    mythabc
        4
    mythabc  
       2024-03-13 01:22:11 +08:00
    顺带一提:我比较极限,把以上配置塞进了 SSUPD 里,一个 15L 体积的机箱。
    v2bili
        5
    v2bili  
       2024-03-13 01:23:31 +08:00
    @mythabc 你这个配置可以 AI 出图 吗,2K 的图一个小时出 30 张行嘛?
    rus4db
        6
    rus4db  
       2024-03-13 01:52:01 +08:00   1
    超微 7048GR + 4×2080ti(22GB) FYI
    dianso
        7
    dianso  
       2024-03-13 02:45:04 +08:00   1
    没必要自己买。

    vultr 租一个就行。

    按需使用,小时付费。
    joshuasui
        8
    joshuasui  
       2024-03-13 07:59:11 +08:00   1
    我去年部署的 13900KF + 128G + 4090 ,大概一共两万内搞定全白配色
    之前试过租云服务器,最大的硬伤就是每次开机用起来太麻烦了,可能是因为用的小平台,大平台如 aliyun 之类的又太贵。
    shoumu
        9
    shoumu  
    OP
       2024-03-13 09:07:32 +08:00 via iPhone
    @joshuasui 想法类似
    HojiOShi
        10
    HojiOShi  
       2024-03-13 09:26:36 +08:00
    @joshuasui 啥时间买的,啥配置。我差不多的配置花了三万。
    ZXiangQAQ
        11
    ZXiangQAQ  
       2024-03-13 09:29:53 +08:00
    4090 显存不够吧,13B 的大模型如果 INT4 还好,如果 INT8 基本就需要 13-16G 显存了,fp 精度直接 30G+了扛不住
    Ackvincent
        12
    Ackvincent  
       2024-03-13 09:30:20 +08:00
    塔式 T640 加 GPU 显卡 套件, 价格便宜量又足.
    mushuanl
        13
    mushuanl  
       2024-03-13 09:44:27 +08:00
    大模型主要瓶颈在内存访问速度,直接上 mac 然后 llama.cpp, 大于 13B 的也能玩
    因为 13B 简单玩几次就腻烦了,参数越高性能越好
    HojiOShi
        14
    HojiOShi  
       2024-03-13 09:49:01 +08:00
    @ZXiangQAQ 现在最新驱动有 fallback 回共享显存的选项,跑应该是能跑吧,只不过速度会减慢不少。
    leo6668
        15
    leo6668  
       2024-03-13 09:56:17 +08:00
    @joshuasui 老哥跑的啥模型,多大参数
    churchill
        16
    churchill  
       2024-03-13 10:04:54 +08:00
    如果是玩,mac 更经济一些

    mixtral 8x7b 也能跑
    HojiOShi
        17
    HojiOShi  
       2024-03-13 12:30:15 +08:00   1
    @churchill 你不是在开玩笑,这配置说经济是吧。
    yplam
        18
    yplam  
       2024-03-13 12:54:18 +08:00 via Android
    @churchill 有没有实际跑过?我之前测过 m1 上跑那速度实在无法忍,还只是 6b 的模型
    gam2046
        19
    gam2046  
       2024-03-13 13:01:59 +08:00
    借楼问问,现在有没有什么大模型,可以用于看外语片的时候,能够根据音频出中文字幕的。
    dayeye2006199
        20
    dayeye2006199  
       2024-03-13 13:03:50 +08:00
    你这价钱可以 colab pro 32 年的服务
    churchill
        21
    churchill  
       2024-03-13 14:12:35 +08:00
    @yplam 自己玩的话没啥问题,速度还行

    47b 的规模
    youmilk
        22
    youmilk  
       2024-03-13 14:17:26 +08:00
    @gam2046 windows 自带实时字母,勉强能用
    youmilk
        23
    youmilk  
       2024-03-13 14:17:42 +08:00
    @youmilk 字母->字幕
    shoumu
        24
    shoumu  
    OP
       2024-03-13 14:20:12 +08:00 via iPhone
    @dayeye2006199 pro 是 100 个计算单元,用不了多久吧
    shoumu
        25
    shoumu  
    OP
       2024-03-13 14:23:05 +08:00 via iPhone
    @churchill 之前在 m1 pro 上跑过 7b 的模型,感觉速度一般
    yplam
        26
    yplam  
       2024-03-13 18:44:26 +08:00 via Android
    @churchill 47b 8bit ?感觉挺好
    suuuch
        27
    suuuch  
       2024-03-13 20:28:59 +08:00   1
    colab pro 可以先充值一个月试试看,只做推理的话,还是够用的,还可以免得冲动消费。。
    slowgen
        28
    slowgen  
       2024-03-13 23:53:18 +08:00   3
    拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
    准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
    很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
    比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

    显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

    引用别人的回复
    “生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

    内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
    现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

    我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


    附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
    gam2046
        29
    gam2046  
       2024-03-15 10:44:03 +08:00
    @youmilk #22 Windows 实时字幕是不带有翻译的,比如英语音频则显示英语字幕,而我希望不管音频语言是什么能帮我翻译到特定语言的字幕,比如中文。
    joshuasui
        30
    joshuasui  
       2024-03-17 14:03:30 +08:00
    @HojiOShi 23 年 4 月吧,看了下现在自己配好亏啊,显卡、内存、存储全面涨价
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5495 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 40ms UTC 09:04 PVG 17:04 LAX 02:04 JFK 05:04
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86