有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化 - V2EX
2067
1D
1.62D

有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

  •  
  •   2067 Feb 6, 2025 3819 views
    This topic created in 461 days ago, the information mentioned may be changed or developed.
    毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
    19 replies    2025-02-08 05:38:02 +08:00
    Meteora626
        1
    Meteora626  
       Feb 6, 2025
    官网的就 671 ,直接调 api 就知道差距了
    AlohaV2
        2
    AlohaV2  
       Feb 6, 2025
    Mac Studio 192G 万万没想到自己也成为性价比之选
    qxmqh
        3
    qxmqh  
       Feb 6, 2025
    本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
    huluhulu
        4
    huluhulu  
       Feb 6, 2025
    差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
    Solix
        5
    Solix  
       Feb 6, 2025
    富哥也部署不起,全球能部署的就那么几家
    Liftman
        6
    Liftman  
       Feb 6, 2025
    这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
    securityCoding
        7
    securityCoding  
       Feb 6, 2025
    官网不就是满血版。。。
    cat
        8
    cat  
       Feb 6, 2025
    好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
    qxmqh
        9
    qxmqh  
       Feb 6, 2025
    @cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
    qxmqh
        10
    qxmqh  
       Feb 6, 2025
    @qxmqh 50 万。
    stefanaka
        11
    stefanaka  
       Feb 6, 2025
    @qxmqh #9 两张卡肯定不够
    azhangbing
        12
    azhangbing  
       Feb 6, 2025
    @cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
    cat
        13
    cat  
       Feb 6, 2025
    @azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
    azhangbing
        14
    azhangbing  
       Feb 6, 2025   1
    @cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
    nagisaushio
        15
    nagisaushio  
       Feb 6, 2025 via Android
    用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
    mingtdlb
        16
    mingtdlb  
       Feb 7, 2025
    nagisaushio
        17
    nagisaushio  
       Feb 7, 2025   1
    zhongdenny
        18
    zhongdenny  
       Feb 8, 2025
    @nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
    我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
    nagisaushio
        19
    nagisaushio  
       Feb 8, 2025 via Android
    @zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s
    About     Help     Advertise     Blog     API     FAQ     Solana     1276 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 52ms UTC 23:48 PVG 07:48 LAX 16:48 JFK 19:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86