m1max64g+2t 目前在跑的三个模型,还有其他推荐吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wsbqdyhm
V2EX    macOS

m1max64g+2t 目前在跑的三个模型,还有其他推荐吗?

  •  
  •   wsbqdyhm 2024-05-25 21:40:58 +08:00 2964 次点击
    这是一个创建于 582 天前的主题,其中的信息可能已经有所发展或是发生改变。
    m1max64g+2t ,21 年 16 寸顶配那个 mbp ,目前在跑的三个模型:

    文字:llama3:70b ,( llama3:8b 秒开,但这个速度肯定一般般,启动之后可以接受,gpu 占用 60-80%,内存 48-55g ,没有提示过资源不足,摸起来键盘上面有点热,但没有听到风扇声音,模型中文支持太差,效果没有 gtp4o 好,就这样)

    语音:GPT-SoVITS (训练、推理都很快,但经常吞字,还有功能有点单一)

    图片:sd( 512 的图 10 多秒就出,大图或复杂点的都慢,半小时都试过,对了,安装了那个 SadTalker 视频插件,无奈在菜单栏找不到入口(插件文件夹有文件),版本不兼容还是?有其他推荐吗?)

    各位,还有其他模型推荐吗?同类型或不同的都可以,谢谢。
    17 条回复    2024-05-30 12:47:48 +08:00
    eachann
        1
    eachann  
       2024-05-25 23:23:17 +08:00 via iPhone
    请问一下跑这类模型的用途是什么呢?是工作相关吗?还是只是为了折腾呀?
    tanrenye
        2
    tanrenye  
       2024-05-25 23:31:49 +08:00
    中文模型还是看看国内的吧
    wsbqdyhm
        3
    wsbqdyhm  
    OP
       2024-05-26 01:15:57 +08:00
    @eachann 兼职做自媒体的,文字类的用 gpt4o 和 llama3:70b 一起,搭配 GPT-SoVITS 语音出片很好,声音自由度高一点,不会浓浓的 ai 味道,其次需要用到大量照片素材,网络搜寻的大多有版权,用 sd 输出的,版权要求没那么高。希望可以继续优化所用的工具,去掉一些明显 ai 味道、高效以及低成本是方向。 多个纬度相互平衡,没有最好,只有更好。
    uCVqn130hR86WDU8
        4
    uCVqn130hR86WDU8  
       2024-05-26 08:18:18 +08:00
    llama3 可以用中文微调过的
    idlerlestat
        5
    idlerlestat  
       2024-05-26 09:30:06 +08:00
    据说 qwen 的中文模型不错
    kenshinhu
        6
    kenshinhu  
       2024-05-26 10:56:03 +08:00
    M2 本地跑 Mistral 还不错,phi 可以做成低推理的。
    kenshinhu
        7
    kenshinhu  
       2024-05-26 10:56:35 +08:00
    @wsbqdyhm 可以请教一下怎样做自媒体吗?
    beginor
        8
    beginor  
       2024-05-26 21:20:04 +08:00 via Android
    64G 跑 70b 的 llama3 ,应该是 q4_k_m 量化版本的吧,我跑 q5_k_m 版本的会报错的?
    wsbqdyhm
        9
    wsbqdyhm  
    OP
       2024-05-27 07:56:15 +08:00
    @beginor 就这个命令拉的,ollama run llama3:70b
    怎么区别版本?
    beginor
        10
    beginor  
       2024-05-27 10:40:17 +08:00
    @wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。

    可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

    一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。

    依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others .

    另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。

    模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。
    beginor
        11
    beginor  
       2024-05-27 13:10:18 +08:00
    @wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
    yjhatfdu2
        12
    yjhatfdu2  
       2024-05-27 17:32:03 +08:00
    @beginor 大模型有 f32 ?现在训练基本都拿的 bf16/f16 来的,哪来 f32 的?
    wsbqdyhm
        13
    wsbqdyhm  
    OP
       2024-05-27 21:26:09 +08:00
    @beginor #11 好的,有空试一下一个有什么区别
    beginor
        14
    beginor  
       2024-05-27 23:23:35 +08:00 via Android
    @yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 , 以前是 f16 。
    urlpha
        15
    urlpha  
       2024-05-28 11:03:22 +08:00
    感觉可以开个 AI 板块了
    vincentchyu
        16
    vincentchyu  
       2024-05-28 17:25:45 +08:00
    先加入收藏可以一起玩,本地的情况下,其实本地跑确实资源不够,但是能感受很多技术细节
    vincentchyu
        17
    vincentchyu  
       2024-05-30 12:47:48 +08:00
    @beginor 我看过 ollama 的源码了 他里面编译了 llama.cpp ,模拟了在不同设备上的部署
    func InitScheduler(ctx context.Context) *Scheduler {
    sched := &Scheduler{
    pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
    finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
    expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests),
    unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests),
    loaded: make(map[string]*runnerRef),
    newServerFn: llm.NewLlamaServer,
    getGpuFn: gpu.GetGPUInfo,
    }
    sched.loadFn = sched.load
    return sched
    }
    都在 llm 包下 对于熟悉 golang 的这个框架有比较好的参考价值
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3003 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 13:14 PVG 21:14 LAX 05:14 JFK 08:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86