Gemma4 12B 如何跑在 16G 显存上? - V2EX
CatCode

Gemma4 12B 如何跑在 16G 显存上?

  •  
  •   CatCode 5h 42m ago 1461 views

    Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
    https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

    看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
    https://huggingface.co/google/gemma-4-12B-it/tree/main
    https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

    Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

    这是怎么做到能在 16G 显存上跑的?
    还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

    14 replies    2026-06-05 14:08:41 +08:00
    Seanfuck
        1
    Seanfuck  
       5h 34m ago
    一般是量化了;还有就是 GPU 卸载,显存只加载一部分权重。
    chenY520
        2
    chenY520  
       5h 0m ago
    量化版的
    JerningChan
        3
    JerningChan  
       4h 59m ago
    12b 的参数够看吗?我感觉怎么也得 27b 起步的才好用吧?
    sharpy
        4
    sharpy  
       4h 53m ago
    q4 量化
    sagnitude
        5
    sagnitude  
       4h 50m ago
    这种小卡跑模型都是跑个 Q4 玩玩的,别说 16 了,Q8 都没法玩。
    kennylam777
        6
    kennylam777  
       4h 47m ago
    Gemma4 12B Q4 GGUF 我是能跑得 Github Copilot 的 tool use, 32GB 的 laptop 勉能跑有 ctx 65536, 小模型用量的 agent 例如 pi.dev 效果更好

    FP8就留 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也可以?

    Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都很多, 但 LLM 愈大愈是必然的, 我用 5090 Desktop 是在用 Qwen 3.6 35B A3B NVFP4 才算意, KV 都不敢
    cin
        7
    cin  
       4h 42m ago
    Q4 量化不到 8G, 直接用 ollama
    `ollama run gemma4:12b`
    BingoXuan
        8
    BingoXuan  
       4h 37m ago
    gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本,加了 MTP 加速后,质量并没有损失太多。可惜 MTP 没有视觉,不然加上 web search ,几乎可以和 deepseek4 pro 一拼
    jhytxy
        9
    jhytxy  
       4h 30m ago
    q4 的不行,跟原版比智商差不少
    q6_K_XL 凑合
    q8 差不多原版.最少上 q6
    nutting
        10
    nutting  
       3h 27m ago
    16G 显存,什么模型和方式可以没问题运行 cc 的?光输出文字都很轻松,调用 tools 就不行了
    4641585
        11
    4641585  
       1h 17m ago
    LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了,硬件是
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    4641585
        12
    4641585  
       1h 17m ago
    @4641585
    处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    summerLast
        13
    summerLast  
       1h 11m ago
    Q4 量化后模型尺寸 6-7GB , 并非是 float16 的 12*2 的 24GB
    CatCode
        14
    CatCode  
    OP
       18 mins ago
    @4641585 lmstudio-community/gemma-4-12B-it-GGUF 这个我看了 最大的是 8bit 量化的
    About     Help     Advertise     Blog     API     FAQ     Solana     5696 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 66ms UTC 06:27 PVG 14:27 LAX 23:27 JFK 02:27
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86