Gemma4 12B 如何跑在 16G 显存上？

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。
https://huggingface.co/google/gemma-4-12B-it/tree/main
https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

这是怎么做到能在 16G 显存上跑的？
还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

量化

显存

模型

14 replies 2026-06-05 14:08:41 +08:00

Seanfuck

5h 34m ago

一般是量化了；还有就是 GPU 卸载，显存只加载一部分权重。

chenY520

5h 0m ago

量化版的

JerningChan

4h 59m ago

12b 的参数够看吗？我感觉怎么也得 27b 起步的才好用吧？

sharpy

4h 53m ago

q4 量化

sagnitude

4h 50m ago

这种小卡跑模型都是跑个 Q4 玩玩的，别说 16 了，Q8 都没法玩。

kennylam777

4h 47m ago

Gemma4 12B Q4 GGUF 我是能跑得 Github Copilot 的 tool use, 32GB 的 laptop 勉能跑有 ctx 65536, 小模型用量的 agent 例如 pi.dev 效果更好

FP8就留 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也可以?

Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都很多, 但 LLM 愈大愈是必然的, 我用 5090 Desktop 是在用 Qwen 3.6 35B A3B NVFP4 才算意, KV 都不敢

cin

4h 42m ago

Q4 量化不到 8G, 直接用 ollama
`ollama run gemma4:12b`

BingoXuan

4h 37m ago

gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本，加了 MTP 加速后，质量并没有损失太多。可惜 MTP 没有视觉，不然加上 web search ，几乎可以和 deepseek4 pro 一拼

jhytxy

4h 30m ago

q4 的不行,跟原版比智商差不少
q6_K_XL 凑合
q8 差不多原版.最少上 q6

nutting

3h 27m ago

16G 显存，什么模型和方式可以没问题运行 cc 的？光输出文字都很轻松，调用 tools 就不行了

4641585

1h 17m ago

LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了，硬件是
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)

4641585

1h 17m ago

@4641585
处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)

summerLast

1h 11m ago

Q4 量化后模型尺寸 6-7GB , 并非是 float16 的 12*2 的 24GB

CatCode

18 mins ago

@4641585 lmstudio-community/gemma-4-12B-it-GGUF 这个我看了最大的是 8bit 量化的