Gemma 4 QAT 來了： LLM 開始往手機裡塞...

6/06/2026

Gemma 4 QAT 來了： LLM 開始往手機裡塞...

當一個能跑在手機與筆電上的模型，記憶體門檻一路掉到 1 GB 左右，這場本機 AI 競賽接下來比的，就是誰更早把 AI 放到一般消費者的日常、擺脫對雲端的依賴。

Google 這次替 Gemma 4 釋出的是一個相當明確的訊號：模型壓縮這件事，已經從附屬工程題目，慢慢變成產品能不能真正走進裝置端的核心戰場。

這次主角是 Quantization-Aware Training，也就是在訓練階段就把量化考量放進去，目標很直接，把模型壓小之後的品質損失降到更低，讓本機執行不再只是勉強能跑。

如果只看數字很明白：Gemma 4 E2B 在 BF16 16-bit 下約需 11.4 GB 記憶體，到了 Q4_0 4-bit 剩下 2.9 GB；而 mobile 版本進一步壓到約 1.1 GB，text-only 甚至只要 0.84 GB。這不是紙上談兵的規格好看而已，這代表許多原本只能在桌機或高階 GPU 上玩的本機模型，開始有機會更認真地走進手機、輕薄筆電、嵌入式裝置與各種 edge 場景。

更值得看的是，Google 這次沒有只停在「把模型壓小」這種老話，而是把 mobile 版本另外拉出來做。官方提到他們為行動裝置設計了專用量化架構，包括預先算好的 static activations、貼近行動加速器設計的 channel-wise quantization、針對 token 生成部分下重手的 2-bit 壓縮，還有對 embedding 與 KV cache 的記憶體縮減。

這背後其實也反映出一個很現實的產業方向。前一段時間大家討論本機模型，常常還停在「可不可以跑」「跑分多少」「模型多大」這幾個問題，但現在市場開始進入下一階段，大家會問的是：能不能塞進現成裝置、能不能控制記憶體成本、能不能保留夠用的品質、能不能直接接進既有開發工具。Google 這次同步串起 Hugging Face、llama.cpp、vLLM、Ollama、LM Studio、LiteRT-LM、Transformers.js、MLX 與 Unsloth，說穿了就是在回答這個問題：不要只把 Gemma 4 做成模型，也要把它做成一條能直接上手的工作流。

我自己覺得，這波更新真正有意思的地方，在於它把「小模型」這件事往前推了一大步。以前很多人提 on-device AI，聽起來都像是未來願景，展示時很帥，實際常常卡在記憶體、格式、速度與相容性。現在如果 E2B 這種等級的模型能把門檻壓到接近 1 GB，很多原本只敢想不敢做的產品形態就會開始變得具體，像是離線助理、裝置內搜尋與摘要、私密資料處理，設置更多的獨立運設備，例如不須網路連線、真的能帶著到處跑的寵物狗？在桌上亂跑的吉伊卡娃？

(那、下個禮拜的 Apple WWDC 到底能不能端出 Siri 2.0 呢？)

消息來源：https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

Search This Blog

metamuse

Gemma 4 QAT 來了： LLM 開始往手機裡塞...