Gemma 4 QAT 來了: LLM 開始往手機裡塞...

當一個能跑在手機與筆電上的模型,記憶體門檻一路掉到 1 GB 左右,這場本機 AI 競賽接下來比的,就是誰更早把 AI 放到一般消費者的日常、擺脫對雲端的依賴。


Google 這次替 Gemma 4 釋出的是一個相當明確的訊號:模型壓縮這件事,已經從附屬工程題目,慢慢變成產品能不能真正走進裝置端的核心戰場。

這次主角是 Quantization-Aware Training,也就是在訓練階段就把量化考量放進去,目標很直接,把模型壓小之後的品質損失降到更低,讓本機執行不再只是勉強能跑。

如果只看數字很明白:Gemma 4 E2B 在 BF16 16-bit 下約需 11.4 GB 記憶體,到了 Q4_0 4-bit 剩下 2.9 GB;而 mobile 版本進一步壓到約 1.1 GB,text-only 甚至只要 0.84 GB。這不是紙上談兵的規格好看而已,這代表許多原本只能在桌機或高階 GPU 上玩的本機模型,開始有機會更認真地走進手機、輕薄筆電、嵌入式裝置與各種 edge 場景。

更值得看的是,Google 這次沒有只停在「把模型壓小」這種老話,而是把 mobile 版本另外拉出來做。官方提到他們為行動裝置設計了專用量化架構,包括預先算好的 static activations、貼近行動加速器設計的 channel-wise quantization、針對 token 生成部分下重手的 2-bit 壓縮,還有對 embedding 與 KV cache 的記憶體縮減。

這背後其實也反映出一個很現實的產業方向。前一段時間大家討論本機模型,常常還停在「可不可以跑」「跑分多少」「模型多大」這幾個問題,但現在市場開始進入下一階段,大家會問的是:能不能塞進現成裝置、能不能控制記憶體成本、能不能保留夠用的品質、能不能直接接進既有開發工具。Google 這次同步串起 Hugging Face、llama.cpp、vLLM、Ollama、LM Studio、LiteRT-LM、Transformers.js、MLX 與 Unsloth,說穿了就是在回答這個問題:不要只把 Gemma 4 做成模型,也要把它做成一條能直接上手的工作流。

我自己覺得,這波更新真正有意思的地方,在於它把「小模型」這件事往前推了一大步。以前很多人提 on-device AI,聽起來都像是未來願景,展示時很帥,實際常常卡在記憶體、格式、速度與相容性。現在如果 E2B 這種等級的模型能把門檻壓到接近 1 GB,很多原本只敢想不敢做的產品形態就會開始變得具體,像是離線助理、裝置內搜尋與摘要、私密資料處理,設置更多的獨立運設備,例如不須網路連線、真的能帶著到處跑的寵物狗?在桌上亂跑的吉伊卡娃?

(那、下個禮拜的 Apple WWDC 到底能不能端出 Siri 2.0 呢?)

消息來源:https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/