Google 研究團隊發表 TurboQuant 演算法極致壓縮 AI 記憶體

3/27/2026

Google 研究團隊發表 TurboQuant 演算法極致壓縮 AI 記憶體

結果引起股市震盪、記憶體下殺… 這太蠢了吧？這表示市場會更擴大建置演算中心、再度提升記憶體的使用量啊…

在人工智慧的領域中，向量 (Vectors) 是模型理解與處理資訊的基礎方式。複雜的多重特徵向量（例如影像特徵、詞彙語意或資料集屬性）雖然功能強大，卻也消耗了龐大的記憶體。這導致了「鍵值快取 (Key-Value Cache, KV Cache)」的運算瓶頸——KV Cache 就像是高速的數位備忘錄，讓電腦能快速提取常用資訊，而不必每次都在龐大的資料庫中緩慢搜尋。

傳統上，我們會使用向量量化 (Vector Quantization) 這種經典的資料壓縮技術來縮減向量的體積。這不僅能加速向量搜尋引擎的相似度比對，也能緩解 KV Cache 的瓶頸。然而，傳統的向量量化技術往往會產生自己的「記憶體額外開銷」，因為多數方法都需要精確計算並儲存每個資料區塊的量化常數，這反而削弱了壓縮的效果。

Google 研究團隊近期發表了 TurboQuant（預計於 ICLR 2026 發表），這是一項能完美解決向量量化中記憶體額外開銷的壓縮演算法。TurboQuant 結合了另外兩項關鍵技術：Quantized Johnson-Lindenstrauss (QJL) 與 PolarQuant（將於 AISTATS 2026 發表），在完全不犧牲 AI 模型效能的前提下，展現了突破性的 KV Cache 壓縮潛力。

TurboQuant 能在「完全不影響準確度」的情況下大幅縮減模型體積，是支援 KV Cache 壓縮與高速向量搜尋的理想方案。這主要歸功於兩個關鍵步驟：

1. 透過 PolarQuant 實現高品質壓縮

在第一階段，TurboQuant 會先隨機旋轉資料向量以簡化其幾何結構，接著套用 PolarQuant 技術。與傳統使用笛卡兒座標（X、Y、Z 軸）來記錄資料距離不同，PolarQuant 將向量轉換為極座標（以半徑與角度表示）。
這就像是把「向東走 3 個街區、向北走 4 個街區」改成「以 37 度角走 5 個街區」。因為角度的模式是已知且高度集中的，模型可以將資料對應到固定、可預測的「圓形」網格上，而不需要像傳統的「方形」網格那樣不斷記錄變動的邊界。這樣的設計成功消除了傳統方法所帶來的記憶體額外開銷，並利用了大部分的壓縮空間來保留原始向量的核心特徵。

2. 透過 QJL 消除隱藏誤差

在第二階段，TurboQuant 僅用極少量的殘餘壓縮空間（只需要 1 bit），利用 QJL 演算法來處理第一階段遺留的微小誤差。
QJL 運用了 Johnson-Lindenstrauss 轉換這項數學技術，能將複雜的多面向資料大幅壓縮，同時保留資料點之間的關鍵距離與關聯性。它將每個向量數值縮減為單一的正負號位元（+1 或 -1），形同建立了一套零額外開銷的高速速記法。QJL 扮演了數學除錯器的角色，能消除偏差，確保模型能計算出更精確的注意力分數 (Attention Score)。

研究團隊在多個長篇脈絡的基準測試中（如 LongBench、海底撈針測試 Needle In A Haystack 等），使用開源的大型語言模型（Gemma 與 Mistral）進行了嚴格的評估。實驗證明，TurboQuant 不僅在內積失真與召回率上達到最佳表現，更將 KV Cache 的記憶體佔用降至最低。

值得注意的是：

大幅壓縮且無損：TurboQuant 成功將 KV Cache 壓縮至僅 3 bit，這過程甚至不需要重新訓練或微調模型，且在海底撈針測試中維持了完美的後續應用結果，記憶體體積至少縮減了 6 倍。
極致的運算加速：在 H100 GPU 加速器上，4-bit 的 TurboQuant 在計算注意力對數 (Attention Logits) 時，速度比未壓縮的 32-bit 鍵值快上 8 倍。
強化向量搜尋：在多重特徵的向量搜尋任務中，TurboQuant 的表現持續優於現有的先進方法（如 PQ 與 RabbiQ），大幅加快了索引建立的過程。

TurboQuant、QJL 與 PolarQuant 不僅是實用的工程解決方案，更是具備堅實理論證明的基礎演算法貢獻。這些方法在實際應用中展現了絕佳的效率，並且運作水準逼近理論上的最佳極限。

隨著現代搜尋技術逐漸超越單純的關鍵字，轉向理解使用者的意圖與語意，這需要仰賴能在數十億個向量中找出「最相似」結果的向量搜尋技術。TurboQuant 為這項任務提供了關鍵的支援，讓開發者能以極低的記憶體與幾乎為零的預處理時間，建立並查詢龐大的向量索引。隨著 AI 深入導入各項產品與服務領域，這類基礎的向量量化壓縮技術，將成為推動未來發展不可或缺的核心動力。

來源： https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

Search This Blog

metamuse

Google 研究團隊發表 TurboQuant 演算法極致壓縮 AI 記憶體

1. 透過 PolarQuant 實現高品質壓縮

2. 透過 QJL 消除隱藏誤差