Google 研究團隊發表 TurboQuant 演算法極致壓縮 AI 記憶體
結果引起股市震盪、記憶體下殺… 這太蠢了吧?這表示市場會更擴大建置演算中心、再度提升記憶體的使用量啊…

在人工智慧的領域中,向量 (Vectors) 是模型理解與處理資訊的基礎方式。複雜的多重特徵向量(例如影像特徵、詞彙語意或資料集屬性)雖然功能強大,卻也消耗了龐大的記憶體。這導致了「鍵值快取 (Key-Value Cache, KV Cache)」的運算瓶頸——KV Cache 就像是高速的數位備忘錄,讓電腦能快速提取常用資訊,而不必每次都在龐大的資料庫中緩慢搜尋。
傳統上,我們會使用向量量化 (Vector Quantization) 這種經典的資料壓縮技術來縮減向量的體積。這不僅能加速向量搜尋引擎的相似度比對,也能緩解 KV Cache 的瓶頸。然而,傳統的向量量化技術往往會產生自己的「記憶體額外開銷」,因為多數方法都需要精確計算並儲存每個資料區塊的量化常數,這反而削弱了壓縮的效果。
Google 研究團隊近期發表了 TurboQuant(預計於 ICLR 2026 發表),這是一項能完美解決向量量化中記憶體額外開銷的壓縮演算法。TurboQuant 結合了另外兩項關鍵技術:Quantized Johnson-Lindenstrauss (QJL) 與 PolarQuant(將於 AISTATS 2026 發表),在完全不犧牲 AI 模型效能的前提下,展現了突破性的 KV Cache 壓縮潛力。
TurboQuant 能在「完全不影響準確度」的情況下大幅縮減模型體積,是支援 KV Cache 壓縮與高速向量搜尋的理想方案。這主要歸功於兩個關鍵步驟:
1. 透過 PolarQuant 實現高品質壓縮
在第一階段,TurboQuant 會先隨機旋轉資料向量以簡化其幾何結構,接著套用 PolarQuant 技術。與傳統使用笛卡兒座標(X、Y、Z 軸)來記錄資料距離不同,PolarQuant 將向量轉換為極座標(以半徑與角度表示)。
這就像是把「向東走 3 個街區、向北走 4 個街區」改成「以 37 度角走 5 個街區」。因為角度的模式是已知且高度集中的,模型可以將資料對應到固定、可預測的「圓形」網格上,而不需要像傳統的「方形」網格那樣不斷記錄變動的邊界。這樣的設計成功消除了傳統方法所帶來的記憶體額外開銷,並利用了大部分的壓縮空間來保留原始向量的核心特徵。
2. 透過 QJL 消除隱藏誤差
在第二階段,TurboQuant 僅用極少量的殘餘壓縮空間(只需要 1 bit),利用 QJL 演算法來處理第一階段遺留的微小誤差。
QJL 運用了 Johnson-Lindenstrauss 轉換這項數學技術,能將複雜的多面向資料大幅壓縮,同時保留資料點之間的關鍵距離與關聯性。它將每個向量數值縮減為單一的正負號位元(+1 或 -1),形同建立了一套零額外開銷的高速速記法。QJL 扮演了數學除錯器的角色,能消除偏差,確保模型能計算出更精確的注意力分數 (Attention Score)。
研究團隊在多個長篇脈絡的基準測試中(如 LongBench、海底撈針測試 Needle In A Haystack 等),使用開源的大型語言模型(Gemma 與 Mistral)進行了嚴格的評估。實驗證明,TurboQuant 不僅在內積失真與召回率上達到最佳表現,更將 KV Cache 的記憶體佔用降至最低。
值得注意的是:
- 大幅壓縮且無損:TurboQuant 成功將 KV Cache 壓縮至僅 3 bit,這過程甚至不需要重新訓練或微調模型,且在海底撈針測試中維持了完美的後續應用結果,記憶體體積至少縮減了 6 倍。
- 極致的運算加速:在 H100 GPU 加速器上,4-bit 的 TurboQuant 在計算注意力對數 (Attention Logits) 時,速度比未壓縮的 32-bit 鍵值快上 8 倍。
- 強化向量搜尋:在多重特徵的向量搜尋任務中,TurboQuant 的表現持續優於現有的先進方法(如 PQ 與 RabbiQ),大幅加快了索引建立的過程。
TurboQuant、QJL 與 PolarQuant 不僅是實用的工程解決方案,更是具備堅實理論證明的基礎演算法貢獻。這些方法在實際應用中展現了絕佳的效率,並且運作水準逼近理論上的最佳極限。
隨著現代搜尋技術逐漸超越單純的關鍵字,轉向理解使用者的意圖與語意,這需要仰賴能在數十億個向量中找出「最相似」結果的向量搜尋技術。TurboQuant 為這項任務提供了關鍵的支援,讓開發者能以極低的記憶體與幾乎為零的預處理時間,建立並查詢龐大的向量索引。隨著 AI 深入導入各項產品與服務領域,這類基礎的向量量化壓縮技術,將成為推動未來發展不可或缺的核心動力。
來源: https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/