從每 Token 300KB 到 69KB：大型語言模型架構如何解決 KV 快取問題

Hacker News·8 天前

原文

這篇技術分析探討了大型語言模型架構中 KV 快取優化的演進過程，從 GPT-2 到 DeepSeek V3 與 Gemma 3，強調了如何透過 GQA 和潛在注意力機制等技術提升記憶體效率。

news.future-shock.ai

the weight of remembering

背景

隨著大型語言模型（LLM）的對話長度增加，如何有效管理「鍵值快取」（KV Cache）成為提升效能與降低成本的關鍵。本文探討了從 GPT-2 到 DeepSeek V3 等不同架構如何透過技術演進，將每 token 的記憶體占用從 300KB 大幅縮減至 69KB，反映出 AI 領域從「全量記憶」轉向「壓縮與選擇性注意」的哲學轉變。

社群觀點

在 Hacker News 的討論中，技術社群對 KV 快取的優化展現了極高興趣，並補充了許多架構設計之外的實務手段。許多開發者指出，除了模型本身的架構演進，推論時的「量化技術」是另一條平行的重要路徑。透過對 KV 快取進行量化處理，例如將鍵（Keys）設為 8 位元、值（Values）設為 4 位元的非對稱量化，可以在不顯著犧牲品質的前提下，讓原本難以負荷的超長文本在消費級硬體上運行。這種做法的邏輯在於鍵值對注意力分數的驅動至關重要，需要較高精度，而值則對損耗性壓縮有較高的容忍度。

然而，量化並非萬靈丹，部分留言者提醒，某些模型在 KV 量化後會出現嚴重的品質衰退，且使用不對稱的資料類型有時反而會造成運算速度下降。目前社群正關注如 TurboQuant 等新興技術，這類技術嘗試透過極座標轉換等數學手段，在達成顯著記憶體縮減的同時，甚至能帶來速度上的提升。此外，也有觀點提到一種名為「Cartridges」的創新方法，這類研究不再只是被動地壓縮快取，而是利用梯度下降法在凍結模型權重的狀況下，直接優化 KV 快取內容，將龐大的文件或代碼庫濃縮成極小規模的 token 集合。

有趣的是，社群也帶入了一些感性的技術對比。當 DeepSeek V3 將每 token 成本壓低至 69KB 時，這恰好與航海家 1 號（Voyager 1）所搭載的記憶體容量相同。這種巧合讓開發者感嘆，當年的航天壯舉僅需如此微小的空間，而現代 AI 僅僅是為了「記住」一個詞彙的上下文，就耗費了同等的資源。這也引發了關於「過度記憶」與「有效過濾」的討論，認為未來 LLM 的發展或許不應追求無限的記憶，而是該學習如何像人類一樣，在資訊流動中即時決定哪些該留、哪些該捨。

從每 Token 300KB 到 69KB：大型語言模型架構如何解決 KV 快取問題

背景

社群觀點

延伸閱讀