newsence
現代大型語言模型中注意力機制變體的視覺化指南

現代大型語言模型中注意力機制變體的視覺化指南

Sebastian Raschka'S Blog·14 天前

這篇文章提供了現代大型語言模型中各種注意力機制的全面視覺化概覽,範圍涵蓋從標準的多頭注意力到如分組查詢注意力等進階變體。

現代大型語言模型(LLM)注意力機制變體視覺指南

從 MHA 與 GQA 到 MLA、稀疏注意力以及混合架構

我原先計劃撰寫關於 DeepSeek V4 的文章。既然它尚未發布,我利用這段時間完成了一件列在清單上已久的事情:收集、整理並精煉過去幾年我所涵蓋的各種 LLM 架構。

因此,在過去兩週內,我將這些努力轉化為一個 LLM 架構圖鑑(在撰寫本文時已有 45 個項目),其中結合了早期文章的素材以及幾種我尚未記錄的重要架構。每個項目都附有一張視覺化模型卡,我計劃定期更新這個圖鑑。

你可以在這裡找到該圖鑑:https://sebastianraschka.com/llm-architecture-gallery/

圖片

在我分享初始版本後,一些讀者詢問是否會有海報版本。現在已經透過 Redbubble 推出了海報版。我訂購了中型尺寸(26.9 x 23.4 英吋)來檢查印刷效果,結果非常清晰。話雖如此,在該尺寸下,一些最小的文字元素已經相當小了,所以如果你希望所有內容都清晰易讀,我不建議購買更小的版本。

圖片

除了圖鑑之外,我也一直在撰寫關於幾個核心 LLM 概念的簡短說明。

因此,在本文中,我認為回顧近年來在著名的開源權重架構中開發和使用的所有最新注意力機制變體會很有趣。

我的目標是讓這個集合既能作為參考資料,也能作為輕量級的學習資源。希望你覺得它有用且具教育意義!

1. 多頭注意力機制 (Multi-Head Attention, MHA)

自注意力機制(Self-attention)讓每個標記(token)能夠查看序列中其他可見的標記,為其分配權重,並利用這些權重構建輸入內容的新上下文感知表示。

多頭注意力(MHA)是該想法的標準 Transformer 版本。它並行運行多個具有不同學習投影的自注意力頭,然後將它們的輸出組合成一個更豐富的表示。

圖片

下面的章節將從快速介紹自注意力開始,進而解釋 MHA。這更像是一個快速概覽,為後續相關的注意力概念(如分組查詢注意力、滑動窗口注意力等)奠定基礎。如果你對更長、更詳細的自注意力內容感興趣,你可能會喜歡我那篇較長的《理解並編寫 LLM 中的自注意力、多頭注意力、因果注意力和交叉注意力》文章。

範例架構:
GPT-2, OLMo 2 7B, 以及 OLMo 3 7B

1.2 歷史點滴:為什麼發明注意力機制?

注意力機制的出現早於 Transformer 和 MHA。其直接背景是用於翻譯的編碼器-解碼器(encoder-decoder)RNN。

在那些舊系統中,編碼器 RNN 會逐個標記讀取源句子,並將其壓縮成一系列隱藏狀態(hidden states),或者在最簡單的版本中壓縮成一個最終狀態。然後,解碼器 RNN 必須從那個有限的摘要中生成目標句子。這對於短而簡單的情況有效,但一旦下一個輸出單詞的相關信息存在於輸入句子的其他地方,就會產生明顯的瓶頸。

簡而言之,限制在於隱藏狀態無法存儲無限的信息或上下文,有時直接引用完整的輸入序列會更有用。

下面的翻譯範例展示了這個想法的局限性之一。例如,當模型過於將問題視為單詞對單詞的映射時,句子可能會保留許多局部合理的單詞選擇,但作為翻譯卻失敗了。(上方圖表顯示了一個誇張的例子,我們逐詞翻譯句子;顯然,結果句子的語法是錯誤的。)實際上,正確的下一個單詞取決於句子級別的結構,以及在該步驟中哪些早期的源單詞重要。當然,RNN 仍然可以很好地翻譯,但在處理較長序列或知識檢索任務時會感到吃力,因為如前所述,隱藏狀態只能存儲有限的信息。

圖片

下一張圖更直接地展示了這種變化。當解碼器產生輸出標記時,它不應受限於單一的壓縮記憶路徑。它應該能夠直接回溯到更相關的輸入標記。

圖片

Transformer 保留了上述注意力改進型 RNN 的核心思想,但移除了循環(recurrence)結構。在經典的《Attention Is All You Need》論文中,注意力機制本身成為了主要的序列處理機制(而不僅僅是 RNN 編碼器-解碼器的一部分)。

在 Transformer 中,這種機制被稱為自注意力,序列中的每個標記都會計算所有其他標記的權重,並利用這些權重將來自這些標記的信息混合成新的表示。多頭注意力則是將相同的機制並行運行多次。

1.3 遮罩注意力矩陣 (The Masked Attention Matrix)

對於一個包含 T 個標記的序列,注意力機制需要為每個標記提供一行權重,因此總體上我們得到一個 T x T 的矩陣。

每一行都回答了一個簡單的問題:在更新此標記時,每個可見標記的重要性應該是多少?在僅解碼器(decoder-only)的 LLM 中,未來的位置會被遮罩掉,這就是為什麼下圖中矩陣的右上部分是灰色的。

自注意力從根本上說是關於在因果遮罩下學習這些標記對標記的權重模式,然後利用它們構建上下文感知的標記表示。

圖片

1.4 自注意力內部機制

下一張圖展示了 Transformer 如何從輸入嵌入 X 計算注意力矩陣 (A),進而產生轉換後的輸入 (Z)。

這裡 Q、K 和 V 分別代表查詢(Queries)、鍵(Keys)和值(Values)。標記的查詢代表該標記正在尋找什麼,鍵代表每個標記可用於匹配的特徵,而值則代表在計算出注意力權重後混合到輸出中的信息。

步驟如下:

  1. Wq、Wk 和 Wv 是將輸入嵌入投影到 Q、K 和 V 的權重矩陣。
  2. QK^T 產生原始的標記對標記相關性評分。
  3. softmax 將這些評分轉換為我們在前一節討論過的歸一化注意力矩陣 A。
  4. A 應用於 V 以產生輸出矩陣 Z。

請注意,注意力矩陣並非獨立的手寫對象。它是從 Q、K 和 softmax 中產生的。

圖片

下一張圖展示了與前圖相同的概念,但注意力矩陣的計算被隱藏在「縮放點積注意力」(scaled-dot-product attention)框內,且我們僅針對一個輸入標記而非所有輸入標記進行計算。這是為了在下一節擴展到多頭注意力之前,展示單頭自注意力的緊湊形式。

圖片

1.5 從單頭到多頭注意力

一組 Wq/Wk/Wv 矩陣給我們一個注意力頭,這意味著一個注意力矩陣和一個輸出矩陣 Z。(此概念已在前一節中說明。)

多頭注意力只是並行運行多個此類頭,並使用不同的學習投影矩陣。

這很有用,因為不同的頭可以專注於不同的標記關係。一個頭可能專注於短距離的局部依賴,另一個專注於更廣泛的語義聯繫,還有一個專注於位置或語法結構。

圖片

2. 分組查詢注意力 (Grouped-Query Attention, GQA)

分組查詢注意力是從標準 MHA 衍生出的注意力變體。它由 Joshua Ainslie 及其同事在 2023 年的論文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》中提出。

它不再為每個查詢頭提供專屬的鍵和值,而是讓多個查詢頭共享相同的鍵值投影,這使得 KV 快取(KV caching)變得便宜得多(主要是減少內存佔用),同時又不會對整體的解碼器配方產生太大改變。

圖片

範例架構:

  • 稠密型 (Dense): Llama 3 8B, Qwen3 4B, Gemma 3 27B, Mistral Small 3.1 24B, SmolLM3 3B, 以及 Tiny Aya 3.35B。
  • 稀疏型 (Sparse, 混合專家模型): Llama 4 Maverick, Qwen3 235B-A22B, Step 3.5 Flash 196B, 以及 Sarvam 30B。

2.1 為什麼 GQA 變得流行

在我的架構比較文章中,我將 GQA 描述為經典多頭注意力 (MHA) 的新標準替代方案。原因是標準 MHA 為每個頭提供專屬的鍵和值,這從建模角度來看更為理想,但一旦我們在推理過程中必須將所有這些狀態保留在 KV 快取中,成本就會變得很高。

在 GQA 中,我們保留較大數量的查詢頭,但減少鍵值頭的數量,並讓多個查詢共享它們。這降低了參數數量和 KV 快取的數據傳輸量,而無需像稍後討論的多頭潛在注意力 (MLA) 那樣進行劇烈的實現更改。

在實踐中,這使得 GQA 成為那些希望比 MHA 更便宜、但比 MLA 等新型重度壓縮方案更容易實現的實驗室的熱門選擇。

2.2 GQA 的內存節省

GQA 顯著節省了 KV 存儲空間,因為每層保留的鍵值頭越少,每個標記所需的快取狀態就越少。這就是為什麼 GQA 隨著序列長度的增加而變得更加有用。

GQA 也是一個光譜。如果我們一直減少到只有一個共享的 K/V 組,我們實際上就進入了多查詢注意力(Multi-Query Attention)的範疇,這雖然更便宜,但會更明顯地損害建模質量。最佳平衡點通常介於多查詢注意力(1 個共享組)和 MHA(K/V 組數量等於查詢頭數量)之間,此時快取節省量巨大,但相對於 MHA 的建模性能下降卻很輕微。

圖片

2.3 為什麼 GQA 在 2026 年依然重要

更先進的變體(如 MLA)正變得流行,因為它們在相同的 KV 效率水平下可以提供更好的建模性能(例如在 DeepSeek-V2 論文的消融研究中所討論的),但它們也涉及更複雜的實現和更複雜的注意力堆棧。

GQA 依然具有吸引力,因為它穩健、易於實現且易於訓練(根據我的經驗,所需的超參數調整較少)。

這就是為什麼一些較新的發布版本仍刻意保持經典。例如,在我的《春季架構》文章中,我提到 MiniMax M2.5 和 Nanbeige 4.1 是保持非常經典的模型,僅使用分組查詢注意力,而沒有堆疊其他效率技巧。Sarvam 也是一個特別有用的對比點:30B 模型保留了經典的 GQA,而 105B 版本則切換到了 MLA。

圖片

3. 多頭潛在注意力 (Multi-Head Latent Attention, MLA)

多頭潛在注意力 (MLA) 的動機與分組查詢注意力 (GQA) 相似。兩者都是為了減少 KV 快取內存需求的解決方案。GQA 與 MLA 的區別在於,MLA 是通過壓縮存儲內容來縮小快取,而不是通過共享頭來減少存儲的 K/V 數量。

圖片

MLA 最初在 DeepSeek-V2 論文中提出,並成為了 DeepSeek 時代的標誌性想法(特別是在 DeepSeek-V3 和 R1 之後)。它比 GQA 更難實現,部署也更複雜,但如今當模型規模和上下文長度大到快取傳輸開始佔主導地位時,它往往更具吸引力,因為在相同的內存減少率下,它可以保持更好的建模性能(稍後詳述)。

範例架構:
DeepSeek V3, Kimi K2, GLM-5, Ling 2.5, Mistral Large 3, 以及 Sarvam 105B

3.1 是壓縮,而非共享

MLA 不像 MHA 和 GQA 那樣快取全分辨率的鍵和值張量,而是存儲一個潛在表示(latent representation),並在需要時重建可用狀態。本質上,它是一種嵌入在注意力機制內部的快取壓縮策略,如前圖所示。

下圖顯示了與常規 MHA 相比的節省情況。

圖片

3.2 MLA 消融研究

DeepSeek-V2 論文提供了一些消融研究,結果顯示 GQA 在建模性能方面不如 MHA,而 MLA 則表現穩健,甚至在精心調整後可以超越 MHA。這比單純的「它(也)節省內存」是更有力的理由。

換句話說,對於 DeepSeek 來說,MLA 是更理想的注意力機制,不僅因為它高效,還因為它在大規模下看起來是一種能保持質量的效率方案。(但同事也告訴我,MLA 僅在一定規模以上才表現良好。對於較小的模型,例如 <100B,GQA 似乎效果更好,或者至少更容易調整和掌握。)

圖片

下圖再次展示了 30B Sarvam 的 GQA 與 105B Sarvam 的 MLA 之間的對比。

圖片

3.3 MLA 在 DeepSeek 之後如何傳播

一旦 DeepSeek V3/R1、V3.1 等在 V2 引入後將該設計標準化,它便開始出現在第二波架構中。Kimi K2 保留了 DeepSeek 的配方並將其擴展。GLM-5 採用了 MLA 以及 DeepSeek 稀疏注意力(源自 DeepSeek V3.2)。Ling 2.5 將 MLA 與線性注意力混合架構配對。Sarvam 發布了兩個模型,其中 30B 模型保留了經典 GQA,而 105B 模型則切換到了 MLA。

最後一對模型特別有用,因為它撇開了技術複雜性的討論。也就是說,Sarvam 團隊實現了這兩種變體,並刻意選擇在一個變體中使用 GQA,在另一個中使用 MLA。因此,在某種意義上,這讓 MLA 感覺不再只是一個理論上的替代方案,而是一個當模型家族規模擴大時具體的架構升級路徑。

4. 滑動窗口注意力 (Sliding Window Attention, SWA)

滑動窗口注意力通過限制每個位置可以關注的先前標記數量,來降低長上下文推理的內存和計算成本。每個標記不再關注整個前綴,而僅關注其位置周圍固定窗口內的近期標記。由於注意力被限制在局部標記鄰域內,這種機制通常被稱為局部注意力(local attention)。

一些架構將這些局部層與偶爾出現的全域注意力(global attention)層結合,以便信息仍能在整個序列中傳播。

圖片

範例架構:
Gemma 3 27B, OLMo 3 32B, Xiaomi MiMo-V2-Flash, Arcee Trinity, Step 3.5 Flash, 以及 Tiny Aya

4.1 以 Gemma 3 作為參考點

Gemma 3 仍是近期最清晰的 SWA 範例之一,因為它很容易與 Gemma 2 進行比較。Gemma 2 已經使用了混合注意力設置,局部層與全域層的比例為 1:1,窗口大小為 4096 個標記。Gemma 3 進一步將此比例推至 5:1,並將窗口大小縮減至 1024。

關鍵發現並非局部注意力更便宜,因為這早已為人所知。這裡從 Gemma 3 消融研究中得到的更有趣的啟示是,更激進地使用這種機制似乎僅會輕微損害建模性能。

圖片

4.2 比例與窗口大小

在實踐中,說一個模型「使用 SWA」並不意味著它僅依賴 SWA。通常重要的是局部與全域層的模式以及注意力窗口的大小。例如:

  • Gemma 3 和小米使用 5:1 的局部對全域模式。
  • OLMo 3 和 Arcee Trinity 使用 3:1 的模式。
  • 小米還使用了 128 的窗口大小,這比 Gemma 的 1024 小得多,因此更為激進。

SWA 本質上是一個可以或多或少激進調整的旋鈕。

圖片

4.3 將 SWA 與 GQA 結合

SWA 經常與 GQA 同時出現,因為這兩個想法解決了同一個推理問題的不同部分。SWA 減少了局部層必須考慮的上下文量。GQA 減少了每個標記對快取貢獻的鍵值狀態量。

這就是為什麼許多近期的稠密模型同時使用兩者,而不是將它們視為替代方案。Gemma 3 在這裡再次成為一個很好的參考點,因為它在同一架構中結合了滑動窗口注意力與分組查詢注意力。

5. DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA)

DeepSeek 稀疏注意力是出現在 DeepSeek V3.2 系列中的架構變化之一,隨後也出現在 GLM-5 中。

具體來說,DeepSeek V3.2 將其與多頭潛在注意力 (MLA) 結合,GLM-5 也出於同樣的通用原因採用了這對組合,即在上下文長度變大時降低推理成本。

範例架構:
DeepSeek V3.2 和 GLM-5

5.1 相對於滑動窗口注意力的變化

在滑動窗口注意力中,當前標記不關注完整的前綴,而僅關注固定的局部窗口。這與 DeepSeek 稀疏注意力的廣義想法相同,即每個標記也僅關注先前標記的一個子集。

然而,所選標記並非由固定寬度的局部窗口決定。相反,DeepSeek 稀疏注意力使用了一種學習到的稀疏模式。簡而言之,它使用了一種「索引器加選擇器」的設置,其中一個閃電索引器(lightning indexer)計算相關性評分,而一個標記選擇器僅保留一組較小的、高評分的過去位置。

子集標記的選擇方式是其與滑動窗口注意力的主要區別。滑動窗口注意力硬編碼了局部性。DeepSeek 稀疏注意力雖然仍將注意力限制在子集內,但它讓模型決定哪些先前的標記值得重新訪問。

圖片

5.2 DeepSeek 稀疏注意力與 MLA

DeepSeek V3.2 同時使用了多頭潛在注意力 (MLA) 和 DeepSeek 稀疏注意力。MLA 通過壓縮存儲內容來降低 KV 快取成本。DeepSeek 稀疏注意力則減少了模型必須重新訪問的先前上下文量。換句話說,一個優化了快取表示,另一個優化了其上的注意力模式。

圖片

稀疏模式並非隨機。第一階段是一個閃電索引器,它為每個新查詢標記對先前的標記進行評分。它利用 MLA 的壓縮標記表示,並在先前上下文上計算學習到的相似度評分,以便模型可以對哪些早期位置值得重新訪問進行排名。

第二階段是一個標記選擇器。它僅保留一個較小的高評分子集(例如過去位置的 top-k 集合),並將該子集轉換為稀疏注意力遮罩。因此,重點在於 DeepSeek 稀疏注意力並非硬編碼稀疏模式,而是學習要保留哪些過去的標記。

圖片

DeepSeek 稀疏注意力相對較新且實現起來較為複雜,這就是為什麼它尚未像分組查詢注意力 (GQA) 那樣被廣泛採用的原因。

6. 門控注意力 (Gated Attention)

門控注意力最好被理解為一種修改後的全注意力區塊,而非一個獨立的注意力家族。

它通常出現在混合堆棧中,這些堆棧仍保留偶爾的全注意力層用於精確的內容檢索,但在原本熟悉的縮放點積注意力區塊之上添加了一些面向穩定性的更改。

圖片

6.1 門控注意力出現的地方

Qwen3-Next 和 Qwen3.5 架構顯示,近期的混合架構(將在下一節介紹)並非在所有地方都取代了注意力機制。相反,它們用更便宜的替代方案取代了大部分注意力層,並在堆棧中保留了少量的全注意力層。

這些剩餘的全注意力層通常就是門控注意力出現的地方。Qwen3-Next 和 Qwen3.5 以 3:1 的比例將其與 Gated DeltaNet 結合使用。

但撇開混合架構不談,Trinity 在更傳統的注意力堆棧中也使用了相關的門控思想,如上圖所示。

6.2 門控注意力相對於標準注意力

Qwen 風格混合架構或 Trinity(非混合架構)中的門控注意力區塊本質上是標準的縮放點積注意力,並在其之上進行了一些更改。在原始的門控注意力論文中,這些更改被呈現為一種讓保留的全注意力層在混合堆棧中表現得更可預測的方法。

該區塊看起來仍像標準(全)注意力,但增加了:

  • 一個輸出門,在注意力結果被加回殘差之前對其進行縮放。
  • 一種零中心(zero-centered)的 QK-Norm 變體,取代了 q 和 k 的標準 RMSNorm。
  • 部分旋轉位置編碼 (partial RoPE)。

這些並非 MLA 或線性注意力那種規模的改變,而僅僅是應用於原本熟悉的注意力區塊上的穩定性與控制性更改。

圖片

請注意,上圖還包括了 Gated DeltaNet,我們將在下一節中介紹。

7. 混合注意力 (Hybrid Attention)

混合注意力與其說是一種特定的單一機制,不如說是一種更廣泛的設計模式。總體思路是保留類似 Transformer 的堆棧,但將大部分昂貴的全注意力層替換為更便宜的線性或狀態空間序列模組。

其動機是長上下文效率。全注意力的計算量隨序列長度呈二次方增長,因此一旦模型轉向 128k、256k 或 1M 標記的上下文,注意力的內存和計算成本就會變得非常昂貴,此時在大多數層中使用更便宜的序列模組,同時僅保留少量的重度檢索層,就變得更有意義。(請注意,這會帶來一些建模性能上的權衡。)

在 Qwen3-Next 中,這種模式表現為 Gated DeltaNet 和門控注意力區塊的 3:1 混合。Gated DeltaNet 與 Mamba-2 密切相關(例如參見《Gated Delta Networks: Improving Mamba2 with Delta Rule》論文),該機制可以解讀為 DeltaNet 風格的快速權重更新結合 Mamba 風格的門控。後來的架構保留了相同的總體思路,但換成了其他輕量級序列混合器,如 Kimi Delta Attention、Lightning Attention 或標準 Mamba-2。

圖片

7.1 Qwen3-Next 中的 Gated DeltaNet

據我所知,第一個採用混合注意力的準旗艦級 LLM 顯著範例是 2025 年的 Qwen3-Next,它並未完全移除注意力,而是將三個 Gated DeltaNet 區塊與一個門控注意力區塊混合。

在這裡,輕量級的 Gated DeltaNet 區塊承擔了大部分長上下文工作,並使內存增長比全注意力平緩得多。保留較重的門控注意力層是因為 DeltaNet 在基於內容的檢索方面不夠精確。

在 Gated DeltaNet 區塊內部,模型計算查詢、鍵和值向量,以及兩個學習到的門(α, β)。它不再形成通常的標記對標記注意力矩陣,而是使用 Delta 規則更新寫入一個小的快速權重內存。粗略地說,內存存儲了過去信息的壓縮運行摘要,而門則控制添加多少新信息以及保留多少先前狀態。

這使得 Gated DeltaNet 成為一種線性注意力或循環風格的機制,而不僅僅是對 MHA 的另一種微調。相對於 Mamba-2,兩者的密切聯繫在於它們都屬於線性時間門控序列模型家族,但 Gated DeltaNet 使用 DeltaNet 風格的快速權重內存更新,而非 Mamba 的狀態空間更新。

圖片

Qwen3.5 將之前的 Qwen3-Next 混合架構移入了 Qwen 的主旗艦系列,這是一個有趣的舉動。這基本上信號著混合策略是成功的,未來我們可能會看到更多採用此架構的模型。

圖片

7.2 Kimi Linear 與改進的 Delta Attention

Kimi Linear 保留了同樣廣義的 Transformer 骨架和 3:1 的模式,但改變了配方的兩部分。

在輕量級方面,Kimi Delta Attention 是對 Gated DeltaNet 的精煉。Qwen3-Next 使用每個頭一個標量門來控制內存衰減,而 Kimi 使用通道級(channel-wise)門控,這對內存更新提供了更精細的控制。在重度方面,Kimi 用門控 MLA 層取代了 Qwen3-Next 的門控注意力層。

因此,它仍與 Qwen3-Next 和 Qwen3.5 具有相同的廣義模式,但兩種成分都發生了(輕微)變化。也就是說,大多數層仍由更便宜的線性風格機制處理,而週期性的重度層仍保留以實現更強的檢索能力。

圖片

7.3 Ling 2.5 與 Lightning Attention

Ling 2.5 展示了輕量級方面的另一種替換。Ling 不使用 Gated DeltaNet,而是使用一種稍微簡單的循環線性注意力變體,稱為 Lightning Attention。在重度方面,它保留了來自 DeepSeek 的 MLA。

大多數序列混合發生在較便宜的線性注意力區塊中,而少數重度層則保留以維持較強的檢索能力。區別在於具體的輕量級機制現在是 Lightning Attention,而非 DeltaNet 或 Kimi Delta Attention。

圖片

Ling 2.5 更多地針對長上下文效率,而非絕對的基準測試領先地位。根據 Ling 團隊的說法,據報其在 32k 標記下的速度大幅快於 Kimi K2,這正是這些混合架構所追求的實際回報。

圖片

Nemotron 與 Mamba-2

Nemotron 將這種模式推向了更遠離 Transformer 基準線的方向。Nemotron 3 Nano 是一個 Mamba-Transformer 混合體,它將 Mamba-2 序列建模區塊與稀疏 MoE 層交錯,且僅在極少數層中使用自注意力。

這是上述基本權衡的一個更極端版本。在這裡,輕量級序列模組是 Mamba-2 狀態空間區塊,而非 DeltaNet 風格的快速權重更新,但基本權衡是相似的。

圖片

較大的 Nemotron 3 Super 保留了 Mamba-2 混合注意力方法,並添加了其他面向效率的更改,例如潛在 MoE (latent MoE) 和用於投機解碼(speculative decoding)的共享權重多標記預測 (MTP)。

圖片

結論

當然,文獻中還有許多我在此未涵蓋的(多為小眾的)注意力變體。本文的重點在於目前最先進(開源權重)模型中使用的變體。

特別是,我期待看到:(1) 全新的 Mamba-3 層被整合到上述混合架構中(取代 Gated DeltaNet),以及 (2) 注意力殘差(attention residuals)被普遍使用。

在實踐中,你可能也會好奇目前「最佳」的架構是什麼。這很難回答,因為目前還沒有公開實驗在相同的訓練數據上訓練不同的架構。

因此,我們目前只能回答對於給定問題,最佳的(已訓練)模型選擇是什麼。在我看來,混合架構仍屬新穎,其主要賣點主要是(長上下文)效率,而非單純的建模性能。因此,我認為它們是代理(agent)場景(如 OpenClaw)的絕佳候選者。

就個人而言,我認為混合架構的問題還在於推理堆棧尚未得到充分優化,我發現當使用更經典的設置(如帶有分組查詢注意力的 GPT-OSS)在本地運行 LLM 時,我能獲得更好的每秒標記(tok/sec)吞吐量。

無論如何,我很想看看 DeepSeek V4 會帶來什麼,因為 DeepSeek 在過去兩年中一直是相當可靠的趨勢引領者。

https://magazine.sebastianraschka.com/p/visual-attention-variants