Attention Residuals：Moonshot AI 提出的 Transformer 架構新方案

Hacker News·16 天前

原文

Moonshot AI 推出了 Attention Residuals (AttnRes)，這是一種可用於替換標準殘差連接的新技術，讓每一層都能透過學習到的注意力機制選擇性地聚合先前的表示，顯著提升了推理與程式碼生成的能力。

github.com

Attention Residuals

背景

MoonshotAI 近期發表了名為 Attention Residuals（AttnRes）的新架構，旨在解決 Transformer 模型中標準殘差連接（Residual Connections）的侷限性。傳統的 PreNorm 殘差連接會以固定的單位權重累加所有層的輸出，這導致隱藏狀態隨深度增加而無限制增長，進而稀釋了每一層的貢獻。AttnRes 提議將這種固定累加替換為對先前所有層輸出的 Softmax 注意力機制，讓每一層能根據輸入內容，動態且選擇性地聚合先前的表徵。

社群觀點

在 Hacker News 的討論中，這項技術引起了關於訓練效率與硬體實作可行性的激烈辯論。支持者認為這是一項重大的突破，特別是考慮到它對訓練成本的潛在節省。有觀點指出，AttnRes 能夠將達到相同損失函數值所需的訓練計算量降低約百分之二十，這意味著自動化研究或大型企業在迭代新模型架構時能有更快的速度。此外，部分討論者最初對其推理性能感到興奮，認為該技術能大幅降低推理時的記憶體頻寬需求，甚至宣稱其頻寬需求僅為傳統方法的六分之一，這對在消費級硬體上執行大型模型將是極大的利多。

然而，這些樂觀的解讀隨即遭到了質疑與修正。反對意見指出，論文的核心貢獻在於訓練動態的優化，而非直接降低推理頻寬。所謂的計算優勢是透過插值法計算出的「等效計算量」，即若要讓傳統架構達到與 AttnRes 相同的性能，需要多投入百分之二十的計算資源，這並不等同於直接減少了訓練時的運算開銷。針對推理頻寬的討論也被認為是誤讀了數據，批評者強調該研究主要關注於解決 PreNorm 的稀釋問題與梯度分佈不均，而非硬體層面的頻寬優化。

在技術實作層面，社群關注到 Full AttnRes 在大規模擴展時會面臨記憶體佔用過高的問題。為此，討論者特別提到了 Block AttnRes 的折衷方案，即將層級分組並僅在塊級別應用注意力機制。這種做法被認為是更具實踐意義的「掉入式替換」（drop-in replacement），能在保持大部分性能增益的同時，將記憶體開銷控制在可接受範圍內。此外，也有評論者將此機制與 LSTM 的輸入門（input gates）進行類比，認為這種讓模型自行決定保留或忽略哪些資訊的邏輯，在深度學習演進中具有一致性。值得一提的是，社群也對作者背景感到驚訝，指出該論文的第一作者仍是一名高中生，這為這項技術討論增添了不少話題性。

Attention Residuals：Moonshot AI 提出的 Transformer 架構新方案

背景

社群觀點

延伸閱讀