或許我對深度學習理論過於苛刻了

Lesswrong·大約 4 小時前

我反思了先前對深度學習理論的懷疑態度，並意識到平均場論與張量程序代表了一個連貫且富有成效的學術傳統，並產生了如最大更新參數化等具體的實踐成果，這值得比我原先給予的評價更多的肯定。

幾天前，我評論了一篇題為《深度學習將會有一套科學理論》的論文。在文中，我對作者撰寫此文表示讚賞，但對其標題所主張的強勢觀點持懷疑態度。

從那以後，我與多位過去的合作夥伴進行了交流（透過簡訊和面談），並閱讀或重讀了不少深度學習理論論文，包括我在 LessWrong 上寫過的震撼性論文：Zhang 等人 2016 以及 Nagarajan 等人 2019。

事實是，關於無限寬度/深度極限的部分研究，結果比我想像中要有趣得多。或許我對深度學習理論的評價（稍微）過於苛刻了。

（特別感謝 Dmitry Vaintrob 和 Kareel Hänni 就此話題進行的對話。其中大部分是私下交流，但受到 Dmitry 在 LessWrong 上的評論的啟發。也要再次感謝《深度學習科學理論》論文的作者，他們提供了許多我之前遺忘或未曾察覺的論文引用。）

我對無限寬度和深度極限研究的大部分印象，來自於神經切線核 (Neural Tangent Kernel, NTK) / 神經網路高斯過程 (Neural Network Gaussian Process, NNGP) 系列工作。這一系列工作始於 Radford Neal 1994 年的論文，他在文中指出，具有隨機權重的無限寬單隱藏層神經網路是一個高斯過程。在 2017/2018 年，這項工作被擴展到深層神經網路；Lee 等人證明，如果取某種特定類型的無限寬度極限，隨機初始化的「深層」神經網路也是一個高斯過程。隨後這被擴展到神經切線核 (NTK) 的研究，該研究描述了這些無限寬神經網路的訓練動態，並證明其等同於使用固定核（即同名的神經切線核）進行的核梯度下降。這使得人們能夠推導出收斂性質和非平凡的泛化界限。

遺憾的是，儘管這套理論很優美，但它絕對「不是」神經網路學習的方式。在 NTK 極限下，網路的行為就像是在一個維度等於神經網路參數數量的特徵空間中進行線性回歸。值得注意的是，這裡沒有特徵學習 (feature learning)，且只有最後一層的權重會有顯著更新。不出所料，這無法描述神經網路的行為；研究已顯示，小型（有限寬度）神經網路的表現優於其對應的切線核。

另一種取無限寬度極限的方法是平均場論（Mean Field Theory, MFT，應用於深層神經網路）。根據我的理解，物理學中平均場論的基本思想是：與其計算許多物體之間的相互作用，不如將多體交互作用替換為一個捕捉系統整體動態的平均「場」。（因此得名。）在神經網路領域，事實證明你可以取另一種無限寬度極限，在這種極限下，隱藏單元參數的經驗分佈（被視為參數空間上的機率測度）會在確定性流 (deterministic flow) 下演化。這項工作在 2018 年左右由 Mei, Montanari, and Nguyen、Chizat and Bach、Rotskoff and Vanden-Eijnden 以及 Sirignano and Spiliopoulos 完成。

值得注意的是，在這種不同的無限寬度極限下，網路實際上「會」學習特徵。NTK 使用 1/√N 的縮放，這使得參數在訓練期間僅移動 O(1/√N)：這太小了，不足以改變有效核。平均場則使用 1/N 的縮放，這讓參數可以移動 Θ(1)，因此核會演化，隱藏表示也會在訓練過程中改變。在 MFT 中，模型的行為不僅僅是在固定的隨機特徵空間中進行美化版的線性回歸。話雖如此，有好幾年的時間，MFT 完全是一套關於「2 層」神經網路的理論，當時確實不清楚如何將其擴展到更深的網路。

與大多數深度學習社群成員一樣，我對 Greg Yang 的張量程序 (Tensor Program) 研究印象深刻，這是 2 層 MFT 研究的自然延伸。Greg Yang 證明了一系列定理，使他能夠為深層神經網路建立一個「統一框架」（abc 參數化），其中 NNGP/NTK 和 MFT 都是這個家族中的特例。值得注意的是，這讓他推導出了 μP（最大更新參數化），它允許超參數跨寬度轉移（儘管後來的研究也將其擴展到了深度）。這被廣泛認為是現代深度學習理論中最清晰的應用（有人會說，是「唯一」清晰的應用）。

在我的記憶中，我將這歸功於 Greg Yang 是個天才。在我對這項工作的回憶裡，我只記得 μP 和 Yang 創建的用於重新推導它的玩具淺層神經網路模型。

我所忽略的，且在過去幾天才了解到的是，Yang 並非憑空發明了這套機制。^([1]) 還有「另一條」研究路線，由 Google Brain 的一個團隊完成，令人困惑的是，該路線也題為「平均場論」，它研究的是信號在初始化時如何向前和向後傳播（儘管不是訓練動態）。這項工作的兩個先驅範例包括 Poole 等人的《透過瞬態混沌實現深層神經網路的指數級表達能力》和 Schoenholz 等人的《深度信息傳播》。Greg Yang 的張量程序工作源於這一系列研究，且 Greg Yang 曾是 Schoenholz 等人的合作者。

閱讀這些著作後，可以清楚看到 Yang 的工作如何從 MFT 的這個「信號傳播」分支中汲取靈感。^([2]) 例如，信號傳播 MFT 的研究包含了 Greg Yang 主定理 (Master Theorem) 的特例，因為它們都利用了在無限寬度下，預激活 (pre-activations) 是高斯分佈這一事實，從而透過協方差上的確定性遞歸來逐層追蹤其演化。

（我猜測命名空間的衝突是我之前漏掉這一系列研究的原因；我讀過 MFT 的 2 層訓練動態分支，以為自己已經理解了 MFT 的相關部分，卻完全錯過了信號傳播分支。）

我仍然認為「深度學習將會有一套科學理論」的「強勢」版本——即解釋「為什麼」在過度參數化網路上的 SGD 能泛化、「為什麼」特定的架構選擇有效，以及「什麼」特定的特徵被學習到——目前還遠未確立。我也認為 Zhang 等人和 Nagarajan 等人的結果對於舊有的 PAC-Bayes / 一致收斂 (uniform-convergence) 方法來說，依然是真正的打擊。我不認為 MFT/TP 文獻中有任何內容解決了那些論文提出的核心謎題（它們在非常不同的範疇內解決非常不同的問題）。

但我對深度學習理論的大部分悲觀情緒，來自於覺得沒有一個連貫的知識傳統能指向具體的勝利。既然 MFT（包括信號傳播和訓練動態分支）和張量程序構成了這樣一個傳統（而不僅僅是一個天才個人的工作），那麼深度學習理論中至少有一個傳統產生了累積性的進展，並做出了在實踐中得到證實的可證偽預測。這值得獲得比我之前給予該領域更多的肯定。

抱歉。

我偶爾會遇到一些聰明的年輕 AI 從業者，他們對數學有濃厚興趣但對工程興趣不大，他們會問我該學習什麼。除了深度學習最基礎的內容（例如優化器、基礎 RL 理論）之外，我以前總是聳聳肩說：「也許是疊加計算 (computation in superposition)？也許是奇異學習理論 (Singular Learning Theory)？」。從現在起，我想我會以「大概是平均場論和張量程序研究」作為回答的開頭。

^(^)是的，回想起來這很顯而易見。正如我在文後所說，抱歉。
^(^)當然，關於初始化有很多研究（例如 Xavier 和 He 初始化），其中大部分依賴於：1) 追蹤前向和後向傳遞，2) 對各種參數規模的啟發式計算，以及 3) 初始化時參數與梯度之間的獨立性假設，這些都比 MFT 研究簡單得多。雖然 μ-參數化張量程序論文也提供了這些啟發式計算（允許人們從玩具模型重新推導出 μ-P），但它利用自由機率論 (free probability) 和隨機矩陣理論的工具將這些假設正式化了。
^(^)我所知最接近的相關工作是 Rubin, Seroussi, and Ringel 的《兩層網路中作為一階相變的頓悟 (Grokking)》。

參與討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

或許我對深度學習理論過於苛刻了