快速論文評論：深度學習將會有一套科學理論

Lesswrong·2 天前

這篇文章分析了一篇帶有宣言性質的論文，該論文提出學習力學作為理解深度學習動力學的新興框架，並挑戰了目前領域內普遍存在的悲觀情緒。

感謝 Eric Michaud 與我分享他的論文。

在機器學習領域，有一種高影響力論文使用簡短、有力且斷言式句子的傳統：如《Understanding Deep Learning Requires Rethinking Generalization》（理解深度學習需要重新思考泛化）、《Attention is All You Need》（注意力就是你所需要的一切）、《Language Models Are Few Shot Learners》（語言模型是少樣本學習者）等等。

Simon 等人的一篇新論文試圖延續這一傳統，但使用的不是現狀聲明，而是一個具有預言色彩的未來時態句子：《There Will Be a Scientific Theory of Deep Learning》（深度學習將會有科學理論）。

基本上各界對深度學習理論都充滿了悲觀情緒：開發 AI 的人相當悲觀，學術界的 AI 研究者通常也很悲觀（甚至是以前做理論的人！），而且除了大約 3-4 個研究小組之外，獨立的 AI 安全生態系統早已放棄了對理解深度學習理論的希望。

這篇論文與其說是對證據的中立評估，不如說是一份為特定的深度學習理論研究議程辯護的宣言。考慮到整體的沮喪氛圍，這種形式是合理的：如果力道再小一點，可能不足以穿透籠罩在所有深度學習理論上的普遍悲觀感。

那麼，論文裡寫了什麼？

作者首先介紹了他們認為正在興起的深度學習新理論：「學習力學」（learning mechanics，其命名是刻意向統計力學或量子力學等物理理論致敬）。用作者的話來說，學習力學是一門關注「訓練過程動力學」的理論，利用「學習的粗粒度聚合統計數據」進行研究，目標是產生「準確的平均情況預測」。

（從這個意義上說，這與其說是整體的「深度學習理論」，不如說是描述深度學習重要面向的理論。我稍後會在文中回到這一點。）

作者闡述了為什麼這樣的理論很重要。首先是科學原因：理解動力學可能有助於我們更好地理解智能的本質和自然世界。其次是實用的工程原因：對學習動力學的清晰刻畫將為大型語言模型（LLM）的訓練提供指導。第三是 AI 安全原因：更好地理解系統可能有助於監管和 AI 治理，且學習動力學可能對機械解釋性（mech interp）有所貢獻。

接著，作者提出了五條證據，說明為什麼學習力學既存在，又有可能成為「深度學習理論」：

存在我們可以進行解析求解的玩具設定（toy settings），這些設定也能產生可轉移到實踐中大型模型的見解。這些結果大多來自深度線性網絡或神經網絡的線性化版本，儘管最近在玩具非線性神經網絡（例如 2 層網絡或僅含注意力的模型）方面已取得理論進展。
我們可以取神經網絡的無限寬度或無限深度極限，這有時會產生可應用於實踐中模型的有趣見解（經典例子是 mu-parameterization）。
神經網絡的聚合統計數據之間存在明顯的規律性：如聯繫參數數量、數據集大小和損失（loss）的經典縮放法則（scaling laws），或是訓練過程中權重動力學、梯度對齊或盆地寬度（basin width）的各種模式。雖然目前還沒有太多理論能讓我們對聚合統計數據產生「新穎預測」的例子，但這些明顯規律性的存在，以及在解釋它們方面取得的一些理論進展，是希望的理由。
我們在理解和解耦超參數方面取得了進展。這或許是深度學習理論目前最主要的具體應用：當你增加數據量或模型參數時，為縮放學習/初始化超參數產生新的經驗法則（同樣，mu-parameterization 是經典例子）。
我們在歸納偏置（inductive biases）、數據結構和表示（representations）中發現了普適性（universality）。也就是說，不同的深度神經網絡架構似乎會學習到相似的表示，因為許多數據集也具有相似的屬性。同樣地，雖然理論仍處於萌芽階段，但這些普適性的存在是希望的理由。

隨後，作者用少量篇幅概述了學習力學與以下領域的關係：經典學習理論、信息論、深度學習物理學、神經科學、統計學習理論（SLT）/發育解釋性（dev interp）以及深度學習實證科學。接著，他們用了更多篇幅概述學習力學與機械解釋性之間的聯繫：學習力學可能通過形式化核心假設或解釋訓練過程中機制如何產生來幫助機械解釋性，而機械解釋性則可能啟發學習力學去研究某些現象（正如過去所做的那樣）。

接下來，作者回應了他們預期中來自批評者的論點：

人們幾十年來一直試圖開發深度學習理論，但大多失敗了。 作者正確地指出，深度學習的成功是非常近期的事（最近對學習動力學的研究也是如此），而且與其他科學學科相比，目前投入的總努力量仍然很小。
理論離解釋 LLM 還很遠。 作者回應說，我們可能仍會發現解釋不同規模下部分行為的「局部理論」，且基礎理論仍可通過提供分析 LLM 的概念抓手而發揮作用。
模型的高層行為很重要，但底層理論無法捕捉到這一點。 作者將此類比為物理學（學習力學）、生物學（機械解釋性）和心理學（行為評估）之間的關係。他們暗示，正如理解物理學對生物學有用，而生物學對心理學有用一樣，學習力學和機械解釋性對於模型評估也是有用的。
我們需要的是數據理論，而不是深度學習理論。 作者正確地指出，這些理論很可能是互補的。
AI 將使所有人類努力自動化。 作者指出，這並不是針對深度學習理論的獨特論點；所有人類努力都面臨威脅。他們認為理論現在就已經有用，且會有一個 AI 增強人類研究的過渡期，理解學習動力學可能有助於對超人類 AI 的監督。（個人認為這個回應最弱，很大程度上是因為我可能在目前工作的有用性上與作者持不同意見。）

最後，作者列出了學習動力學的 10 個研究方向，並為該領域的研究提供了一些建議。

這篇論文作為任何進入解釋性領域的人的綜述顯然是有價值的。我認為對於那些不熟悉近期學術界深度學習理論工作的人來說特別有用。我建議認真對待機械解釋性的人至少瀏覽一下這篇論文。

但核心主張站得住腳嗎？這篇論文是否說服了我「將會有一套深度學習的科學理論」？

我認為作者在論證「將會有某種理論」方面比論證該理論的「有用性或廣度」更有說服力。

儘管論文標題展現了極大的信心，但我發現諷刺的是，他們指出的應用竟如此薄弱。到目前為止，學習力學研究的主要用途是產生新的學習力學研究，以「後驗」（retrodict）已知的實證現象；學習動力學作為一個領域，產出的實際成果很少。這裡顯著的例外是諸如 mu-parameterization 之類的超參數縮放技術。但即便如此，這些技術也可以通過實證或簡單玩具模型的啟發式方法推導出來。從與深度學習工程師的交流來看，這些理論（至少是屬於學術界學習力學的理論）在 LLM 的實踐中並無用處。

我還認為值得注意的是學習力學不包括什麼。學習力學的野心遠低於嚴謹模型內部機制/宏大的機械解釋性議程的溫和版本：它不指望能理解任何特定網絡所學習到的算法，更不用說作為審計的嚴謹工具了。

正如作者所指出的，學習力學旨在成為機械解釋性（生物學）和行為評估（心理學）的物理學。但我會比這個類比走得更遠：學習力學甚至沒有嘗試成為「所有」深度學習的理論；雖然它可能是一個隱喻性的物理理論，但它並不致力於成為「萬有理論」。因此，即使學習動力學達到了作者的期望，我認為它仍然稱不上是「深度學習的科學理論」。

也許將來會有一套深度學習的科學理論。也許學習力學會成為涵蓋深度學習某些重要面向的理論。甚至可能就是它。但我認為這篇論文並沒有說服我接受這些主張。

儘管有這些批評，我仍然非常喜歡這篇文章，也很高興作者寫了它。領域內的信奉者往往不會列出他們的論據供他人挑戰；學習動力學的研究者們用清晰的語言和具體的例子做到了這一點。就作者未能證明標題中宏大主張的合理性而言，這是標題本身野心太大的結果，而不是因為他們缺乏努力或證據。

在引言的最後，作者表達了對這篇文章的一些期望：

我們希望資深的深度學習科學家能在我們對有用方法和結果的總結中發現價值，並因我們對新興科學的描繪而感到振奮。我們希望能說服深度學習從業者，理論正朝著履行其長期以來實用性承諾的道路邁進，並鼓勵他們帶著科學的眼光對系統進行實驗。我們希望能說服 AI 安全或機械解釋性研究者，白盒理論雖然困難但並非不可能……最後，我們希望能讓年輕學生和領域新手更容易參與其中。

我懷疑這篇文章能否說服許多從業者相信深度學習理論正處於履行其實用性的道路上。我認為一些 AI 安全/機械解釋性研究者可能會因這套理論而感到振奮，儘管我懷疑它能否改變機械解釋性懷疑論者的想法。但儘管有這些爭議，我認為作者做出了一項巨大的貢獻：他們清晰地展示了自己的希望和證據，這將有助於資歷較淺的研究者理解深度學習理論這一學術領域。

參與討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

快速論文評論：深度學習將會有一套科學理論