
這篇文章提出了一種新的深度學習理論框架,透過將神經網路視為輸出空間而非參數空間中的動力系統,利用神經切線核的演化來解釋雙重下降和頓悟等現象。
這篇文章探討了深度學習理論與實踐之間的巨大鴻溝,指出當前神經網路雖然在過度參數化的情況下能完美擬合訓練數據,卻依然展現出強大的泛化能力,這與傳統統計學習理論中的偏差與變異權衡背道而馳。史丹佛大學的 Diffusion 小組提出了一套新的理論框架,試圖透過分析輸出空間的動力系統與神經切線核(eNTK),來統一解釋良性過擬合、雙重下降與「悟道」現象。
Hacker News 的討論對此理論展現了高度的審慎與質疑,許多評論者認為作者的修辭過於宏大,甚至帶有一種「大一統理論」的傲慢。有觀點指出,文章將記憶內容區分為影響測試行為與不影響測試行為的兩部分,這在邏輯上近乎循環論證:如果所謂的「雜訊儲存池」被定義為不轉移到測試集的內容,那麼這並不能解釋為什麼隨機梯度下降(SGD)能精準地將正確的信號放入正確的頻道中。批評者認為,在宣稱統一領域之前,應該先提出非平凡的預測結果,而非僅僅是用博爾赫斯的文學隱喻來包裝現有的觀察。
另一部分討論則聚焦於科學發展的階段性。有留言者將目前的深度學習理論比作克卜勒時代,而非牛頓時代,認為我們仍處於描述現象的階段,尚未達到能精確預測縮放定律或梯度下降可靠性的層次。儘管如此,社群中也有較為務實的聲音,認為如果該理論所提出的 Adam 優化器修改方案能在實踐中獲得驗證,那將是一項具有實質意義的貢獻,即便其背後的宏大敘事可能存在誇大之嫌。
此外,討論串中出現了對文章呈現形式的有趣偏移。由於該網頁採用了類似 Edward Tufte 風格的排版與優雅的字體,不少讀者轉而討論其美學設計與字體選用,甚至有人將這種高度修飾的寫作風格與「量子詮釋學」等偽科學文本進行類比,暗示其內容可能華而不實。整體而言,技術社群對於這種試圖一舉解決多個深度學習核心難題的理論保持著高度戒心,普遍認為在缺乏大規模實證支持前,這更像是一篇充滿野心的宣言而非定論。
在討論中,讀者提及了幾項相關資源,包括與此議題密切相關的論文《There Will Be a Scientific Theory of Deep Learning》,以及該文章所使用的字體 ET_Bembo(Edward Tufte 書籍所用字體的開源版本)。此外,作者團隊的預印本論文《A Theory of Generalization in Deep Learning》也被分享出來供深入研讀。
相關文章
其他收藏 · 0