形狀、對稱與結構:數學在機器學習研究中不斷演變的角色

The Gradient·

本文探討在大型經驗工程主導的時代,數學如何從提供理論保證的工具,轉變為解釋經驗現象與進行高階設計的框架。

數學在現代機器學習中扮演什麼角色?

過去十年見證了機器學習進步方式的轉變。涉及精心設計且具備數學原理的架構研究僅帶來邊際改善,而那些能擴展到更大訓練集和模型參數量的計算密集型與工程優先的嘗試,卻產生了現有理論無法預測的卓越新能力。數學和統計學曾是機器學習研究的主要指南,現在卻難以對最新的突破提供即時的洞察。這並非機器學習的經驗進展首次超越理論驅動的方法,然而近期進步的幅度迫使我們不得不再次吞下「慘痛教訓」(Bitter Lesson)這顆苦果 [1]。

這種轉變引發了關於數學在未來機器學習研究中角色削弱的推測。顯而易見的是,數學將不得不與更廣泛的視角共享舞台(例如,在得出不可約複雜系統結論方面擁有深厚經驗的生物學,或是隨著 AI 深入融入社會而涉及的社會科學)。機器學習日益增長的跨學科性質應被所有研究者視為積極的發展而受到歡迎。

然而,我們認為數學依然如以往般重要;其角色只是在演變。例如,過去數學可能主要為模型性能提供理論保證,但很快它可能更常用於對模型訓練和性能中觀察到的經驗現象進行事後解釋——這與它在物理學中扮演的角色類似。同樣地,雖然數學直覺曾指導過手工特徵或細粒度架構細節的設計,但其用途可能會轉向更高層次的設計選擇,例如使架構與底層任務結構或數據對稱性相匹配。

這一切並非全新。數學在機器學習中一直發揮著多重作用。畢竟,體現上述架構匹配數據對稱性思想的平移等變卷積神經網絡(CNN)至今已有 40 多年的歷史。正在改變的是數學將產生最大影響的問題類型,以及它最常被應用的方式。

向規模化轉變的一個有趣結果是,它擴大了適用於機器學習的數學領域範圍。「純」數學領域如拓撲學、代數學和幾何學,現在正加入傳統的應用領域如概率論、分析學和線性代數。這些純數學領域在過去一個世紀中不斷成長發展,以處理高度的抽象性和複雜性,幫助數學家發現關於空間、代數對象和組合過程的規律,而這些在乍看之下似乎超出了人類的直覺。這些能力有望解決現代深度學習中許多最大的挑戰。

在本文中,我們將探討當前研究的幾個領域,這些領域展示了數學在引導機器學習發現與理解過程中的持久能力。

圖 1:數學可以闡明基於 ReLU 的神經網絡如何將輸入空間粉碎成無數個多邊形區域,在每個區域中,模型的行為都像是一個線性映射 [2, 3, 4]。這些分解創造了美麗的圖案。(圖片由 SplineCam 製作 [5])。

透過針刺描述大象

假設給你一個擁有 70 億參數、50 層的神經網絡,並要求你對其進行分析;你會從哪裡開始?標準程序是計算相關的性能統計數據。例如,在一系列評估基準上的準確率。在某些情況下,這可能足夠了。然而,深度學習模型是複雜且多面向的。兩個具有相同準確率的計算機視覺模型,在面對分佈外數據的泛化屬性、校準、對抗魯棒性以及在許多現實應用中至關重要的其他「次要統計數據」方面,可能會有很大差異。除此之外,所有證據都表明,要建立對深度學習完整的科學理解,我們需要超越評估分數。事實上,正如不可能用單一數值(如智商、身高)捕捉人類的所有維度一樣,僅靠一個甚至幾個統計數據來理解模型,從根本上是有局限性的。

理解人類與理解模型的一個區別在於,我們可以輕鬆獲取模型的所有參數以及模型中發生的所有單個計算。事實上,通過提取模型的隱藏激活值(hidden activations),我們可以直接追蹤模型將原始輸入轉換為預測的過程。遺憾的是,隱藏激活值的世界遠不如簡單的模型性能統計數據那樣友好。與初始輸入一樣,隱藏激活值通常是高維的,但與輸入數據不同,它們的結構並非人類可以理解的形式。如果我們進入更高維度,我們可以嘗試直接通過權重來理解模型。在這裡,在模型權重空間中,我們可以從單個起點向數百萬到數十億個正交方向移動。我們究竟該如何開始理解這些世界?

有一個著名的寓言,講述了三個盲人各自摸了大象的不同部位。每個人對這種動物的描述都完全不同,僅反映了那個人摸到的身體部位。我們認為,與盲人至少可以用手觸摸到大象某個身體部位的大部分不同,目前分析模型隱藏激活值和權重的方法,更像是試圖通過一根針的觸碰來描述大象。

表徵無法視覺化事物的工具

儘管大眾普遍認為數學家專注於解決問題,但數學研究的大部分內容首先涉及理解正確的問題是什麼。這是很自然的,因為數學家研究的許多對象與日常經驗相去甚遠,以至於我們一開始對於希望能真正理解什麼的直覺非常有限。通常需要付出巨大努力來建立工具,使我們能夠利用現有的直覺並取得可處理的結果,從而增加我們的理解。「旋轉」的概念為這種情況提供了一個很好的例子,因為旋轉在 2 維和 3 維中非常熟悉,但隨著維度增加,日常直覺變得越來越難以觸及。在後一種情況下,純數學提供的不同視角對於獲得關於旋轉本質的更全面觀點變得越來越重要。

了解一點線性代數的人會記得,旋轉可以推廣到高維,並且在 $n$ 維中,它們可以通過行列式為 $1$ 的 $n \times n$ 正交矩陣來實現。這些矩陣的集合通常寫作 $SO(n)$,稱為「特殊正交群」。假設我們想了解所有 $n$ 維旋轉的集合。有許多互補的方法可以做到這一點。我們可以探索 $SO(n)$ 中所有矩陣的線性代數結構,或者根據每個元素作為作用於 $\mathbb{R}^n$ 的算子的行為來研究 $SO(n)$。

或者,我們也可以嘗試利用我們天生的空間直覺來理解 $SO(n)$。這在數學中被證明是一個強大的視角。在任何維度 $n$ 中,$SO(n)$ 都是一個稱為「流形」(manifold)的幾何對象。粗略地說,這是一個局部看起來像歐幾里得空間的空間,但當我們縮小觀察時,它可能具有扭曲、孔洞和其他非歐幾里得特徵。事實上,無論我們是否精確定義,我們都有一種兩個旋轉是否「接近」的感覺。例如,讀者可能會同意,$90^\circ$ 和 $91^\circ$ 的 2 維旋轉感覺比 $90^\circ$ 和 $180^\circ$ 的旋轉更接近。當 $n=2$ 時,可以證明所有旋轉的集合在幾何上「等價」於一個 1 維圓圈。因此,我們對圓圈的大部分了解都可以轉化為對 $SO(2)$ 的理解。

當我們想研究 $n > 3$ 的 $n$ 維旋轉幾何時會發生什麼?如果 $n = 512$(例如一個潛在空間),這相當於研究 $512^2$ 維空間中的流形。我們的視覺直覺在這裡似乎毫無用處,因為目前尚不清楚在 2 維和 3 維中熟悉的概念如何應用於 $512^2$ 維。數學家們數百年來一直在面對理解「不可視覺化事物」的問題。一種策略是尋找 2 維和 3 維中熟悉的空間概念向 $n$ 維的推廣,並與我們的直覺聯繫起來。

這種方法已被用於更好地理解和表徵關於深度學習模型的權重空間、隱藏激活值和輸入數據的實驗觀察。我們在這裡簡要介紹此類工具和應用:

  • 內在維度(Intrinsic Dimension): 維度不僅是我們從易於接觸的空間維度(1、2、3 維)中熟悉的概念,也來自於日常系統中更非正式的「自由度」概念,例如駕駛汽車(前進/後退,方向盤向左或向右轉)。維度的概念自然出現在機器學習的背景中,我們可能希望捕捉數據集、學習到的表示或權重矩陣集合實際變化的獨立方式數量。

在正式數學中,維度的定義取決於所研究的空間類型,但它們都捕捉到了這種日常直覺的某些方面。舉一個簡單的例子,如果我沿著圓圈的周長行走,我只能前後移動,因此這個空間的維度是 $1$。對於像圓圈這樣是流形的空間,維度可以通過以下事實正式定義:每個點周圍足夠小的鄰域看起來都像某個歐幾里得空間 $\mathbb{R}^k$ 的子集。然後我們說該流形是 $k$ 維的。如果我們放大圓圈的一小段,它看起來幾乎像 $\mathbb{R} = \mathbb{R}^1$ 的一段,因此圓圈是 1 維的。

流形假設(manifold hypothesis)認為,許多類型的數據(至少近似地)存在於低維流形上,即使它們被嵌入在高維空間中。如果我們假設這是真的,那麼這個底層流形的維度(稱為數據的內在維度)就是描述數據集複雜度的一種方式。研究人員估計了常見基準數據集的內在維度,表明內在維度似乎與模型從訓練集泛化到測試集的難易程度相關 [6],並且可以解釋模型在不同領域(如醫學圖像)中性能和魯棒性的差異 [7]。內在維度也是一些關於數據縮放法則(scaling laws)解釋的基本要素 [8, 9],而這些法則正是構建更大規模生成模型競賽的基礎。

研究人員還注意到,隱藏激活值的內在維度往往會隨著信息通過模型 [10, 11] 或在擴散過程 [12] 中以特徵方式發生變化。這些洞察引導了內在維度在對抗樣本檢測 [13]、AI 生成內容檢測 [14]、識別隱藏激活值包含最豐富語義內容的層 [11],以及生成模型幻覺檢測 [15] 中的應用。

  • 曲率(Curvature): 雖然圓圈的片段在放大到足夠近時可能看起來是「直」的,但它們的曲率意味著它們永遠不會像直線那樣完全線性。曲率的概念是大家熟悉的,一旦正式化,它就提供了一種嚴格測量點周圍區域偏離線性程度的方法。然而,必須小心。我們大部分關於曲率的日常直覺都假設是單一維度。在維度為 2 或更大的流形上,我們可以從一個點出發朝多個線性獨立的方向移動,每個方向都可能有不同的曲率(在 1 維意義上)。因此,對於高維空間有一系列不同的曲率推廣,每種都具有略微不同的屬性。

曲率的概念在深度學習中發揮了核心作用,特別是在損失景觀(loss landscape)方面,曲率的變化已被用於分析訓練軌跡 [16]。曲率對於一種被稱為「穩定邊緣」(edge of stability)的有趣現象也至關重要,在這種現象中,損失景觀在訓練過程中的曲率會隨著學習率的增加而增加,直到它徘徊在訓練運行接近變得不穩定的點 [17]。在另一個方向上,曲率被用來計算模型預測隨輸入變化而變化的程度。例如,[18] 提供的證據表明,決策邊界中較高的曲率與對抗樣本的較高脆弱性相關,並提出了一種新的正則化項來降低這種曲率。最後,受神經科學工作的啟發,[19] 提出了一種使用曲率來突出原始訓練數據與神經網絡內部表示之間有趣差異的方法。網絡可能會拉伸和擴展輸入空間的部分區域,在放大對損失函數影響較大的訓練樣本表示時產生高曲率區域。

  • 拓撲學(Topology): 維度和曲率都捕捉了空間的局部屬性,可以通過觀察單個點周圍的鄰域來測量。另一方面,我們一直使用的例子——圓圈——最顯著的特徵既不是它的維度也不是它的曲率,而是它是圓形的這一事實。我們只能通過一次分析整個空間來看到這一點。拓撲學是專注於此類「全局」屬性的數學領域。

拓撲工具如同調(homology,用於計算空間中孔洞的數量),已被用於闡明神經網絡處理數據的方式,[20] 顯示深度學習模型會「解開」數據分佈,逐層降低其複雜性。同調的版本也被應用於網絡的權重,以更好地理解其結構特徵,[21] 顯示此類拓撲統計數據可以可靠地預測最佳的提前停止(early-stopping)時間。最後,由於拓撲學提供了捕捉空間全局方面的框架,它已被證明是設計捕捉數據中高階關係網絡的豐富思想源泉,導致了一系列建立在拓撲構造之上的圖神經網絡推廣 [22, 23, 24, 25]。

雖然上述每個例子對於深入了解深度學習相關現象都很有用,但它們最初都是為了應對其他領域的挑戰而開發的。我們相信,當社群使用這裡描述的幾何範式來構建專門為應對深度學習挑戰而設計的新工具時,將會獲得更大的回報。這方面的進展已經開始。例如,線性模式連接性(linear mode connectivity)幫助我們更好地理解神經網絡的損失景觀 [26],或者圍繞線性表示假設(linear representation hypothesis)的工作,幫助闡明了概念在大語言模型潛在空間中的編碼方式 [27]。數學中最令人興奮的事件之一,就是一個領域的工具為另一個領域提供了意想不到的洞察。想想黎曼幾何如何為廣義相對論提供了所需的數學語言。我們希望幾何和拓撲在深度學習中的角色最終也能演繹出類似的故事。

數據中的對稱性,模型中的對稱性

對稱性是數學的一個核心主題,它允許我們將問題分解為更容易解決的簡單組件。對稱性長期以來在機器學習中扮演著重要角色,特別是在計算機視覺領域。例如,在經典的狗 vs 貓分類任務中,包含狗的圖像無論我們將狗從圖像的一個部分移動到另一個部分、旋轉狗還是鏡像反射狗,它仍然包含一隻狗。我們說該任務對於圖像的平移、旋轉和反射具有「不變性」(invariant)。

對稱性的概念在數學上被編碼在「群」(group)的概念中,群是一個集合 $G$,配備了一個二元運算 $\star$,它接受 $G$ 的兩個元素 $g_1, g_2$ 作為輸入,並產生第三個元素 $g_1 \star g_2$ 作為輸出。你可以想像整數集 $\mathbb{Z}$ 與加法運算 ($\star = +$),或者非零實數集與乘法運算 ($\star = \times$)。$n$ 維旋轉的集合 $SO(n)$ 也構成一個群。其二元運算接受兩個旋轉並返回第三個旋轉,該旋轉定義為簡單地應用第一個旋轉然後應用第二個旋轉。

群滿足一些公理,確保它們捕捉到了對稱性的熟悉屬性。例如,對於任何對稱變換,都應該有一個撤銷該對稱性的逆運算。如果我將圓圈旋轉 $90^{\circ}$,那麼我可以將其旋轉 $-90^{\circ}$ 並回到起點。請注意,並非所有變換都滿足此屬性。例如,對圖像進行下採樣(downsampling)就沒有明確定義的逆運算。許多不同的圖像下採樣後會變成相同的(較小的)圖像。

在前一節中,我們給出了 $SO(n)$ 的兩個定義:第一個是幾何定義,即 $\mathbb{R}^n$ 的旋轉;第二個是作為 $n \times n$ 矩陣的特定子集。雖然前者可能便於我們的直覺,但後者的優點在於線性代數是我們在計算層面理解得非常透徹的東西。將抽象群實現為一組矩陣被稱為「線性表示」(linear representation),它已被證明是研究對稱性最富有成效的方法之一。這也是在執行計算(例如在機器學習中)時通常利用對稱性的方式。

我們看到了幾個在機器學習任務數據中可以找到的對稱性例子,例如計算機視覺問題中的平移、旋轉和反射對稱性。考慮分割模型的情況。如果有人將輸入圖像旋轉 $45^{\circ}$ 然後放入模型,我們希望得到的分割預測也是未旋轉圖像預測的 $45^{\circ}$ 旋轉(如圖 1 所示)。畢竟,我們沒有改變圖像的內容。

圖 2:為分割模型說明的旋轉等變性概念。無論是先旋轉再應用網絡,還是先應用網絡再旋轉,都會得到相同的輸出。

圖 3:當採取上方路徑(先應用網絡再應用對稱作用)與採取下方路徑(先應用對稱變換再應用網絡)得到相同的結果時,等變性成立。

函數(包括神經網絡)的這種屬性——在函數之前應用對稱變換與在函數之後應用對稱變換產生相同的結果——被稱為「等變性」(equivariance),可以用圖 3 中的圖表來捕捉。關鍵點在於,無論我們遵循上路徑(先應用網絡,然後應用群作用)還是遵循下路徑(先應用群,然後應用網絡),我們都會得到相同的結果。方便的是,「不變性」概念(即對輸入應用對稱操作對函數輸出沒有影響)是等變性的一個特例,其中輸出空間上的作用被定義為平凡的(即應用對稱作用不產生任何變化)。

深度學習模型中的不變性和等變性有幾個好處。首先,這樣的模型在對稱變換下會產生更可預測且一致的結果。其次,通過等變性,我們有時可以用更少的參數(比較卷積神經網絡與性能相似的 MLP 的參數數量)和更少需要學習的數據變化模式(旋轉不變的圖像分類器只需要學習每個對象的一個方向,而不是所有可能的方向)來簡化學習過程。

但我們如何確保我們的模型是等變的呢?一種方法是使用設計上就是等變的層來構建我們的網絡。到目前為止最著名的例子是卷積神經網絡,其層對於圖像平移是(近似)等變的。這就是為什麼使用卷積神經網絡進行狗 vs 貓分類不需要像 MLP 那樣學習識別圖像中每個位置的狗。稍加思考,人們通常可以想出對特定群等變的層。遺憾的是,受限於以權宜方式找到的等變層,往往會讓我們得到一個具有內置等變性但表達能力有限的網絡。

幸運的是,對於機器學習中出現的大多數對稱群,表示論提供了所有可能線性等變映射的全面描述。事實上,一個美麗的數學事實是,所有此類映射都是由稱為「不可約表示」(irreducible representations)的原子構建塊構建而成的。令人高興的是,在許多情況下,這些不可約表示的數量是有限的。理解一個群的不可約表示可能非常強大。那些熟悉長度為 $n$ 的序列的泛在離散傅立葉變換(DFT)的人,其實已經熟悉了一個群的不可約表示,即由旋轉 $360 ^{\circ}/n$ 生成的循環群(儘管我們注意到,在我們這裡給出的描述與信號處理文獻中發現的 DFT 描述之間切換需要一些思考)。

現在深度學習中有一個豐富的研究領域,利用群表示來系統地構建具表達能力的等變架構。一些被特別深入研究的對稱性例子包括:圖像的旋轉和反射 [28, 29, 30, 31]、分子結構 [32] 或點雲 [33] 的 3 維旋轉和平移,以及用於集合學習 [34] 或圖節點學習 [35] 的置換(permutations)。對更奇異的對稱性進行等變編碼也被證明對理論物理 [36] 和數據驅動優化 [37] 等領域很有用。

等變層和其他對稱感知架構方法是利用數學向模型注入高層先驗的典型例子。這些方法是否代表了面對數據對稱性時學習的未來?從經驗上看,學習具有對稱性數據最常用的方法仍然是使用足夠的訓練數據和足夠的數據增強,讓模型自行學習處理對稱性。兩年前,作者曾推測後者的方法僅適用於簡單情況(如 2 維對稱性),當對稱性變得更複雜時,將被設計上等變的模型超越。然而,我們繼續對規模的力量感到驚訝。畢竟,AlphaFold3 [38] 儘管是在具有幾種基本對稱性的數據上學習,卻使用了非等變架構。我們推測,一方面是對稱性的複雜程度,另一方面是訓練數據量,這兩者之間可能存在一個閾值,決定了內置等變性是否會優於學習到的等變性 [39, 40]。

如果這是真的,我們可以預見,隨著特定應用程序可用數據集的增大,模型將擺脫定製的等變架構。與此同時,由於計算資源永遠是有限的,我們預測某些具有異常複雜對稱性的應用將始終需要一些內置先驗(例如,用於數學或算法問題的 AI)。無論我們落在這個光譜的哪個位置,數學家都可以期待對人類向模型注入對稱性的方式與模型自行學習對稱性的方式進行有趣的對比 [41, 42]。

圖 4:一張漫畫,說明了為什麼在逐點非線性前後添加置換及其逆運算會產生等效模型(即使權重會不同)。由於置換可以通過置換矩陣實現,右側的交叉箭頭可以合併到全連接層中。

當然,對稱性不僅存在於數據中,也存在於模型本身。例如,網絡隱藏層的激活值對於置換是不變的。我們可以在進入非線性之前置換激活值,如果我們在之後將其置換回來,模型(作為一個函數)不會改變(圖 4)。這意味著我們有一個簡單的配方來生成指數級數量的網絡,這些網絡具有不同的權重,但在數據上的行為完全相同。

雖然簡單,但這一觀察產生了一些意想不到的結果。例如,有證據表明,雖然神經網絡的損失景觀是高度非凸的,但當我們將所有可以通過這種置換操作產生的網絡視為等效時,它的非凸性可能會降低很多 [43, 44]。這意味著你的網絡和我的網絡可能無法通過低損失的線性路徑連接,但這樣的路徑可能存在於你的網絡和我的網絡的某個置換之間。其他研究探討了是否可能利用對稱性通過將模型「傳送」(teleporting)到損失景觀中更有利的位置來加速優化 [45, 46]。最後,置換對稱性也為一種經驗現象提供了一種類型的證明,即網絡中的單個神經元往往比此類神經元的任意線性組合編碼更多具有語義價值的訊息 [47]。

用抽象馴服複雜性

在討論對稱性時,我們使用了圖 3 中的圖表來定義等變性。這種方法的一個優點是我們從不需要指定所使用的輸入數據或架構的細節。空間可以是向量空間,映射可以是線性變換;它們可以是特定架構的神經網絡,或者僅僅是集合以及它們之間的任意函數——該定義對每一種都有效。這種「圖表式」(diagrammatic)的觀點,即根據對象之間映射的複合而非對象本身來觀察數學構造,在數學中非常富有成效,並且是通往「範疇論」(category theory)這一學科的門戶。範疇論現在是許多數學領域的通用語言,因為它允許數學家在廣泛的背景下轉化定義和結果。

當然,深度學習的核心完全在於函數複合,因此嘗試將其與數學中的圖表傳統聯繫起來並非難事。然而,這兩個學科中函數複合的焦點是不同的。在深度學習中,我們採用本身缺乏表達能力的簡單層,並將它們組合在一起,以構建一個能夠捕捉現實世界數據複雜性的模型。隨之而來的是戲謔的要求:「疊更多層!」。範疇論則試圖找到一個通用的框架,捕捉貫穿數學始終的結構本質。這使得數學家能夠發現乍看之下截然不同的事物之間的聯繫。例如,範疇論為我們提供了語言,來描述流形的拓撲結構如何通過同調或同倫論編碼在群中。

嘗試尋找熟悉構造(如兩個集合 $X$ 和 $Y$ 的乘積)的圖表式描述可能是一個有趣的練習。將注意力集中在映射而非對象上,我們發現表徵 $X \times Y$ 的特徵是存在兩個規範投影 $\pi_1$ 和 $\pi_2$,前者將 $(x,y) \mapsto x$,後者將 $(x,y) \mapsto y$(至少在更熟悉的設置中,如 $X$ 和 $Y$ 是集合時)。事實上,「乘積」 $X \times Y$(無論 $X$ 和 $Y$ 是集合、向量空間等)是唯一的對象,使得對於任何具有映射 $f_1: Z \rightarrow X$ 和 $f_2: Z \rightarrow Y$ 的 $Z$,都存在一個映射 $h: Z \rightarrow X \times Y$,滿足圖 5 中的交換圖。

雖然這種構造對於像乘積這樣熟悉的東西來說有點複雜,但它具有顯著的屬性,即它允許我們定義「乘積」,即使在沒有底層集合結構的情況下(也就是那些我們不能訴諸於將 $X \times Y$ 定義為 $x \in X$ 和 $y \in Y$ 的序對 $(x,y)$ 集合的設置)。

圖 5:描述乘積 $X \times Y$ 的交換圖。對於任何具有映射 $f_1: Z \rightarrow X$ 和 $f_2: Z \rightarrow Y$ 的 $Z$,都存在唯一的映射 $h: Z \rightarrow X \times Y$,使得 $f_1 = \pi_1 \circ h$ 且 $f_2 = \pi_2 \circ h$,其中 $\pi_1$ 和 $\pi_2$ 是從 $X \times Y$ 到 $X$ 以及從 $X \times Y$ 到 $Y$ 的通常投影映射。

人們可以合理地爭辯說,對於機器學習研究者來說,像乘積這樣眾所周知的構造的圖表式描述並無用處。畢竟,我們已經知道如何在機器學習中出現的所有空間中形成乘積。另一方面,還有更複雜的例子,其中圖表式描述與我們在實踐中構建神經網絡架構的方式契合得很好。

圖 6:纖維叢捕捉了空間可能局部看起來像乘積但在全局上有扭曲的概念。

纖維叢(Fiber bundles)是幾何和拓撲學中的核心構造,它捕捉了空間可能局部看起來像乘積,但可能具有破壞這種全局乘積結構的扭曲的概念。比較圓柱體與梅比烏斯帶(Möbius band)。我們可以通過從一個圓圈開始並與線段 $(0,1)$ 取乘積來構建這兩者。在圓柱體的情況下,這(在拓撲上)確實只是圓圈和線段 $(0,1)$ 的乘積,但要形成梅比烏斯帶,我們必須添加一個額外的扭曲來破壞乘積結構。在這些例子中,圓圈被稱為「基空間」(base space),而 $(0,1)$ 被稱為「纖維」(fiber)。雖然只有圓柱體是真正的乘積,但圓柱體和梅比烏斯帶都是纖維叢。這是另一種思考纖維叢的方式:纖維叢是由基空間參數化的許多纖維副本的並集。在梅比烏斯帶/圓柱體的例子中,圓圈上的每個點都攜帶著它自己的 $(0,1)$ 副本。

當我們在材料科學問題的背景下考慮條件生成任務時,我們從纖維叢的後一種描述中獲得了靈感。由於材料背景有些複雜,我們將通過一個更平易近人的動物分類類比來說明這種構造。令 $M$ 為所有可能包含單個動物圖像的流形。我們可以提議將 $M$ 中元素的變化分解為兩個部分:圖像中動物的物種以及其他所有內容,後者可能意味著背景、光照、姿勢、圖像質量等方面的差異。人們可能希望在固定其中一個變化因素的同時探索另一個因素的分佈。例如,我們可能希望固定動物物種並探索我們在背景、姿勢等方面獲得的變化。例如,比較兩種不同昆蟲物種的背景變化,可能會告訴昆蟲學家不同類型甲蟲的首選棲息地。

圖 7:一張漫畫,視覺化了所有動物圖像的集合如何被分解為動物物種和其他類型變化的局部乘積。

人們可能希望通過學習將 $M$ 編碼到乘積空間 $X_1 \times X_2$ 來解決這個問題,其中 $X_1$ 是對應於動物物種的離散點集,而 $X_2$ 是固定動物物種後所有其他可能變化類型分佈的底層空間。固定物種將相當於從 $X_1$ 中選擇一個特定元素 $x_1$ 並從 $X_2$ 上的分佈中採樣。$X_1 \times X_2$ 的乘積結構允許我們對 $X_1$ 和 $X_2$ 進行此類獨立操作。另一方面,乘積是剛性結構,對真實數據分佈施加了強大的全局拓撲假設。我們發現,即使在簡單問題上,也很難學習到從原始數據分佈到上述定義的具乘積結構潛在空間的良好映射。鑑於纖維叢更靈活,且仍能提供我們從潛在空間中想要的屬性,我們設計了一種神經網絡架構來學習數據分佈上的纖維叢結構 [48]。

圖 8:描述纖維叢的交換圖。映射 $\pi$ 從總空間的鄰域投影到基空間,$U$ 是基空間的一個局部鄰域,$F$ 是纖維。該圖表示基空間中的每個點都有一個鄰域 $U$,使得當我們將其提升到叢時,我們得到與該鄰域和纖維的乘積同胚(非正式地說,等效)的東西。但這種乘積結構可能在整個空間上並不全局成立。

但是,我們如何從上面纖維叢的抽象定義轉向可以在計算機上編寫代碼的神經網絡架構呢?事實證明,纖維叢有一個簡潔的圖表式定義(圖 8),可以作為構建架構的便捷模板。我們能夠以相對樸素的方式進行,採用圖中的每個映射並構建相應的層堆疊。然後圖表本身告訴我們如何將這些組件組合在一起。圖表的交換性是通過損失函數中的一個項來設計的,該項確保 $\pi = \text{proj}_1 \circ \varphi$。還有一些關於 $\varphi$ 和 $\pi$ 的條件(如 $\phi$ 的雙射性)需要設計。除此之外,我們對所擁有的靈活性感到驚訝。這很有用,因為這意味著這個過程在很大程度上與數據模態無關。

這是一個初步的例子,說明數學中的圖表傳統如何為我們提供神經網絡設計的更廣闊視角,使我們能夠將深層結構原理與大規模網絡設計聯繫起來,而無需指定可能依賴於問題的小規模細節。當然,這一切都未能觸及範疇論視角所能提供的表面之外的東西。事實上,範疇論有望成為一個統一的框架,將機器學習中出現和完成的大部分內容聯繫起來 [49]。

結論

在二十世紀中葉,尤金·維格納(Eugene Wigner)對數學作為一個不僅能描述現有物理學,還能預測該領域新結果的框架的「不合理有效性」感到驚嘆 [50]。一個更適用於近期機器學習進展的格言是「數據的不合理有效性」 [51] 和計算。對於那些可能希望機器學習能像物理學一樣與高等數學緊密交織的數學家來說,這似乎是一個令人失望的局面。然而,正如我們所展示的,雖然數學在機器學習研究中可能無法維持過去的角色,但規模化的成功實際上為數學支持機器學習研究的進展開闢了新的路徑。這些路徑包括:

  • 為破譯複雜模型的內部運作提供強大的工具。
  • 為高層架構決策提供框架,將細節留給學習算法。
  • 將拓撲學、抽象代數和幾何學等傳統孤立的數學領域與 ML 和數據科學應用聯繫起來。

事情發展成這樣應該讓我們感到驚訝嗎?也許不,因為機器學習模型最終反映了它們所訓練的數據,而在大多數情況下,這些數據來自於長期抵制簡潔數學模型的領域(如自然語言或圖像)。

然而,這種情況也是數學的一個機會。高性能的機器學習模型可能為以前無法進入的一系列領域提供數學分析的門戶。例如,訓練過的詞嵌入將語義關係轉化為歐幾里得空間中向量的代數運算(例如,「義大利」 - 「義大利人」 + 「法國人」 = 「法國」),這是非常了不起的。諸如此類的例子暗示了數學通過研究在這些環境數據上訓練的機器學習模型,在複雜的現實環境中獲得立足點的潛力。

隨著世界上越來越多的數據被機器學習模型消耗和數學化,對於數學家來說,這將是一個越來越有趣的時代。現在的挑戰在於調整我們的數學工具箱以適應這一新景觀,在這裡,經驗性的突破往往先於理論上的理解。通過擁抱這種轉變,數學可以繼續在塑造機器學習的未來中發揮至關重要且不斷演變的角色。

作者感謝 Darryl Hannan 在插圖方面的幫助,感謝 Davis Brown、Charles Godfrey 和 Scott Mahan 對草稿提供的有用反饋,以及 The Gradient 的工作人員在編輯本文過程中的有用對話和幫助。有關使用拓撲、代數和幾何 (TAG) 來更好理解和構建更魯棒機器學習系統的日益壯大的數學家和計算機科學家社群的資源和活動,請訪問我們的網站 https://www.tagds.com

參考文獻

(註:參考文獻部分保留原樣,僅對標題進行必要的格式調整)

[1] Richard Sutton. "The bitter lesson". In: Incomplete Ideas (blog) 13.1 (2019), p. 38.

[2] Guido F Montufar et al. "On the number of linear regions of deep neural networks". In: Advances in Neural Information Processing Systems 27 (2014).

[3] Boris Hanin and David Rolnick. "Complexity of linear regions in deep networks". In: International Conference on Machine Learning. PMLR. 2019, pp. 2596–2604.

[4] J Elisenda Grigsby and Kathryn Lindsey. "On transversality of bent hyperplane arrangements and the topological expressiveness of ReLU neural networks". In: SIAM Journal on Applied Algebra and Geometry 6.2 (2022), pp. 216–242.

[5] Ahmed Imtiaz Humayun et al. "Splinecam: Exact visualization and characterization of deep network geometry and decision boundaries". In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023, pp. 3789–3798.

[6] Phillip Pope et al. "The intrinsic dimension of images and its impact on learning". In: arXiv preprint arXiv:2104.08894 (2021).

[7] Nicholas Konz and Maciej A Mazurowski. "The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images". In: arXiv preprint arXiv:2401.08865 (2024).

[8] Yasaman Bahri et al. "Explaining neural scaling laws". In: arXiv preprint arXiv:2102.06701 (2021).

[9] Utkarsh Sharma and Jared Kaplan. "A neural scaling law from the dimension of the data manifold". In: arXiv preprint arXiv:2004.10802 (2020).

[10] Alessio Ansuini et al. "Intrinsic dimension of data representations in deep neural networks". In: Advances in Neural Information Processing Systems 32 (2019).

[11] Lucrezia Valeriani et al. "The geometry of hidden representations of large transformer models". In: Advances in Neural Information Processing Systems 36 (2024).

[12] Henry Kvinge, Davis Brown, and Charles Godfrey. "Exploring the Representation Manifolds of Stable Diffusion Through the Lens of Intrinsic Dimension". In: ICLR 2023 Workshop on Mathematical and Empirical Understanding of Foundation Models.

[13] Xingjun Ma et al. "Characterizing adversarial subspaces using local intrinsic dimensionality". In: arXiv preprint arXiv:1801.02613 (2018).

[14] Peter Lorenz, Ricard L Durall, and Janis Keuper. "Detecting images generated by deep diffusion models using their local intrinsic dimensionality". In: Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023, pp. 448–459.

[15] Fan Yin, Jayanth Srinivasa, and Kai-Wei Chang. "Characterizing truthfulness in large language model generations with local intrinsic dimension". In: arXiv preprint arXiv:2402.18048 (2024).

[16] Justin Gilmer et al. "A loss curvature perspective on training instabilities of deep learning models". In: International Conference on Learning Representations. 2021.

[17] Jeremy Cohen et al. "Gradient descent on neural networks typically occurs at the edge of stability". In: International Conference on Learning Representations. 2020.

[18] Seyed-Mohsen Moosavi-Dezfooli et al. "Robustness via curvature regularization, and vice versa". In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019, pp. 9078–9086.

[19] Francisco Acosta et al. "Quantifying extrinsic curvature in neural manifolds". In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023, pp. 610–619.

[20] Gregory Naitzat, Andrey Zhitnikov, and Lek-Heng Lim. "Topology of deep neural networks". In: Journal of Machine Learning Research 21.184 (2020), pp. 1–40.

[21] Bastian Rieck et al. "Neural persistence: A complexity measure for deep neural networks using algebraic topology". In: arXiv preprint arXiv:1812.09764 (2018).

[22] Mustafa Hajij, Kyle Istvan, and Ghada Zamzmi. "Cell complex neural networks". In: arXiv preprint arXiv:2010.00743 (2020).

[23] Cristian Bodnar. "Topological deep learning: graphs, complexes, sheaves". PhD thesis. 2023.

[24] Jakob Hansen and Robert Ghrist. "Toward a spectral theory of cellular sheaves". In: Journal of Applied and Computational Topology 3.4 (2019), pp. 315–358.

[25] Yifan Feng et al. "Hypergraph neural networks". In: Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 01. 2019, pp. 3558–3565.

[26] Felix Draxler et al. "Essentially no barriers in neural network energy landscape". In: International Conference on Machine Learning. PMLR. 2018, pp. 1309–1318.

[27] Kiho Park, Yo Joong Choe, and Victor Veitch. "The linear representation hypothesis and the geometry of large language models". In: arXiv preprint arXiv:2311.03658 (2023).

[28] Taco Cohen and Max Welling. "Group equivariant convolutional networks". In: International Conference on Machine Learning. PMLR. 2016, pp. 2990–2999.

[29] Maurice Weiler, Fred A Hamprecht, and Martin Storath. "Learning steerable filters for rotation equivariant cnns". In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018, pp. 849–858.

[30] Daniel E Worrall et al. "Harmonic networks: Deep translation and rotation equivariance". In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017, pp. 5028–5037.

[31] Diego Marcos et al. "Rotation equivariant vector field networks". In: Proceedings of the IEEE International Conference on Computer Vision. 2017, pp. 5048–5057.

[32] Alexandre Duval et al. "A Hitchhiker's Guide to Geometric GNNs for 3D Atomic Systems". In: arXiv preprint arXiv:2312.07511 (2023).

[33] Nathaniel Thomas et al. "Tensor field networks: Rotation-and translation-equivariant neural networks for 3d point clouds". In: arXiv preprint arXiv:1802.08219 (2018).

[34] Manzil Zaheer et al. "Deep sets". In: Advances in Neural Information Processing Systems 30 (2017).

[35] Vıctor Garcia Satorras, Emiel Hoogeboom, and Max Welling. "E (n) equivariant graph neural networks". In: International Conference on Machine Learning. PMLR. 2021, pp. 9323–9332.

[36] Denis Boyda et al. "Sampling using SU (N) gauge equivariant flows". In: Physical Review D 103.7 (2021), p. 074504.

[37] Hannah Lawrence and Mitchell Tong Harris. "Learning Polynomial Problems with SL(2,\mathbb {R}) −Equivariance". In: The Twelfth International Conference on Learning Representations. 2023.

[38] Josh Abramson et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3". In: Nature (2024), pp. 1–3.

[39] Scott Mahan et al. "What Makes a Machine Learning Task a Good Candidate for an Equivariant Network?" In: ICML 2024 Workshop on Geometry-grounded Representation Learning and Generative Modeling.

[40] Johann Brehmer et al. "Does equivariance matter at scale?" In: arXiv preprint arXiv:2410.23179 (2024).

[41] Chris Olah et al. "Naturally Occurring Equivariance in Neural Networks". In: Distill (2020). https://distill.pub/2020/circuits/equivariance. doi: 10.23915/distill.00024.004.

[42] Giovanni Luca Marchetti et al. "Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks". In: arXiv preprint arXiv:2312.08550 (2023).

[43] Rahim Entezari et al. "The role of permutation invariance in linear mode connectivity of neural networks". In: arXiv preprint arXiv:2110.06296 (2021).

[44] Samuel K Ainsworth, Jonathan Hayase, and Siddhartha Srinivasa. "Git re-basin: Merging models modulo permutation symmetries". In: arXiv preprint arXiv:2209.04836 (2022).

[45] Bo Zhao et al. "Symmetry teleportation for accelerated optimization". In: Advances in Neural Information Processing Systems 35 (2022), pp. 16679–16690.

[46] Bo Zhao et al. "Improving Convergence and Generalization Using Parameter Symmetries". In: arXiv preprint arXiv:2305.13404 (2023).

[47] Charles Godfrey et al. "On the symmetries of deep learning models and their internal representations". In: Advances in Neural Information Processing Systems 35 (2022), pp. 11893–11905.

[48] Nico Courts and Henry Kvinge. "Bundle Networks: Fiber Bundles, Local Trivializations, and a Generative Approach to Exploring Many-to-one Maps". In: International Conference on Learning Representations. 2021.

[49] Bruno Gavranović et al. "Position: Categorical Deep Learning is an Algebraic Theory of All Architectures". In: Forty-first International Conference on Machine Learning.

[50] Eugene P Wigner. "The unreasonable effectiveness of mathematics in the natural sciences". In: Mathematics and Science. World Scientific, 1990, pp. 291–306.

[51] Alon Halevy, Peter Norvig, and Fernando Pereira. "The unreasonable effectiveness of data". In: IEEE Intelligent Systems 24.2 (2009), pp. 8–12.

The Gradient

相關文章

  1. AI優先轉型的四個層次

    Hacker News · 4 個月前

  2. 矩陣在雙積之間的映射

    Lesswrong · 5 個月前

  3. 神經演算法推理

    超過 2 年前

  4. 數學界的 AI 革命已經到來

    Hacker News · 9 天前

  5. 邁向受選擇壓力下的介面統計力學

    Lesswrong · 6 個月前