計畫 - 2025 更新

Lesswrong·4 個月前

2025 年的「計畫」更新專注於解決關於自然抽象的根本困惑，以實現穩健的 AI 對齊，並將重心從自然潛在變量轉向尋找下一個理論立足點。我們正探索「領土優先」與「心智優先」兩大研究方向，以理解物理系統與認知架構如何收斂至特定的抽象概念。

什麼是「計畫」（The Plan）？

幾年來，每逢歲末年初，我（John）都會寫一篇關於我們 AI 對齊計畫的文章。過去幾年這個計畫並沒有太大變動，因此今年和去年的文章都是作為《計畫 - 2023 年版》的更新。

我在此簡要概述 2023 年計畫文章的內容。如果你有疑問或想針對某些觀點進行辯論，建議閱讀該文章的完整版本。

AI 對齊的「計畫」是什麼？簡而言之：充分釐清我們對代理（agency）和抽象（abstraction）的根本困惑，以便開發出有效且具備強健泛化能力的解釋性（interpretability）技術。接著，在 AI 的內部概念中尋找一個良好的對齊目標，並「重新定位搜尋」（Retarget the Search）。
這個計畫並非我們目標中唯一的計畫；它是眾多可能性中的一個中位數計畫。通常，我們的目標是研究那些對廣泛計畫空間而言都是強健瓶頸（robust bottlenecks）的問題。特別是，我們的研究主要集中在「自然抽象」（natural abstraction），因為這似乎是（非注定失敗的）計畫中最容易卡住的強健瓶頸。
2023 年計畫的大部分內容都在解釋為什麼自然抽象看起來是一個強健的瓶頸，並輔以實例。為什麼自然抽象是解釋性的瓶頸？為什麼自然抽象是釐清嵌入式代理（embedded agency）困惑的瓶頸？為什麼自然抽象是元哲學（metaphilosophy）的瓶頸？為什麼半打常見的「笨主意」（那些理解抽象似乎並非其瓶頸的主意）都注定失敗？
「理解抽象」會是什麼樣子？我們將在本文中深入探討這個主題！
為什麼一開始要自找麻煩搞理論？觀察實務中的工程學，它通常在我們對基礎已有基本紮實理論理解的領域運作良好。除非理論已經到位並能大幅縮小搜尋空間，否則純粹靠暴力迭代通常效果不佳。這是有原因的。
我們如何沿途獲得回饋：就抽象是「自然」的而言，我們可以透過研究大量的普通物理系統，並檢查我們的數學如何應用於這些系統來學習。
如果時間線很短，我們需要將部分工作外包給 AI，但我們最終可能主要受限於人類的理解力（例如：能夠區分垃圾產出與實際進展）。因此，我們計畫在賽局的非常後期之前，始終專注於理解這類基礎性內容。
那麼，進展如何？你們在忙什麼？

2023 年和 2024 年主要集中在「自然潛在變量」（Natural Latents）——我們稍後會詳細討論這項工作及其在宏觀藍圖中的位置。2025 年，我們確實繼續發布了一些關於自然潛在變量的工作，但我們的主要焦點已經轉移。

自然潛在變量是理解自然抽象的一個重要立足點。可以合理地說，它們是迄今為止核心問題上唯一的嚴謹立足點，是未來理論的第一個核心數學碎片。我們利用這個立足點提升了一點，且可能還能再提升一些，但之後還有更多高峰需要攀登。

我們需要找出下一個立足點。

這就是我們目前的主要焦點。它是完全開放且極具探索性的。我們還不知道下一個立足點會是什麼樣子。但我們確實對還剩下哪些問題，以及下一個立足點需要解決哪些瓶頸有一定的感覺。這將是本文剩餘部分的重點。

理解自然抽象的下一個瓶頸是什麼？

我們認為理解自然抽象有兩個主要的「分叉」：領土優先（territory-first）分叉和心智優先（mind-first）分叉。這兩者有不同的瓶頸，且可能涉及不同的下一個立足點。話雖如此，任何一個分叉的進展都會使另一個變得容易得多。

什麼是「領土優先分叉」？

自然抽象的一個典型例子來自理想氣體（以及廣義的氣體，但理想氣體最簡單）。

我們有一堆小分子在盒子裡四處彈跳。運動是混沌的：每當兩個分子碰撞，它們速度中的任何不確定性都會成倍放大。因此，如果觀察者對初始條件有任何不確定性（即使是超級智能，對於真實物理系統也會有），這種不確定性將隨時間呈指數增長，直到所有信息都被抹除……除了守恆量，例如分子的總能量、分子數量或盒子的大小。因此，在短時間後，觀察者能對氣體做出的最佳預測，將等同於使用麥克斯韋-波茲曼分布（Maxwell-Boltzmann distribution），僅以總能量（或等效的溫度）、粒子數和體積為條件。觀察者是人類、超級智能還是外星人並不重要，他們的內部心智架構是否與我們完全不同也不重要；這些少數參數（能量、粒子數、體積）總結了在相對短的時間過後，所有實際可用於預測氣體運動的信息，這是物理氣體的屬性。

氣體例子的關鍵點在於它不怎麼涉及任何特定的心智。這是一個關於特定抽象為何是「自然」的（例如氣體的能量）故事，而這個故事主要談論物理系統的屬性（例如混沌動力學抹除了除能量以外的所有信號），且基本不涉及特定心智的屬性。因此，稱為「領土優先」。

更廣泛地說：領土優先分叉是關於尋找（廣泛類別的）物理系統的屬性，這些屬性使得特定的抽象唯一地適合這些系統。就像（能量、粒子數、體積）是適合理想氣體的抽象，因為所有其他信息很快就會被混沌抹除。

什麼是「心智優先分叉」？

這是另一種學習自然抽象的完全不同的方式。

拿一個神經網絡，在一些來自現實世界物理系統的數據（例如圖像或影片，最好是後者）上進行訓練。然後，進行一些解釋性研究，以弄清楚網絡內部是如何表示這些物理系統的、什麼信息以什麼格式傳遞等等。對幾種不同的網絡架構和數據集重複此過程，並尋找網絡表示內容及其方式的收斂性。

（這僅僅是解釋性研究嗎？算是一部分。解釋性是一個廣泛的標籤；大多數被稱為「解釋性」的東西與自然抽象的心智優先分叉並非特別相關，但心智優先分叉的進展可能會被視為解釋性研究。）

特別是，我們真正想要的是弄清楚數據中的模式如何最終在網絡內部被表示，然後觀察網絡以學習領土中的自然抽象。理想情況下，我們可以在不完全了解自然抽象究竟是什麼（即網絡中被表示的東西究竟是什麼）的情況下，設法確定「自然抽象如何在網絡中被表示」的部分，這樣我們就可以透過觀察網絡來學習它們的類型簽名（type signature）。

更廣泛地說：心智優先分叉是關於尋找支配模式如何「烙印」到經過訓練/進化的系統（如神經網絡）中的收斂規律，然後利用這些規律觀察在現實世界訓練的網絡，以便反推關於現實世界中自然抽象的事實。

請注意，任何透過觀察網絡內部（即心智優先分叉）所能弄清楚的關於現實世界自然抽象的事情，可能都會告訴我們很多關於物理系統中與抽象相關的物理屬性（即領土優先分叉），反之亦然。

那麼，在領土分叉上已經解決了什麼，還有什麼沒解決？

領土分叉是我們過去幾年的主要焦點，也是自然潛在變量的主要動力。一些已經在不同程度上被確定的關鍵部分包括：

傳聲筒定理（The Telephone Theorem）：跨越非平凡時間/距離傳播的信息（例如我們理想氣體例子中的能量）必須近似守恆。
自然潛在變量（Natural Latents）：用自然潛在變量的語言來說，跨越非平凡時間/距離傳播的信息（例如理想氣體例子中的能量）必須在許多時間/地點被冗餘地表示——例如，我們可以透過觀察許多不同的時間切片得到相同的能量，或者透過觀察氣體的許多不同小塊得到大致相同的能量。如果除了這種冗餘之外，該信息還在時間/空間塊之間起中介作用，那麼我們就得到了一些本體論保證：我們已經找到了所有傳播的信息。
一些基於自然潛在變量的技巧：在某種程度上，自然潛在條件可以確定高級摘要的特定因式分解，例如將物理電子電路表示為幾個獨立的導線、電晶體等。我們透過尋找在系統不同物理塊上均為自然的高級摘要潛在變量的組件來實現這一點。
我們還可以使用自然潛在條件來確定特定的聚類，如《索羅門諾夫感應器走進酒吧》（A Solomonoff Inductor Walks Into A Bar）中所述。

……但這本身並沒有給出我們想從領土分叉中了解的一切。

以下是一些可能的下一個瓶頸：

串圖（String diagrams）。幾乎你見過的每一個技術圖表，從電子電路到依賴圖再到？？？，都是串圖。為什麼這是一種如此常見的高級描述格式？如果它對於高級自然抽象具有完全普適性，那是為什麼？我們能證明嗎？如果不是，那什麼才是？
自然潛在變量的機制說明了很多關於需要傳遞什麼信息，但對於如何表示信息的說明則少得多。什麼樣的表示是自然的？

— Lesswrong

你的個人知識庫

計畫 - 2025 更新