從 AIXI 視角看人工智慧安全

Lesswrong·12 天前

本文探討了將 AIXI 作為人工智慧安全研究概念框架的觀點，並主張它在代理人基礎理論與機器學習研究之間扮演了某種概念上的橋樑。我將討論通用演算法智能視角如何幫助形式化生存風險，並為分析超智能代理人提供一個有用的抽象層級。

認識狀態： 雖然我專長於此主題，但我的職業動機可能會使我偏向對 AIXI 理論給予正面評價。我也在討論一些仍具推測性的內容，因為我們尚未擁有通用人工智慧（ASI）。雖然 AIXI 的基礎知識是唯一的硬性前提，但我建議在閱讀本文前先閱讀《來自演算法資訊理論（AIT）的認知技術》以了解背景。

AIXI 經常被代理人基礎（Agent Foundations, AF）研究員當作負面教材，他們不認同其概念框架，許多直接的批評已在此處列出並回應。一個例外是 Michael Cohen，他職業生涯的大部分時間都致力於 AIXI 設定下的安全性研究。

但許多頂尖的機器學習（ML）研究員似乎持較正面的看法，例如 Ilya Sutskever 曾提倡用演算法資訊理論來理解泛化，Shane Legg 在共同創立 DeepMind 之前研究過 AIXI，而現在的新創公司 Q labs 則明確受到所羅門諾夫歸納法（Solomonoff induction）的啟發。負面案例可能較不顯著（例如：不感興趣、不了解），這或許解釋了為什麼我舉不出任何來自 ML 領域的高質量批評。但我推測，在具備 ML 思維且了解 AIXI 的安全研究員中，AIXI 被視為相當有利，或者至少那些對 AIXI 充滿熱情的 ML 研究員通常最終都非常成功。

AF 和 ML 研究員都關心 AIXI，這點似乎很有趣！

我想討論 AIXI 視角對於 AI 安全研究的一些正面與負面特徵，並最終論證 AIXI 佔據了 MIRI 式思維與 ML 式思維之間的一種概念中點。

請注意，我所說的「AIXI 視角」是指一套用於思考 AGI/ASI 的認知技術集群，其中包括所羅門諾夫歸納法、萊文搜尋（Levin search）以及一系列通用代理人。這個領域近來被稱為「通用演算法智慧」（Universal Algorithmic Intelligence, UAI）。將受 UAI 啟發的思維橋接到現實、高效甚至有限的系統中通常需要大量工作，但這本質上並不妨礙它成為一個（潛在）有用的理想化模型或框架。事實上，基本上所有的理論方法都會做出一些理想化或簡化的假設。問題在於，由此產生的形式化體系及其周邊視角是否（以及何時）對思考該問題有用。

生存風險（X-Risk）

對於 AI 安全視角來說，最基本的要求或許是它能否表達問題本身——即它能否揭示令人擔憂對齊問題與生存風險的原因。

AIXI 頻繁出現在 AI 生存風險的討論中，而不僅僅是在決策理論會議上。因為 AIXI 只追求明確的獎勵訊號，別無他求，所以很難自欺欺人地認為 AIXI 是友好的。因為通用分佈（universal distribution）是一個如此豐富且強大的先驗，我們可以想像 AIXI 如何成功擊敗人類。事實上，在 AIXI 框架中可以使 AI 生存風險的標準論點變得更加形式化。

UAI 研究員通常嚴肅對待生存風險。我不確定是研究 UAI 傾向於讓研究員更擔心生存風險，還是擔心生存風險的人（僅僅）被吸引去研究 UAI。如果要我猜測，後者的解釋可能性更高。無論如何，UAI 讓生存風險變得相當顯而易見，這絕對是其（表面上的）一個優點。

存取層級（Access Level）

我認為 UAI 在「正確的層級」上討論現代 AI 安全的代理人。

AI 安全範式往往隱含地假設了對代理人內部的某種存取類型和層級，這限制了可表達的安全干預措施。例如（為了說明存取層級的概念，而非詳盡列舉）：

**因果激勵（Causal incentives）**研究假設我們可以用因果圖來表示代理人面臨的情況。然後我們將對齊框架化為一個機制設計問題。嚴格來說，這是一個從代理人外部觀察的視角，不假設我們可以對其信念進行手術。然而，我認為這個框架很容易讓人自然地假設我們能夠存取代理人對世界的實際（因果）表示，並忽略了學習過程的豐富性以及內對齊（inner alignment）問題。我擔心這種觀點可能會產生一種幻覺，認為我們能控制 ASI 的本體（ontology）和目標。

**輔助遊戲（Assistance games）**如 CIRL 也是類似的。輔助遊戲視角傾向於將委託人（principal）和代理人視為本體論上的基本單位。如果委託人是一個指定的「終端機」或其他內建通道，這（本身）還算合理。然而，輔助遊戲觀點往往模糊了其結構性假設，從而隱藏了其最大的弱點和開放性問題（嵌入在世界中的終端機的效用函數是什麼？），並導致許多關於輔助遊戲的研究錯失了核心挑戰（即 CIRL 可能被修復的地方）。

**辯論（Debate）**是另一種機制設計框架。它要求指定激勵措施，如果這些激勵被「充分優化」，則可證明能讓較弱的代理人從強大代理人之間的辯論中驗證真相。這是一個乾淨且明確的假設，因此思考辯論應該是相當安全的：它顯然不側重於錯誤泛化（misgeneralization）。

**奇異學習理論（Singular learning theory, SLT）**研究則處於另一極端。它專注於代理人在學習過程中的高度微觀結構，並嘗試（主要）透過數據選擇來控制泛化。粗略地說，這是一種讓內對齊問題變得顯著的視角（或者是為了防止內對齊問題而採用的視角）。我對 SLT 圖景的擔憂在於，存取層級可能「縮放得太細」，我們無法選擇正確的泛化，因為我們不知道它們是什麼；而且即使我們知道「深度學習如何運作」，似乎也很難一次性打造出正確的行為。例如，對齊問題之所以困難，不僅是因為學習「人類價值觀」本質上具有挑戰性，還因為代理人不會立即具備可修正性（corrigibility），甚至可能阻止我們修復錯誤！我認為許多核心問題只能在代理人結構層級（這是一個「較低」的存取層級，意指更粗顆粒度）上進行針對性處理。

**自然潛在變量（Natural latents）**研究員試圖揭示模型的本體。也就是說，他們預設了一個非常低的存取層級，並試圖透過提高我們的存取層級來攻克問題（所以從某種意義上說，這是一個獨特的「動態」存取視角）。我認為這是一個很好的策略，觸及了一些核心問題，但要取得進展將極具挑戰。

UAI。 現在我將嘗試從形式化體系出發，勾勒出 UAI 在 AI 安全方面的存取視角和可操作性（affordances）。

AIXI 的本體（稱之為 $\mathcal{M}$）是由生成第一人稱交互歷史的圖靈機組成的。以 $\mathcal{M}$ 的方式思考會使某些錯誤顯得不自然。很明顯，人類並非環境中特權的一部分（沒有其他本體論上的基本代理人；你該如何指向一個人類？）。很明顯，即使能以白箱方式存取 AIXI 的信念，我們也無法可靠地讀取它們（根據萊斯定理 Rice's theorem）。事實上，$\mathcal{M}$ 中不同假設之間的區隔並非特權，因為不同的圖靈機可以產生相同的輸出分佈（但這在計算上是不可檢查的，所以對 UAI 來說幾乎是隱形的）。自然的討論層級是通用分佈產生的機率（等同於所羅門諾夫歸納法產生的預測），以及在此基礎上為了追求累積折扣獎勵而建立的計畫。

當 UAI 理論家思考如何使 ASI 安全時，我主張我們對問題的可操作性抱持著同樣的預期。初步看來，我們傾向於從一個 ASI 的角度來思考，它基於一個（持續）學習的～黑箱預測模型來計畫追求某些目標。

這種觀點有其反對者並提出了一些強烈的質疑，特別是圍繞著嵌入式代理（embedded agency）。但我認為這些質疑對於我們正在經歷的這種較慢的起飛（takeoff）可能沒那麼相關，而且 UAI 的圖景已被證明相當準確！預訓練神經網路確實非常接近黑箱預測模型；可解釋性技術當然存在，但往往像是在路燈下找鑰匙，無法很好地捕捉模型內部發生的所有（甚至大部分）情況。遞迴自我改進看起來不像是重寫自身，而更像是加速軟體工程，且勒布障礙（Löbian obstacle）並未以預期的方式產生關聯。但機率預測確實明確地暴露給我們，至少在強化學習（RL）後訓練之前是如此——而後訓練確實是基於獎勵的！

不幸的是，RL 訓練出的是一種不顯露明確計畫的行為策略。這是對 AIXI 的一個經典反對意見，通常傾向於支持（定義遠不夠嚴謹的）碎片理論（shard theory）。因此，UAI 可能仍然高估了我們對模型內部的存取層級。

然而，我認為 $\mathcal{M}$ 實際上集中在了大約正確的存取層級上。首先，我們確實可以訓練越來越通用的（純）預測模型，例如基礎模型（foundation models），這與所羅門諾夫歸納法有些類似。UAI 自然會問我們能利用這類模型做什麼有用的事。一種選擇是在預測模型之上運行期望極大值（expectimax）樹搜尋（如 AIXI 所示），但 UAI 也包括直接策略搜尋，以及近期關於考慮到重要非實現性（nonrealizability）問題的策略蒸餾討論，隨後用反射神諭（reflective oracles）對其進行修補。此外，對預測模型的黑箱存取是 UAI 視角建議思考的核心存取層級，而非最低層級。一些 UAI 安全方案並未詳細使用預測（如即將推出的「金手銬」方案），甚至放棄存取特定預測，僅依賴預測器的一些可證明的宏觀屬性（自殺式 AIXI）。需要明確的是，AF 研究員可以輕易指出這些方案的缺陷和局限。但 UAI 安全研究正在取得理論進展，這暗示了現實的實作方式。

安全研究員心中應有一套他們希望未來 ML 技術能暴露的存取方式和操作權限，且這些權限至少在理路上是可實現的。這排除了深入外星本體並讀出一個標記為「人類價值觀」的乾淨物件，以及許多類似錯誤的更隱蔽例子。但我不認為這排除了諸如暴露預測模型、對明確獎勵訊號的近似內對齊，或者（更具野心地）高層級架構特徵，如近視性（嘗試僅在短期回饋上訓練）或對歧義的悲觀主義（嘗試進行分布外 OOD 檢測，或許使用專家混合模型）。給定這些工程/科學突破（或「奇蹟」），我們應該有一個設計安全代理人的計畫。我認為 UAI 也可能透過理解深度學習的泛化屬性，告訴我們如何達成目標。但無論這些突破來自何處，UAI 都能讓我們準備好利用它們。

結論

UAI 以學習和搜尋為核心，這正是現代 ML 的動力來源。同時，UAI 的研究對象強大到足以討論 ASI。例如，通用分佈豐富到足以表達非常令人驚訝的泛化行為的可能性（暗示了惡意先驗）。UAI 作為 AI 安全研究框架的主要（且未被充分重視）優點之一，在於它允許在一個與現代 ML 高度相似的設定中分析 AF 問題。我希望很快能透過實作受 UAI 啟發的實用安全方法，從這種對應關係中獲得更多進展。

參與討論

https://lesswrong.com/posts/baP2osKGc4KmDoTET/the-aixi-perspective-on-ai-safety