沒有AI心理學就沒有工具性趨同

Lesswrong·3 個月前

我主張預測 AI 的危險行為需要對其如何選擇計畫的心理假設，而非宣稱工具性趨同僅源於現實或計畫空間的本質。雖然現實限制了可能的結果，但最終選擇哪種計畫仍取決於 AI 內部的決策過程與啟發式方法。

秘密在於，工具性趨斂（instrumental convergence）是一個關於現實（關於可能計畫的空間）的事實，而非關於人工智慧（AI）心理學的事實。

Zack M. Davis，小組討論

這類論點在 AI 安全領域中時常出現。雖然這些論點包含部分事實，但它們試圖逃避「AI 心理學」，卻必然失敗。要預測 AI 產生的不良後果，我們必須對 AI 傾向於如何選擇計畫採取某種立場。

這個主題是我的專長。工具性趨斂從何而來？既然我的對齊博士學位正是針對這個問題進行研究，我非常適合來解釋這個情況。

在本文中，我並非要論證構建變革性 AI 是安全的，或是變革性 AI 不會傾向於選擇危險的計畫。我只是反對「工具性趨斂源於現實 / 計畫空間
^([1])
本身，且獨立於 AI 心理學」這一主張。

本文的最佳閱讀體驗是在我的網站上，但我在此也完整轉載。

兩種趨斂

操作型定義：當我說「AI 心理學」時，我指的是任何會影響 AI 如何計算下一步行動的因素。這可能包括 AI 擁有的任何目標、它使用的啟發式方法或優化演算法，以及更廣泛地說，其決策過程的語義。

雖然我花了一段時間才意識到，但「計畫空間本身就是危險的」這種觀點實際上並非關於工具性趨斂。這種觀點涉及的是一個相關但截然不同的概念。

工具性趨斂（Instrumental convergence）：「大多數 AI 目標都會激勵相似的行動（如尋求權力）。」波斯特羅姆（Bostrom）給出了經典定義。

成功條件趨斂（Success-conditioned convergence）：「以達成某個『艱難』目標（如重大科學突破）為條件，大多數能達成目標的計畫都涉及 AI 的危險行為。」我創造這個詞是為了將其與工具性趨斂區分開來。

關鍵區別：對於工具性趨斂，「大多數」是指 AI 的目標。對於成功條件趨斂，「大多數」是指計畫。

正如我將證明的，這兩種類型的趨斂都需要心理學假設。

追溯「危險計畫空間」的主張

2023 年，Rob Bensinger 對 Zack 的主張進行了更詳細的陳述。

我預期 AGI 毀滅的基本原因 —— Rob Bensinger

如果你從所有可編寫計畫的空間中隨機抽取一個計畫（按長度加權，使用任何現存的正式語言），而我們對該計畫僅有的了解是：執行它將成功實現某個超人類雄心的技術目標，例如「發明快速運行的全腦模擬（WBE）」，那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]

危險在於認知工作本身，而不在於「智能體」某些複雜或湧現的特徵；危險就在任務本身。

這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的；而是工具性趨斂（instrumental convergence）命題對計畫本身成立。在完全普遍的情況下，能成功達成「構建 WBE」這類目標的計畫往往是危險的。

這並非對所有能成功將世界推向特定（且足夠難以達成）物理狀態的計畫都成立，但對絕大多數計畫來說確實如此。

現實究竟決定了什麼

「計畫空間是危險的」這一論點包含了一個重要的事實核心。

現實決定了可能的結果

「現實」以環境的形式與 AI 相遇。智能體採取行動，但現實給予回應（透過定義轉移算子）。現實限制了可達成的結果——例如，無論智能體的計畫多麼聰明，都無法實現超光速旅行。

想像我站在一條長走廊的中間。一端有一扇單向門，通往一個裝滿香蕉籃子的房間；另一端則通往裝滿蘋果箱的房間。為了簡單起見，假設我只有幾分鐘時間待在這個建築內。在這種情況下，我無法同時吃到蘋果和香蕉，因為單向門會在我身後關閉。我要麼留在走廊，要麼進入蘋果房，要麼進入香蕉房。

現實定義了我可用的選項，因此強加了一個極其殘酷的權衡。無論我的「心理」如何——無論我如何思考計畫、我大腦的歸納偏誤，或是內心的願望——這種權衡都束縛著我。沒有任何計畫能導致「Alex 在下一分鐘內同時吃到香蕉和蘋果」的結果。現實將世界強加給計畫者，而計畫者則執行其計畫來引導現實。

現實約束了計畫並支配了它們的權衡，但最終哪一個計畫被選中？這個問題屬於 AI 心理學範疇。

現實決定了對齊稅，而非趨斂

要預測 AI 的危險行為，你需要假設某種計畫生成函數 $f$，它從 $\text{Plans}$（所有可能計畫的集合）中進行選擇。
^([2])
當思想家們爭論危險潛伏在「任務本身」時，他們隱含地斷言 $f$ 的形式為：

$$f_{\text{pure-success}}(\text{Plans}) := \text{選擇成功機率最高的計畫} \arg\max_{p \in \text{Plans}} \text{SuccessProbability}(p)$$

在一個難以找到安全計畫、安全計畫更複雜或成功率較低的現實中，$f_{\text{pure-success}}$ 確實可能產生危險的計畫。但這不僅僅是關於 $\text{Plans}$ 的事實——這是關於 $f_{\text{pure-success}}$ 如何與 $\text{Plans}$ 互動，以及這些計畫所隱含的權衡的事實。

考慮如果我們引入一個安全約束（為了論證假設它是「正確的」）會發生什麼。受約束的計畫生成函數 $f_{\text{safe-success}}$ 將不會產生危險的計畫。相反，它會以較低的機率成功。對齊稅（alignment tax）存在於純粹成功極大化者（$f_{\text{pure-success}}$）與 $f_{\text{safe-success}}$ 之間的成功機率差異中。

說對齊稅「很高」是一個關於現實的主張。但假設 AI 會拒絕支付這筆稅，則是一個關於 AI 心理學的陳述。
^([3])

考慮極端情況。

最大對齊稅

如果根本沒有任何對齊（安全）的方法可以成功，那麼無論心理狀態如何，危險就在於試圖成功這件事本身。「永遠折磨每個人」似乎就是這樣一個任務。在這種情況下（這並非 Bensinger 或 Davis 所主張的情況），危險確實「在於任務」。

零對齊稅

如果安全計畫很容易找到，那麼危險純粹來自「AI 心理學」（透過計畫生成函數）。

中間地帶

現實決定了對齊稅，進而決定了智能體可用的權衡。然而，智能體的心理決定了它如何進行這些權衡：它是否（以及如何）會為了成功而犧牲安全； AI 是否願意撒謊；如何生成可能的計畫；接下來要考慮哪種計畫等等。因此，現實與心理共同產生了最終輸出。

我並非在鑽牛角尖。Gemini Pro 3.0 和 MechaHitler 實現了不同的計畫生成函數 $f$。這些差異支配了這些系統在導航現實強加的權衡時的不同方式。一個實現了不完美安全過濾器的誠實 AI 可能會拒絕危險的高成功率計畫，並繼續尋找，直到找到一個安全且成功的計畫。MechaHitler 則不太可能這樣做。

為什麼兩種類型的趨斂都需要心理學

我已經說明了現實決定了對齊稅，但不能決定選中哪個計畫。現在讓我證明為什麼這兩種類型的趨斂都必然依賴於 AI 心理學。

工具性趨斂依賴於心理學

工具性趨斂依賴於 AI 心理學，正如我的論文《參數化可重定向決策者傾向於尋求權力》所證明的。簡而言之，AI 心理學支配了從「AI 動機」到「AI 計畫」的映射。某些心理狀態會誘導出滿足我定理的映射，而這些定理是證明工具性趨斂的充分條件。

更準確地說，工具性趨斂源於計畫生成函數 $f$（「AI 在給定『目標』下會做什麼」）相對於其輸入（「目標」）的統計傾向。這種趨斂建立在對該函數語義及其輸入的假設之上。這些假設可以由以下因素滿足：

這類結論總是需要關於計畫選擇過程的語義（「心理學」）假設——而非關於抽象「計畫空間」的事實，更不用說現實本身了。

成功條件趨斂依賴於心理學

成功條件趨斂聽起來似乎與 AI 心理學無關——我們只假設目標的完成，而我們希望真正的 AI 為我們完成目標。然而，這種直覺是不正確的。

任何關於「成功計畫是危險的」的主張，都需要在成功計畫集合上選擇一個分佈。Bensinger 提出了一個按長度加權的分佈，但這仍然是一個關於 AI 如何生成和選擇計畫的心理學假設。一個本質上厭惡撒謊的 AI 與一個本質上仇恨人類的 AI 相比，最終會確定一個不同的計畫。

無論你使用均勻分佈還是長度加權分佈，你都在對 AI 心理學做假設。趨斂主張本質上是關於在某種分佈下哪些計畫是可能的，因此沒有聰明的捷徑或簡單的修辭反擊。如果你做出像「這是關於可能計畫空間的一個事實」這樣的無條件陳述，你就是透過武斷的方式斷言了你對計畫如何被選擇的假設！

重新審視原始主張

秘密在於，工具性趨斂是一個關於現實（關於可能計畫的空間）的事實，而非關於 AI 心理學的事實。

Zack M. Davis，小組討論

我預期 AGI 毀滅的基本原因

如果你從所有可編寫計畫的空間中隨機抽取一個計畫（按長度加權，使用任何現存的正式語言），而我們對該計畫僅有的了解是：執行它將成功實現某個超人類雄心的技術目標，例如「發明快速運行的全腦模擬」，那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]

危險在於認知工作本身，而不在於「智能體」某些複雜或湧現的特徵；危險就在任務本身。

這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的；而是工具性趨斂（instrumental convergence）命題對計畫本身成立。

這個論點有兩個關鍵問題：

術語混淆： 該論點討論的並非「工具性趨斂」。相反，它討論的是（我所稱的）「成功條件趨斂」。（這種區別對我來說也曾很微妙。）

隱藏的心理學假設： 該論點仍然依賴於智能體的心理。長度加權的先驗加上對成功標準的拒絕採樣，其本身就是一個關於 AI 傾向於選擇什麼計畫的假設。該假設迴避了圍繞「AI 目標 / 優先級 / 心理會是什麼樣子？」的整個辯論。擁有不同的「目標」或「心理」會直接轉化為產生不同的計畫。這兩種類型的趨斂都無法獨立於心理學而存在。

不過，或許一個不同且較弱的主張仍然成立：

一個可能成立的有效猜想：你從為了成功而進行強力優化中所獲得的預設心理，將會誘導出選擇危險計畫的計畫生成函數，這在很大程度上是由於不安全計畫的高密度所致。

結論

現實決定了安全計畫的對齊稅。然而，工具性趨斂需要對 AI 目標的分佈以及這些目標如何轉化為計畫生成函數做出假設。成功條件趨斂則需要對 AI 會構思並選擇哪些計畫做出假設。這兩組假設都涉及 AI 心理學。

現實約束了計畫並支配了它們的權衡，但最終哪一個計畫被選中？這個問題始終屬於 AI 心理學範疇。

感謝 Garrett Baker, Peter Barnett, Aryan Bhatt, Chase Denecke, 和 Zack M. Davis 提供反饋。

我更傾向於使用「可能計畫的集合」，因為「計畫空間」（plan-space）會讓人聯想到向量空間的結構特性。↩︎
「計畫」（Plans）本身定義不明確，但在本文中我將略過這一點，因為這會增加很多篇幅卻換不來多少額外的見解。↩︎
論證「成功極大化者更有利可圖且更有可能被部署」是一個關於經濟競爭的論點，其本身是一個關於安全與成功之間權衡的論點，而這反過來又需要對 AI 心理學進行推理。↩︎

— Lesswrong