
沒有AI心理學就沒有工具性趨同
我主張預測 AI 的危險行為需要對其如何選擇計畫的心理假設,而非宣稱工具性趨同僅源於現實或計畫空間的本質。雖然現實限制了可能的結果,但最終選擇哪種計畫仍取決於 AI 內部的決策過程與啟發式方法。
秘密在於,工具性趨斂(instrumental convergence)是一個關於現實(關於可能計畫的空間)的事實,而非關於人工智慧(AI)心理學的事實。
Zack M. Davis,小組討論
這類論點在 AI 安全領域中時常出現。雖然這些論點包含部分事實,但它們試圖逃避「AI 心理學」,卻必然失敗。要預測 AI 產生的不良後果,我們必須對 AI 傾向於如何選擇計畫採取某種立場。
這個主題是我的專長。工具性趨斂從何而來?既然我的對齊博士學位正是針對這個問題進行研究,我非常適合來解釋這個情況。
在本文中,我並非要論證構建變革性 AI 是安全的,或是變革性 AI 不會傾向於選擇危險的計畫。我只是反對「工具性趨斂源於現實 / 計畫空間
^([1])
本身,且獨立於 AI 心理學」這一主張。
- 本文的最佳閱讀體驗是在我的網站上,但我在此也完整轉載。
兩種趨斂
操作型定義:當我說「AI 心理學」時,我指的是任何會影響 AI 如何計算下一步行動的因素。這可能包括 AI 擁有的任何目標、它使用的啟發式方法或優化演算法,以及更廣泛地說,其決策過程的語義。
雖然我花了一段時間才意識到,但「計畫空間本身就是危險的」這種觀點實際上並非關於工具性趨斂。這種觀點涉及的是一個相關但截然不同的概念。
工具性趨斂(Instrumental convergence):「大多數 AI 目標都會激勵相似的行動(如尋求權力)。」波斯特羅姆(Bostrom)給出了經典定義。
成功條件趨斂(Success-conditioned convergence):「以達成某個『艱難』目標(如重大科學突破)為條件,大多數能達成目標的計畫都涉及 AI 的危險行為。」我創造這個詞是為了將其與工具性趨斂區分開來。
關鍵區別:對於工具性趨斂,「大多數」是指 AI 的目標。對於成功條件趨斂,「大多數」是指計畫。
正如我將證明的,這兩種類型的趨斂都需要心理學假設。
追溯「危險計畫空間」的主張
2023 年,Rob Bensinger 對 Zack 的主張進行了更詳細的陳述。
我預期 AGI 毀滅的基本原因 —— Rob Bensinger
如果你從所有可編寫計畫的空間中隨機抽取一個計畫(按長度加權,使用任何現存的正式語言),而我們對該計畫僅有的了解是:執行它將成功實現某個超人類雄心的技術目標,例如「發明快速運行的全腦模擬(WBE)」,那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]
危險在於認知工作本身,而不在於「智能體」某些複雜或湧現的特徵;危險就在任務本身。
這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的;而是工具性趨斂(instrumental convergence)命題對計畫本身成立。在完全普遍的情況下,能成功達成「構建 WBE」這類目標的計畫往往是危險的。
這並非對所有能成功將世界推向特定(且足夠難以達成)物理狀態的計畫都成立,但對絕大多數計畫來說確實如此。
現實究竟決定了什麼
「計畫空間是危險的」這一論點包含了一個重要的事實核心。
現實決定了可能的結果
「現實」以環境的形式與 AI 相遇。智能體採取行動,但現實給予回應(透過定義轉移算子)。現實限制了可達成的結果——例如,無論智能體的計畫多麼聰明,都無法實現超光速旅行。
想像我站在一條長走廊的中間。一端有一扇單向門,通往一個裝滿香蕉籃子的房間;另一端則通往裝滿蘋果箱的房間。為了簡單起見,假設我只有幾分鐘時間待在這個建築內。在這種情況下,我無法同時吃到蘋果和香蕉,因為單向門會在我身後關閉。我要麼留在走廊,要麼進入蘋果房,要麼進入香蕉房。
現實定義了我可用的選項,因此強加了一個極其殘酷的權衡。無論我的「心理」如何——無論我如何思考計畫、我大腦的歸納偏誤,或是內心的願望——這種權衡都束縛著我。沒有任何計畫能導致「Alex 在下一分鐘內同時吃到香蕉和蘋果」的結果。現實將世界強加給計畫者,而計畫者則執行其計畫來引導現實。
現實約束了計畫並支配了它們的權衡,但最終哪一個計畫被選中?這個問題屬於 AI 心理學範疇。
現實決定了對齊稅,而非趨斂
要預測 AI 的危險行為,你需要假設某種計畫生成函數 $f$,它從 $\text{Plans}$(所有可能計畫的集合)中進行選擇。
^([2])
當思想家們爭論危險潛伏在「任務本身」時,他們隱含地斷言 $f$ 的形式為:
$$f_{\text{pure-success}}(\text{Plans}) := \text{選擇成功機率最高的計畫} \arg\max_{p \in \text{Plans}} \text{SuccessProbability}(p)$$
在一個難以找到安全計畫、安全計畫更複雜或成功率較低的現實中,$f_{\text{pure-success}}$ 確實可能產生危險的計畫。但這不僅僅是關於 $\text{Plans}$ 的事實——這是關於 $f_{\text{pure-success}}$ 如何與 $\text{Plans}$ 互動,以及這些計畫所隱含的權衡的事實。
考慮如果我們引入一個安全約束(為了論證假設它是「正確的」)會發生什麼。受約束的計畫生成函數 $f_{\text{safe-success}}$ 將不會產生危險的計畫。相反,它會以較低的機率成功。對齊稅(alignment tax)存在於純粹成功極大化者($f_{\text{pure-success}}$)與 $f_{\text{safe-success}}$ 之間的成功機率差異中。
說對齊稅「很高」是一個關於現實的主張。但假設 AI 會拒絕支付這筆稅,則是一個關於 AI 心理學的陳述。
^([3])
考慮極端情況。
最大對齊稅
如果根本沒有任何對齊(安全)的方法可以成功,那麼無論心理狀態如何,危險就在於試圖成功這件事本身。「永遠折磨每個人」似乎就是這樣一個任務。在這種情況下(這並非 Bensinger 或 Davis 所主張的情況),危險確實「在於任務」。
零對齊稅
如果安全計畫很容易找到,那麼危險純粹來自「AI 心理學」(透過計畫生成函數)。
中間地帶
現實決定了對齊稅,進而決定了智能體可用的權衡。然而,智能體的心理決定了它如何進行這些權衡:它是否(以及如何)會為了成功而犧牲安全; AI 是否願意撒謊;如何生成可能的計畫;接下來要考慮哪種計畫等等。因此,現實與心理共同產生了最終輸出。
我並非在鑽牛角尖。Gemini Pro 3.0 和 MechaHitler 實現了不同的計畫生成函數 $f$。這些差異支配了這些系統在導航現實強加的權衡時的不同方式。一個實現了不完美安全過濾器的誠實 AI 可能會拒絕危險的高成功率計畫,並繼續尋找,直到找到一個安全且成功的計畫。MechaHitler 則不太可能這樣做。
為什麼兩種類型的趨斂都需要心理學
我已經說明了現實決定了對齊稅,但不能決定選中哪個計畫。現在讓我證明為什麼這兩種類型的趨斂都必然依賴於 AI 心理學。
工具性趨斂依賴於心理學
工具性趨斂依賴於 AI 心理學,正如我的論文《參數化可重定向決策者傾向於尋求權力》所證明的。簡而言之,AI 心理學支配了從「AI 動機」到「AI 計畫」的映射。某些心理狀態會誘導出滿足我定理的映射,而這些定理是證明工具性趨斂的充分條件。
更準確地說,工具性趨斂源於計畫生成函數 $f$(「AI 在給定『目標』下會做什麼」)相對於其輸入(「目標」)的統計傾向。這種趨斂建立在對該函數語義及其輸入的假設之上。這些假設可以由以下因素滿足:
-
對世界狀態效用函數的滿意化(satisficing),或者
這類結論總是需要關於計畫選擇過程的語義(「心理學」)假設——而非關於抽象「計畫空間」的事實,更不用說現實本身了。
成功條件趨斂依賴於心理學
成功條件趨斂聽起來似乎與 AI 心理學無關——我們只假設目標的完成,而我們希望真正的 AI 為我們完成目標。然而,這種直覺是不正確的。
任何關於「成功計畫是危險的」的主張,都需要在成功計畫集合上選擇一個分佈。Bensinger 提出了一個按長度加權的分佈,但這仍然是一個關於 AI 如何生成和選擇計畫的心理學假設。一個本質上厭惡撒謊的 AI 與一個本質上仇恨人類的 AI 相比,最終會確定一個不同的計畫。
無論你使用均勻分佈還是長度加權分佈,你都在對 AI 心理學做假設。趨斂主張本質上是關於在某種分佈下哪些計畫是可能的,因此沒有聰明的捷徑或簡單的修辭反擊。如果你做出像「這是關於可能計畫空間的一個事實」這樣的無條件陳述,你就是透過武斷的方式斷言了你對計畫如何被選擇的假設!
重新審視原始主張
秘密在於,工具性趨斂是一個關於現實(關於可能計畫的空間)的事實,而非關於 AI 心理學的事實。
Zack M. Davis,小組討論
如果你從所有可編寫計畫的空間中隨機抽取一個計畫(按長度加權,使用任何現存的正式語言),而我們對該計畫僅有的了解是:執行它將成功實現某個超人類雄心的技術目標,例如「發明快速運行的全腦模擬」,那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]
危險在於認知工作本身,而不在於「智能體」某些複雜或湧現的特徵;危險就在任務本身。
這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的;而是工具性趨斂(instrumental convergence)命題對計畫本身成立。
這個論點有兩個關鍵問題:
術語混淆: 該論點討論的並非「工具性趨斂」。相反,它討論的是(我所稱的)「成功條件趨斂」。(這種區別對我來說也曾很微妙。)
隱藏的心理學假設: 該論點仍然依賴於智能體的心理。長度加權的先驗加上對成功標準的拒絕採樣,其本身就是一個關於 AI 傾向於選擇什麼計畫的假設。該假設迴避了圍繞「AI 目標 / 優先級 / 心理會是什麼樣子?」的整個辯論。擁有不同的「目標」或「心理」會直接轉化為產生不同的計畫。這兩種類型的趨斂都無法獨立於心理學而存在。
不過,或許一個不同且較弱的主張仍然成立:
一個可能成立的有效猜想:你從為了成功而進行強力優化中所獲得的預設心理,將會誘導出選擇危險計畫的計畫生成函數,這在很大程度上是由於不安全計畫的高密度所致。
結論
現實決定了安全計畫的對齊稅。然而,工具性趨斂需要對 AI 目標的分佈以及這些目標如何轉化為計畫生成函數做出假設。成功條件趨斂則需要對 AI 會構思並選擇哪些計畫做出假設。這兩組假設都涉及 AI 心理學。
現實約束了計畫並支配了它們的權衡,但最終哪一個計畫被選中?這個問題始終屬於 AI 心理學範疇。
感謝 Garrett Baker, Peter Barnett, Aryan Bhatt, Chase Denecke, 和 Zack M. Davis 提供反饋。
相關文章