沒有AI心理學就沒有工具性趨同

沒有AI心理學就沒有工具性趨同

Lesswrong·

我主張預測 AI 的危險行為需要對其如何選擇計畫的心理假設,而非宣稱工具性趨同僅源於現實或計畫空間的本質。雖然現實限制了可能的結果,但最終選擇哪種計畫仍取決於 AI 內部的決策過程與啟發式方法。

秘密在於,工具性趨斂(instrumental convergence)是一個關於現實(關於可能計畫的空間)的事實,而非關於人工智慧(AI)心理學的事實。

Zack M. Davis,小組討論

這類論點在 AI 安全領域中時常出現。雖然這些論點包含部分事實,但它們試圖逃避「AI 心理學」,卻必然失敗。要預測 AI 產生的不良後果,我們必須對 AI 傾向於如何選擇計畫採取某種立場。


這個主題是我的專長。工具性趨斂從何而來?既然我的對齊博士學位正是針對這個問題進行研究,我非常適合來解釋這個情況。

在本文中,我並非要論證構建變革性 AI 是安全的,或是變革性 AI 不會傾向於選擇危險的計畫。我只是反對「工具性趨斂源於現實 / 計畫空間
^([1])
本身,且獨立於 AI 心理學」這一主張。

  • 本文的最佳閱讀體驗是在我的網站上,但我在此也完整轉載。

兩種趨斂

操作型定義:當我說「AI 心理學」時,我指的是任何會影響 AI 如何計算下一步行動的因素。這可能包括 AI 擁有的任何目標、它使用的啟發式方法或優化演算法,以及更廣泛地說,其決策過程的語義。

雖然我花了一段時間才意識到,但「計畫空間本身就是危險的」這種觀點實際上並非關於工具性趨斂。這種觀點涉及的是一個相關但截然不同的概念。

工具性趨斂(Instrumental convergence):「大多數 AI 目標都會激勵相似的行動(如尋求權力)。」波斯特羅姆(Bostrom)給出了經典定義

成功條件趨斂(Success-conditioned convergence):「以達成某個『艱難』目標(如重大科學突破)為條件,大多數能達成目標的計畫都涉及 AI 的危險行為。」我創造這個詞是為了將其與工具性趨斂區分開來。

關鍵區別:對於工具性趨斂,「大多數」是指 AI 的目標。對於成功條件趨斂,「大多數」是指計畫

正如我將證明的,這兩種類型的趨斂都需要心理學假設。

追溯「危險計畫空間」的主張

2023 年,Rob Bensinger 對 Zack 的主張進行了更詳細的陳述。

我預期 AGI 毀滅的基本原因 —— Rob Bensinger

如果你從所有可編寫計畫的空間中隨機抽取一個計畫(按長度加權,使用任何現存的正式語言),而我們對該計畫僅有的了解是:執行它將成功實現某個超人類雄心的技術目標,例如「發明快速運行的全腦模擬(WBE)」,那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]

危險在於認知工作本身,而不在於「智能體」某些複雜或湧現的特徵;危險就在任務本身。

這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的;而是工具性趨斂(instrumental convergence)命題對計畫本身成立。在完全普遍的情況下,能成功達成「構建 WBE」這類目標的計畫往往是危險的。

這並非對所有能成功將世界推向特定(且足夠難以達成)物理狀態的計畫都成立,但對絕大多數計畫來說確實如此。

現實究竟決定了什麼

「計畫空間是危險的」這一論點包含了一個重要的事實核心。

現實決定了可能的結果

「現實」以環境的形式與 AI 相遇。智能體採取行動,但現實給予回應(透過定義轉移算子)。現實限制了可達成的結果——例如,無論智能體的計畫多麼聰明,都無法實現超光速旅行。

想像我站在一條長走廊的中間。一端有一扇單向門,通往一個裝滿香蕉籃子的房間;另一端則通往裝滿蘋果箱的房間。為了簡單起見,假設我只有幾分鐘時間待在這個建築內。在這種情況下,我無法同時吃到蘋果和香蕉,因為單向門會在我身後關閉。我要麼留在走廊,要麼進入蘋果房,要麼進入香蕉房。

現實定義了我可用的選項,因此強加了一個極其殘酷的權衡。無論我的「心理」如何——無論我如何思考計畫、我大腦的歸納偏誤,或是內心的願望——這種權衡都束縛著我。沒有任何計畫能導致「Alex 在下一分鐘內同時吃到香蕉和蘋果」的結果。現實將世界強加給計畫者,而計畫者則執行其計畫來引導現實。

現實約束了計畫並支配了它們的權衡,但最終哪一個計畫被選中?這個問題屬於 AI 心理學範疇。

現實決定了對齊稅,而非趨斂

要預測 AI 的危險行為,你需要假設某種計畫生成函數 $f$,它從 $\text{Plans}$(所有可能計畫的集合)中進行選擇。
^([2])
當思想家們爭論危險潛伏在「任務本身」時,他們隱含地斷言 $f$ 的形式為:

$$f_{\text{pure-success}}(\text{Plans}) := \text{選擇成功機率最高的計畫} \arg\max_{p \in \text{Plans}} \text{SuccessProbability}(p)$$

在一個難以找到安全計畫、安全計畫更複雜或成功率較低的現實中,$f_{\text{pure-success}}$ 確實可能產生危險的計畫。但這不僅僅是關於 $\text{Plans}$ 的事實——這是關於 $f_{\text{pure-success}}$ 如何與 $\text{Plans}$ 互動,以及這些計畫所隱含的權衡的事實。

考慮如果我們引入一個安全約束(為了論證假設它是「正確的」)會發生什麼。受約束的計畫生成函數 $f_{\text{safe-success}}$ 將不會產生危險的計畫。相反,它會以較低的機率成功。對齊稅(alignment tax)存在於純粹成功極大化者($f_{\text{pure-success}}$)與 $f_{\text{safe-success}}$ 之間的成功機率差異中。

說對齊稅「很高」是一個關於現實的主張。但假設 AI 會拒絕支付這筆稅,則是一個關於 AI 心理學的陳述。
^([3])

考慮極端情況。

最大對齊稅

如果根本沒有任何對齊(安全)的方法可以成功,那麼無論心理狀態如何,危險就在於試圖成功這件事本身。「永遠折磨每個人」似乎就是這樣一個任務。在這種情況下(這並非 Bensinger 或 Davis 所主張的情況),危險確實「在於任務」。

零對齊稅

如果安全計畫很容易找到,那麼危險純粹來自「AI 心理學」(透過計畫生成函數)。

中間地帶

現實決定了對齊稅,進而決定了智能體可用的權衡。然而,智能體的心理決定了它如何進行這些權衡:它是否(以及如何)會為了成功而犧牲安全; AI 是否願意撒謊;如何生成可能的計畫;接下來要考慮哪種計畫等等。因此,現實心理共同產生了最終輸出。

我並非在鑽牛角尖。Gemini Pro 3.0 和 MechaHitler 實現了不同的計畫生成函數 $f$。這些差異支配了這些系統在導航現實強加的權衡時的不同方式。一個實現了不完美安全過濾器的誠實 AI 可能會拒絕危險的高成功率計畫,並繼續尋找,直到找到一個安全且成功的計畫。MechaHitler 則不太可能這樣做。

為什麼兩種類型的趨斂都需要心理學

我已經說明了現實決定了對齊稅,但不能決定選中哪個計畫。現在讓我證明為什麼這兩種類型的趨斂都必然依賴於 AI 心理學。

工具性趨斂依賴於心理學

工具性趨斂依賴於 AI 心理學,正如我的論文《參數化可重定向決策者傾向於尋求權力》所證明的。簡而言之,AI 心理學支配了從「AI 動機」到「AI 計畫」的映射。某些心理狀態會誘導出滿足我定理的映射,而這些定理是證明工具性趨斂的充分條件。

更準確地說,工具性趨斂源於計畫生成函數 $f$(「AI 在給定『目標』下會做什麼」)相對於其輸入(「目標」)的統計傾向。這種趨斂建立在對該函數語義及其輸入的假設之上。這些假設可以由以下因素滿足:

這類結論總是需要關於計畫選擇過程的語義(「心理學」)假設——而非關於抽象「計畫空間」的事實,更不用說現實本身了。

成功條件趨斂依賴於心理學

成功條件趨斂聽起來似乎與 AI 心理學無關——我們只假設目標的完成,而我們希望真正的 AI 為我們完成目標。然而,這種直覺是不正確的。

任何關於「成功計畫是危險的」的主張,都需要在成功計畫集合上選擇一個分佈。Bensinger 提出了一個按長度加權的分佈,但這仍然是一個關於 AI 如何生成和選擇計畫的心理學假設。一個本質上厭惡撒謊的 AI 與一個本質上仇恨人類的 AI 相比,最終會確定一個不同的計畫。

無論你使用均勻分佈還是長度加權分佈,你都在對 AI 心理學做假設。趨斂主張本質上是關於在某種分佈下哪些計畫是可能的,因此沒有聰明的捷徑或簡單的修辭反擊。如果你做出像「這是關於可能計畫空間的一個事實」這樣的無條件陳述,你就是透過武斷的方式斷言了你對計畫如何被選擇的假設!

重新審視原始主張

秘密在於,工具性趨斂是一個關於現實(關於可能計畫的空間)的事實,而非關於 AI 心理學的事實。

Zack M. Davis,小組討論

我預期 AGI 毀滅的基本原因

如果你從所有可編寫計畫的空間中隨機抽取一個計畫(按長度加權,使用任何現存的正式語言),而我們對該計畫僅有的了解是:執行它將成功實現某個超人類雄心的技術目標,例如「發明快速運行的全腦模擬」,那麼按下按鈕執行該計畫極大機率會殺死所有人類。[...]

危險在於認知工作本身,而不在於「智能體」某些複雜或湧現的特徵;危險就在任務本身。

這並不是說抽象的計畫空間是由邪惡的仇恨人類的心智所構建的;而是工具性趨斂(instrumental convergence)命題對計畫本身成立。

這個論點有兩個關鍵問題:

術語混淆: 該論點討論的並非「工具性趨斂」。相反,它討論的是(我所稱的)「成功條件趨斂」。(這種區別對我來說也曾很微妙。)

隱藏的心理學假設: 該論點仍然依賴於智能體的心理。長度加權的先驗加上對成功標準的拒絕採樣,其本身就是一個關於 AI 傾向於選擇什麼計畫的假設。該假設迴避了圍繞「AI 目標 / 優先級 / 心理會是什麼樣子?」的整個辯論。擁有不同的「目標」或「心理」會直接轉化為產生不同的計畫。這兩種類型的趨斂都無法獨立於心理學而存在。

不過,或許一個不同且較弱的主張仍然成立:

一個可能成立的有效猜想:你從為了成功而進行強力優化中所獲得的預設心理,將會誘導出選擇危險計畫的計畫生成函數,這在很大程度上是由於不安全計畫的高密度所致。

結論

現實決定了安全計畫的對齊稅。然而,工具性趨斂需要對 AI 目標的分佈以及這些目標如何轉化為計畫生成函數做出假設。成功條件趨斂則需要對 AI 會構思並選擇哪些計畫做出假設。這兩組假設都涉及 AI 心理學。

現實約束了計畫並支配了它們的權衡,但最終哪一個計畫被選中?這個問題始終屬於 AI 心理學範疇。

感謝 Garrett Baker, Peter Barnett, Aryan Bhatt, Chase Denecke, 和 Zack M. Davis 提供反饋。

  • 我更傾向於使用「可能計畫的集合」,因為「計畫空間」(plan-space)會讓人聯想到向量空間的結構特性。↩︎

  • 「計畫」(Plans)本身定義不明確,但在本文中我將略過這一點,因為這會增加很多篇幅卻換不來多少額外的見解。↩︎

  • 論證「成功極大化者更有利可圖且更有可能被部署」是一個關於經濟競爭的論點,其本身是一個關於安全與成功之間權衡的論點,而這反過來又需要對 AI 心理學進行推理。↩︎

Lesswrong

相關文章

  1. 對齊將會是預設。接下來呢?

    5 個月前

  2. 如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了

    2 個月前

  3. 「對齊很難」的論述為何看似與人類直覺格格不入,反之亦然的六個原因

    5 個月前

  4. 我的AGI安全研究:2025年回顧與2026年計畫

    4 個月前

  5. 論為了安全而限制人工智慧發展

    大約 1 個月前