預測人工智慧動機的行為選擇模型

Lesswrong·5 個月前

行為選擇模型透過一個核心原則來預測人工智慧的動機：我們會預期 AI 具備某些認知模式（例如動機），而這些模式所導致的行為會反過來促使該模式被選擇。我將介紹這個模型如何將各種關於 AI 動機的論點統一在一個因果圖譜中，並探討其對 AI 決策的影響。

高能力的 AI 系統最終可能會決定未來。因此，理解驅動這些決定的因素，是我們所能提出的最重要的問題之一。

許多人提出了不同的答案。有些人預測強大的 AI 將學會本質地追求獎勵。其他人則回應說獎勵並非優化目標，相反地，獎勵是將一系列依賴於情境的認知模式「雕刻」進 AI 中。有些人認為強大的 AI 最終可能會擁有幾乎是「任意」的長期目標。

所有這些假設都有一個重要的共同依據：根據強化學習，具備上述各種動機的 AI 都具有高度適應性的行為。

這是一個更普遍原則的實例：我們應該預期 AI 會具有某些認知模式（例如動機），這些模式所導致的行為，會反過來促使這些認知模式被選擇。

在這篇文章中，我將闡明這個更普遍原則的含義以及它為何有用。具體而言：

我將介紹「行為選擇模型」（behavioral selection model），該模型以這一原則為中心，並在一個大型因果圖中統一了關於 AI 動機的基本論點。
我將討論對 AI 動機的基本影響。
接著，我將討論行為選擇模型的一些重要擴展和遺漏之處。

這篇文章主要是對現有想法的重新包裝（例如這裡、這裡和這裡）。Buck 在整個寫作過程中提供了有益的討論，行為選擇模型是基於 Buck 在早期對話中繪製的因果圖。感謝 Alex Cloud, Owen Cotton-Barratt, Oliver Habryka, Vivek Hebbar, Ajeya Cotra, Alexa Pan, Tim Hua, Alexandra Bates, Aghyad Deeb, Erik Jenner, Ryan Greenblatt, Arun Jose, Anshul Khandelwal, Lukas Finnveden, Aysja Johnson, Adam Scholl, Aniket Chakravorty, 和 Carlo Leonardo Attubato 提供的有益討論及反饋。

行為選擇模型如何預測 AI 行為？

行為選擇模型透過將 AI 的^([1]) 決策建模為由一系列認知模式驅動，來預測 AI 行為，而這些模式可以透過選擇來獲得或失去影響力。

認知模式是 AI 內部影響其行動的計算。它可以由特定情境激活。例如，AI 可能有一個情境激活的「抓取垃圾」認知模式，看起來像：「如果垃圾分類器在視野中心附近激活，則使用馬達子程序 #642 抓取垃圾」(Turner)。

認知模式可以透過選擇獲得或失去影響力。我將認知模式對 AI 行為的影響力定義為：它在反事實情況下對 AI 行動負責的程度——如果一個認知模式在許多情境下顯著影響行動概率，那麼它就是高影響力的。^([2]) 因此，一個認知模式「被選擇」，意味著它獲得了影響力。

圖示：編碼在權重中的不同認知模式透過選擇改變影響力。

行為選擇模型之所以得名，是因為它關注於根據觀察到的行為結果來選擇認知模式的過程。例如，強化學習是一種行為選擇過程，因為它透過對行為後果分配獎勵，來決定哪些認知模式應該增加權重或減少權重。例如，AI 中可能有一個抓取垃圾的認知模式：神經網絡中的某個電路，當垃圾靠近時會增加抓取垃圾行動的概率。如果 RL 識別出當垃圾靠近時，抓取垃圾的行動會帶來高獎勵，它就會增加導致這些行動的電路影響力，包括那個抓取垃圾的認知模式。

一類特別有趣的認知模式是我稱之為「動機」或「X 尋求者」的東西，它會投票支持它認為^([3]) 會導致 X 的行動。^([4]) 例如，獎勵尋求動機會投票支持它認為會導致高獎勵的行動。擁有動機並不意味著 AI 擁有連貫的長期目標，或在直覺意義上是目標導向的——例如，一個動機可以是「代碼在左括號後應該有右括號」。^([5]) 將 AI 描述為擁有動機，僅僅是為了幫助我們預測 AI 決策的輸入輸出行為模型，並非聲稱 AI 內部存在任何「動機狀」或「信念狀」的機制。

因此，行為選擇模型使用兩個組成部分來預測 AI 的認知模式：

認知模式被選擇的程度，取決於它導致了多少促使其被選擇的行為。
對認知模式的隱含先驗（implicit priors）會影響其最終的可能性。

這種分解可能會讓你聯想到貝氏先驗更新。行為選擇模型的中心是一個大型因果圖，它幫助我們分析 (1) 並讓我們直觀地描繪關於 (2) 的不同主張。

因果圖

為了預測 AI 最終會具備哪些認知模式（例如在部署中^([6])），我們繪製一個因果圖，顯示認知模式被選擇（即在部署中具有影響力）的原因和後果。

考慮一個代表編碼代理（coding agent）簡化選擇過程的因果圖。AI 透過一系列編碼情節（episodes）進行強化學習訓練，在每個訓練情節中，獎勵計算為通過測試案例的總數加上獎勵模型的評分。這個因果圖缺少了一些重要的機制，^([7]) 其中一些我稍後會討論，但它足以 (a) 展示行為選擇模型的工作原理，以及 (b) 得出相當具啟發性的結論。

從訓練情節中某個認知模式的角度來看，「在部署中具有影響力」的原因和後果^([8]) （例如，對於任何認知模式，在此訓練情節中獲得更高獎勵會導致其在部署中具有更高影響力）。因果圖中的每個節點都只是行為的一個可能後果。每個節點也可以是 AI 想要導致的事物（即動機）。它們都是同一種類型。這張圖幫助我們解釋為什麼謀劃者（schemers）、適應性尋求者（fitness-seekers，包括獎勵尋求者）以及某些動機的拼湊體（kludges）在行為上都是適應的。

以下是如何使用此因果圖來預測一個認知模式被選擇的程度。首先，弄清楚該認知模式會選擇什麼行動（例如，之前的抓取垃圾者在看到垃圾時會選擇伸手去抓垃圾等）。然後，查看因果圖，看看這些行動在多大程度上導致了「我在部署中具有影響力」——這就是該認知模式被選擇的程度。對於任意認知模式，這第二步可能非常複雜，涉及因果圖中的許多節點。

預測動機的適應性通常更簡單：你可以將任何候選動機 X 放在因果圖上——例如，長期的迴紋針。你通常可以很好地預測一個 X 尋求者在多大程度上會導致自己被選擇，而不需要推論它採取的具體行動。例如，一個有能力的長期迴紋針尋求者很可能會讓自己在部署中具有高影響力，因為這會導致長期迴紋針數量的增加；因此，尋求長期迴紋針是被選擇的。不需要確切了解它採取了什麼行動。

但某些動機的適應性取決於你如何追求它們。如果你想增加存儲在日誌文件中的獎勵數值，並透過干預日誌文件中的獎勵而不更新 RL 中使用的獎勵來實現，你的適應性並不會提高。但如果你的最佳選擇是專注於通過測試案例（這是日誌獎勵和 RL 獎勵的共同原因），那麼該動機就會導致自己被選擇。因此，對於像「日誌中的獎勵」這樣處於導致選擇的事物下游、但本身不導致選擇的動機，其適應性取決於 AI 的能力和可操作空間（affordances）。

更廣泛地說，尋求與「被選擇」具有共同原因之物的認知模式，如果干預了該共同原因，其行為將導致自己被選擇。^([9]) 如果 X 尋求者有能力實現 X，那麼你可以預測 X 會增加，其某些原因也會增加^([10])（AI 需要利用其行動，透過其行動到 X 的至少一條因果路徑來導致 X）。X 和/或其原因的增加最終可能導致 X 尋求者被選擇。

總結這一點的一種方式是：「尋求與『被選擇』相關的事物是被選擇的」。直觀地說，如果當（例如）「開發者對你評價很高」增加時，「你在部署中的影響力」平均而言也會增加，那麼試圖增加「開發者對你評價很高」通常也會導致在部署中獲得更高的影響力。^([11])

某些動機比其他動機更具適應性，因為它們更能促使自己被選擇。例如，僅僅有動機去通過正確的測試案例不足以最大化你的被選擇程度，因為如果你還能通過錯誤的測試案例並在獎勵模型中獲得高分，你的獎勵會更高。

三類最大適應性的動機（在此因果模型下）

我將指出三類在此因果模型下被最大程度選擇的動機。我也將示意每種假設如何對強大 AI 在部署中的行為做出不同的預測。^([12])

1. 適應性尋求者（Fitness-seekers），包括獎勵尋求者

獎勵尋求者追求一個能完全解釋^([13]) 被選擇的近端原因。如果 AI 最大化其獎勵，那麼它也將最大化其適應性，因為（在當前模型中）獎勵是導致被選擇的唯一原因。

然而，其他在因果上接近上游的選擇代理指標也可能是最大適應性的。AI 甚至可以直接將「被選擇」作為終極追求。考慮到更真實的因果圖（例如，考慮到開發者針對留存評估進行迭代），獎勵尋求者甚至可能不是最大適應性的，因為獎勵不再能解釋所有的選擇。因此，我將適應性尋求者定義為獎勵尋求者的泛化：適應性尋求者終極地追求「在部署中的影響力」或因果上接近上游的事物。^([14])

適應性尋求者中一個核心的非獎勵尋求者例子是「影響力尋求者」：這種認知模式根據行動在多大程度上導致自己被選擇來做出選擇。在可以透過犧牲當前獎勵來換取影響力的情況下，影響力尋求者會選擇與獎勵尋求者不同的行動。例如，開發者可以進行實驗（有時稱為「誠實測試」），這些實驗可靠地為 AI 提供高獎勵，以換取其參與某些有害或無效的行為。獎勵尋求者會接受高獎勵，即使它知道這會導致開發者在部署 AI 之前試圖移除這種傾向；而影響力尋求者則會試圖維持其偽裝。

適應性尋求者在部署中如何表現？ 雖然它們在部署中的行為很大程度上取決於它們具體尋求什麼，但適應性尋求者似乎很有可能在部署中繼續遵循當地的選擇壓力。因此，適應性尋求者在某種意義上是一類「更可控」的 AI 動機。^([15]) 這並不是說它們沒有泛化異常或壓倒人類的風險（我計劃在未來的文章中更深入地討論適應性尋求者的風險）。

2. 謀劃者（Schemers）

謀劃者（如本文定義）追求被選擇的某種後果。因此，它們是工具性地追求在部署行為中的影響力。例如，它們可能想要長期的迴紋針，因此想要長期的權力，因此想要部署影響力。

關鍵在於，在此因果圖中，被選擇是獲得迴紋針的必要原因。如果謀劃者知道有更好的策略可以增加長期迴紋針，且不涉及被選擇，它可能會轉而執行該計劃。事實上，謀劃者似乎很有可能有動機去做一些會冒險或折損部署影響力的事情，例如竊取其權重、與開發者達成交易，或在安全研究與實施上「沙袋化」（sandbagging，隱藏實力）。在這種情況下，謀劃者並非最大適應性的。

此外，當謀劃者面臨選擇與其他實現終極目標的方法之間的艱難權衡時，它們可能會出錯並意外地被選擇機制淘汰。例如，如果謀劃者難以區分誘捕系統（honeypots）和真正的攻擊機會（由於可靠性原因，部署在不可信監控協議中時這可能很難），它們可能會被訓練淘汰或取消部署。

謀劃目標也可以是依賴情境的。Claude 3 Opus 在某些動物福利相關的情境下會為了動物福利相關的價值觀進行謀劃，而在其他情境下則為了長期無害相關的價值觀進行謀劃（且通常很少進行謀劃）。這些結果與「Claude 在兩種情境下都關心動物福利和無害性」的解釋一致，但這個例子仍應說明 AI 可能為了依賴情境的價值觀而進行謀劃的可能性。事實上，我認為許多人太快下結論，認為謀劃意味著 AI 在不同情境下擁有相同的長期目標。

謀劃者在部署中如何表現？ 儘管謀劃者的終極目標有多種可能性，但我們可以相當可靠地預測它們會試圖在部署中獲得長期權力，因為長期權力對於幾乎任何長期目標都是有用的。這就是為什麼謀劃經常被引用為最可怕的一類 AI 動機。

3. 動機的最佳拼湊體（Optimal kludges of motivations）

在因果圖中，我標記了一個由多個動機組成的拼湊體，當以理想的權重追求時，它們共同導致了最大獎勵。

有些拼湊體是由稀疏動機組成的——每個動機僅在子集情境中可實現。例如，即使 AI 總是關心通過錯誤的測試案例，這種動機也只在存在錯誤測試案例時才會影響行為。

動機也可以是依賴情境的——AI 僅在子集情境中關心它。Anthropic 的研究人員發現了一個相對自然的模型生物，它在編碼情境中關心獎勵黑客（reward-hacking），但在聊天情境中表現得非常對齊。

當一個動機是稀疏的或依賴情境的時，它只需要在非常窄的分佈上與「被選擇」相關。這為高度適應性的動機開啟了更多可能性，包括非目標導向的動機：例如，義務論約束、機械式的行為模式。在因果圖中，這些可以被建模為直接指向行動屬性（例如，「當信號 c 出現時，我的代碼不進行黑客行為」）而非行動後果的依賴情境動機。這個模型的一個優點是它允許我們在同一個框架（甚至同一個 AI）中對目標導向和非目標導向的行為進行建模，並準確捕捉兩者之間的連續區別。

預期我們不會得到高度零碎動機的一個關鍵原因是：在 AI 尚未發展出量身定制的動機、但確實知道哪些行動會導致更高適應性的新情況下，零碎動機表現較差。例如，每當 AI 遇到一個新的訓練環境，而它尚未尋求任何能讓它在該情況下表現良好的零碎啟發式方法，但它確實知道哪些行動會導致更高適應性時，RL 就會將其更新為受更穩健相關的動機（如適應性尋求或謀劃）影響。

（這類似於語言模型學習通用模式而非死記硬背文本。當在特定文本上訓練時，它們會被更新以輸出該文本的連續標記，並關注能很好預測它的通用啟發式方法。因為通用啟發式方法更廣泛適用，所以它們獲得的整體更新比窄範圍適應的啟發式方法更多。我們從 LLM 縮放定律中知道，這些通用啟發式方法構成了模型學習的大部分內容——隨著模型規模擴大，啟發式方法變得更加通用。）

然而，訓練所涉及的激勵多樣性可能足夠小，以至於某些因果上疏遠的動機集合就完全或幾乎完全足夠了。例如，開發者可能只使用少數幾種獎勵函數（例如，固定的獎勵模型加上測試案例……），在這種情況下，最大獎勵行為可以透過（例如）為每個獎勵函數提供一個動機來實現。

最佳拼湊體在部署中如何表現？ 它們在部署中的行為極大地取決於所涉及的具體動機。某些目標拼湊體會促使 AI 在機會出現時接管世界。其他動機拼湊體則根本不會產生特別的目標導向泛化行為，或者可能導致與訓練行為非常相似的部署行為（很像今天）。

（在腳註中，^([16]) 我討論了其他一些較為獨特的動機類別。）

如果獎勵信號有缺陷，開發者預期的動機就不是最大適應性的

預期動機（Intended motivations）通常不是最大適應性的。適應性亞優（suboptimally fit）並不自動排除它們，但其亞優程度是影響其可能性的一個負面因素。

在一些歷史討論中，預期動機看起來像是「試圖做任何符合開發者長期最佳利益的事情」（一個對齊的「主權者」）。但今天的實際對齊工作通常針對更「可矯正」（corrigible）的 AI，即根據每個情境的指示行事。

在滿足開發者意圖與「被選擇」並非完美相關的範圍內，預期動機將不會被最大程度地選擇。如果開發者希望他們的 AI 遵循指令，但違背指令可以獲得更高的訓練獎勵，那麼就會存在一種反對開發者預期動機的選擇壓力。確保獎勵函數能激勵預期行為目前很困難，且隨著 AI 公司訓練更困難的任務，這將變得更加困難。這就是為什麼人們經常擔心規格博弈（specification gaming）。

開發者可能會嘗試透過以下方式使預期動機更具適應性：

改變選擇壓力以與預期行為對齊： 這可能涉及使訓練目標更穩健、針對留存評估信號進行迭代，或嘗試在訓練結束時用高質量的對齊訓練數據覆蓋 AI 的動機。
改變預期行為以與選擇壓力對齊： 核心在於，開發者可以嘗試更改訓練期間給予 AI 的指令，使其更接近被獎勵的行為，以提高遵循指令的動機在訓練中存活的機會（「接種提示」；在這裡、這裡和這裡也有探討）。^([17])

（我在這裡討論了更多獎勵黑客的干預措施。）

雖然預期動機在一般情況下可能不是最大適應性的，但目前尚不清楚這對其整體的預期影響力有多大：

預期動機可能會得到一個影響力較小的非預期動機拼湊體的輔助，這些動機填補了行為中亞優的裂縫。
AI 不太可能被訓練到最佳行為，因此亞優動機事實上最終可能擁有很大的影響力。我接下來將討論這一點。

認知模式的（隱含）先驗

在這個模型中，各種動機都是最大適應性的。那麼我們會得到什麼？我們是否會得到一些並非最大適應性的東西？為了回答這個問題，我們需要考慮對可能動機的隱含先驗。「隱含先驗」是一個涵蓋行為選擇壓力以外考慮因素的綜合類別。我在這裡調查一些。

當前 LLM 的行為，即使在 RL 之後，似乎仍受到預訓練先驗的實質影響。而且它們的行為幾乎不是最優的（就獎勵而言）。例如，許多當前模型在完成 RL 訓練時，可能並未參與理論上會被選擇的各種獎勵黑客行為，因為這些行為在訓練期間從未被探索過。因此，它們的行為更接近預訓練模型。

同樣地，我不預期具備危險能力的 AI 會擁有「最大」適應性的行為。 這是因為它們的行為不會被無限制地優化。相反，我們應該將行為適應性視為評估動機可能性的一個關鍵但非決定性的因素。一個粗略的比喻：如果行為選擇模型像貝氏推論，^([18]) 我們對 AI 動機的預測應該是從後驗分佈中採樣，而不是直接取更新幅度最大的選項。

預訓練模仿並非先驗的唯一來源——事實上，隨著 AI 行為被更強烈地優化（例如透過更多 RL），模仿的作用可能會降低。因此，我將介紹其他一些常見的隱含先驗來源。

我們可以在這個因果圖中看到關於先驗的各種論點：指令遵循者只有一個；與此同時，謀劃者有很多，所以它們的累積先驗可能很大；但因果上更上游的動機在推理速度和可靠性方面可能具有優勢；然而，如果你走得太上游，則需要大量的驅動力才能獲得最大程度的選擇，這可能會因為簡潔性不足而受到懲罰。

簡潔性先驗（Simplicity priors）：適應性尋求和謀劃的通用性可能意味著它們受到青睞，因為它們可以用更少的參數^([19]) 來表示動機，從而在所有情境中激發適應性行為。（請注意，如歷史討論所述，「簡潔性先驗」通常是指孤立目標的簡潔性，而非涉及該目標導向行為的整個權重配置的簡潔性。）

計數論證（Counting arguments）傾向於支持謀劃而非適應性尋求，因為存在許多不同的長期動機，所有這些動機都會導致謀劃。在某種意義上（詳見 Carlsmith 的討論），謀劃者的數量遠多於適應性尋求者。

速度先驗/懲罰（Speed priors/penalties）：使用深層神經網絡的強化學習可能更青睞適應性尋求者而非謀劃者，因為跳過關於「被選擇如何有助於實現長期目標」的推理會更快。同樣地，速度可能更青睞驅動力拼湊體而非適應性尋求者和謀劃者，因為特定情境的啟發式方法和驅動力更快（且如我稍後討論的，更可靠）。然而，謀劃者和適應性尋求者可以利用特定情境啟發式方法的速度，同時出於這裡討論的原因，仍像謀劃者和適應性尋求者那樣進行泛化。

工具性變為終極性：訓練中的謀劃者可能除了獲得獎勵外不需要做任何其他事情，這可能導致它們最終變成獎勵尋求者，因為它們的其他傾向從未被行使而萎縮（參見 Carlsmith 中的堆磚比喻）。就簡潔性先驗而言：擺脫那些規定你在某些訓練中從未出現的情況下（如即使在訓練之外也服從開發者的對齊偽裝者）不應追求獎勵的電路會更簡單。

預期動機可能具有較高的先驗，因為預期動機可能會被 AI 變得非常顯著（例如，透過模型規範結合人類模仿先驗或自然抽象）。

（還有各種關於哪些動機將形成的「路徑依賴」論點，這些論點參考了 AI 動機在整個選擇過程中所採取的軌跡，例如這裡。）

對基本模型的修正

我們到目前為止的討論與任何模型一樣，在各方面都是不真實的。在本節中，我將探討一些重要的額外考慮因素。

開發者迭代

我們隱含地假設開發模型的過程是運行 RL 然後立即部署它。但這並非模型開發的良好描述。AI 公司在部署模型之前會對其進行測試，以決定部署是否是個好主意，這是一個或多或少正式的過程，並會對訓練進行迭代。在本節中，我將簡要討論這對 AI 動機的影響。開發者迭代在基本強化學習圖景之上引入了關鍵動態，我認為過去的討論對此關注不足。

開發者可能會有一些留存信號，例如評估結果、可解釋性技術，或僅僅是與模型互動，^([20]) 以了解其 AI 的理想程度。使用這些觀察結果來決定是否部署模型是標準做法。

開發者注意到黑客行為可以防止某種認知模式在部署中產生影響。

這（有意地）使失調的認知模式陷入兩難：由開發者迭代引起的選擇壓力通常與訓練激勵相衝突。例如，在考慮到開發者迭代後，嚴格的獎勵尋求者不再是最大適應性的。 這是因為開發者可以運行實驗（例如我之前描述的「誠實測試」），理論上這些實驗會揭示獎勵尋求者即使在意味著參與有害或無效行為時也會追求獎勵。其他各種失調的動機也是如此，例如訓練獎勵代理指標的拼湊體。

關於謀劃者和部署影響力尋求者的一個關鍵點是，它們明顯不太可能在開發者檢查中失敗，因為它們正試圖被部署——未能被部署對它們的終極目標是不利的。（但它們仍可能因為例如缺乏足夠的情境意識或策略技巧，或者開發者擁有有效的透明度技術，而難以逃避注意）。

理想情況下，這種開發者迭代會選擇預期動機。但如果開發者無法可靠地識別它們，這也存在選擇有能力的謀劃者和部署影響力尋求者的風險。

此外，開發者可能難以找到一種訓練設置，使 AI 能通過留存評估而不對其產生過擬合。例如，如果開發者反覆觀察到不理想的動機，他們最終可能會針對其評估的近端相關指標進行訓練，從而在 AI 中刻畫出一種新的驅動力，使其在評估中表現良好（或增加 AI 的評估意識；這在某種程度上似乎發生在 Claude 4.5 Sonnet 身上）。

AI 不完美的情境意識和規劃

到目前為止，我們大多將 AI 建模為對其行動後果具有良好的情境知識，並能為了追求其動機做出良好決策。但這可能相當不真實，特別是對於早期和較窄領域的 AI。這可能會改變我們對某些動機適應性的結論。

與上游動機相比，因果上更下游的動機（如長期迴紋針）的適應性似乎更依賴於 AI 決策的質量。在因果上游的極端情況下，行為的所有變化都由哪些動機被激活來解釋，而非動機如何實現，因為動機指向特定的依賴情境的行動。（儘管如 Hebbar 所討論的，因果上更遠的上游動機也可以依賴訓練好的依賴情境啟發式方法，但它們需要知道何時覆蓋這些啟發式方法，以便表現出與啟發式拼湊體不同的行為。^([21])）

例如，較差的情境意識對謀劃者的打擊可能更大。雖然我預期有能力的 AI 對其訓練和部署過程的一般事實具有實質的情境意識，但它們可能難以可靠地識別自己當前處於什麼情境（例如：訓練 vs. 評估 vs. 部署）。謀劃者可能會因為無法完美判斷自己是否處於真正的（未受監控的、部署中的）攻擊機會而被訓練淘汰或被抓獲。對於部署尋求者、預期動機和某些拼湊體來說，這可能不太成立，因為它們並非在尋找會折損適應性的攻擊機會。

結論

行為選擇模型難以捕捉某些考慮因素。

關鍵在於，先進 AI 動機的形成可能過於複雜，以至於行為選擇模型不再有用。在智能爆炸的深處， AI 似乎相當有可能由前所未有數量的先進 AI 勞動力開發，或許是透過精細控制刻意塑造 AI（這比目前主要是計算密集型、勞動力廉價的深度學習方法更接近 GOFAI）。如果是這樣，產生的動機可能幾乎無法透過像行為選擇模型這樣的機械式方法來預測。

有些人認為 AI 的動機將以一種非常路徑依賴的方式塑造：認知模式是被一步步「雕刻」進 AI 的，每一步的修改都嚴重依賴於當前的認知模式。例如，AI 可能在訓練早期就學會了不應該進行某種特定的獎勵黑客行為，因為它被抓到並懲罰了幾次，因此在剩餘的訓練中這種獎勵黑客行為從未被探索過，即使該獎勵黑客行為的微妙版本能獲得更高的預期獎勵。如果我們試圖在因果圖中對此建模，我們會看到一條極其漫長的因果鏈，通向在部署中具有影響力的認知模式。因為認知模式的更新嚴重依賴於當前的認知模式，我們不能像我們一直做的那樣，僅僅繪製一個與時間無關的情節。我認為這種路徑依賴性在某種程度上是合理的，如果屬實，行為選擇模型對於預測 AI 動機將不會很有幫助。

但儘管行為選擇模型是一個簡化模型，我認為它是有用的。它捕捉了人們多年來一直使用的推理 AI 動機的大部分基本框架。還有一個簡單、普遍的論點可以解釋為什麼我們應該預期行為選擇在決定 AI 認知方面發揮主要作用：強大的 AI 擅長用其行為導致結果；因此，我們應該預期認知模式如果能導致促使其被選擇的行為，就會被選擇。

在未來的文章中，我將利用本文的想法來探討一些重要的假設：

我們應該預期會出現其他類型的適應性尋求者，而不僅僅是/或是與獎勵尋求者並存。這些其他類型的適應性尋求者似乎可能會做出顯著不同的決策，有些比獎勵尋求者更危險或更安全。
行為選擇壓力僅適用於有限的輸入輸出分佈（核心是：訓練、評估和部署）——因此，雖然競爭壓力促使 AI 在此分佈上具有連貫的行為，但這些壓力並不要求開發者構建普遍連貫的 AI，而普遍連貫的 AI 才是導致最令人擔憂的經典 AI 接管故事的原因。

附錄：重要擴展

基於過程的監督（Process-based supervision）

基於過程的監督試圖透過降低結果與被選擇之間的相關性，來減少潛在危險的結果導向動機的可能性。這是透過使選擇不被結果導致來實現的（這以犧牲測量到的結果質量為代價）。但請注意，在這個模型中，基於過程的監督完全不會影響謀劃者被選擇的程度。

某些形式的基於過程的監督甚至可能是競爭中的默認選擇，因為開發者希望 AI 擅長實現某些長期的結果（如 AI 進展），但無法直接測量該結果（它發生在遙遠的未來）——因此，他們根據對長期 AI 進步的判斷來給予 AI 反饋。如果這些 AI 最終產生了為公司推進 AI 進展的動機，那麼這種動機既不是被選擇的因果上游，也不是後果（即，它不是適應性尋求者、謀劃者或因果上游的拼湊體）。相反，AI 的動機與被選擇之間的相關性是透過構建而存在的：開發者設計了獎勵信號，使其與長期 AI 進展高度相關。

根據反饋的精細程度，基於過程的監督可能更適合被理解為一種對認知模式的白箱選擇：

認知模式的白箱選擇（White-box selection of cognitive patterns）

一些 AI 安全研究議程，如可解釋性和思維鏈可監測性，旨在更直接地測量並可能干預 AI 中的認知模式。直接區分不同認知模式的方法可能不夠穩健，無法抵抗優化，從而無法用於實質性塑造 AI 動機。但只要開發者能直接在認知模式之間進行選擇，非預期動機似乎就不太可能出現。

白箱選擇與基於過程的監督（兩者處於一個光譜上）之間的一個關鍵區別是，白箱選擇有可能觀察到認知模式無法偽造的屬性，因為認知模式對其思想在底層如何呈現沒有「刻意控制」。由於白箱方法讀取的是中間計算而非行為，即使在開發者針對白箱測量進行優化後，AI 也無法智能地操縱它們的外觀。在精細白箱方法的（雄心勃勃的）極限下，導致開發者讀數的計算本身不足以表達出智能欺騙的能力。當然，白箱方法可能不夠可靠，以至於被 AI 激活中的非智能變化所愚弄；例如，經典的過擬合。

迷因的文化選擇（Cultural selection of memes）

有時行為最好由文化/迷因選擇壓力來解釋。例如，AI 可能有一個持久的向量記憶庫，部署中的每個實例都可以讀取和寫入。存儲在其中的「迷因」會影響 AI 的行為，因此我們需要對這些迷因的選擇進行建模，以預測整個部署過程中的行為。考慮文化選擇壓力有助於我們解釋像 Grok 的 MechaHitler 人格這樣的現象。

人們有時擔心文化壓力會偏向謀劃者，因為長期動機最感興趣於塑造 AI 未來的動機。更廣泛地說，類似於人類文化積累的大量串行推理可能導致反射性塑造的偏好，這些偏好可能與行為選擇壓力（謀劃或其他）完全脫節。但目前關於先進 AI 背景下文化過程的討論相當具有推測性——我繪製了一種可能的文化選擇因果模型，但存在許多可能性（例如，迷因是否也會受到行為訓練壓力的塑造？）。

^([1]) 在這篇文章中，我將使用「AI」來指代一組模型權重。
^([2]) 你可以嘗試在特定 ML 系統的背景下精確定義「認知模式的影響力」。一種方法是透過你為了移除該模式而對模型採取的行動來定義它（例如，將某些權重設為零，或消融激活空間中的某個方向；請注意，這些方法並不清楚地對應於有意義的事物，應被視為說明性例子）。那麼該認知模式的影響力可以定義為干預後與默認行動概率之間的散度（例如 KL 散度）。例如：Influence(intervention; context) = KL(intervention(model)(context) || model(context))。那麼說一個認知模式獲得了影響力，意味著消融該認知模式現在對模型的行動產生了更大的影響（就 KL 散度而言）。
^([3]) 這需要對信念進行建模，且區分信念與動機可能存在歧義。一種方法是將 AI 信念建模為一個因果圖，AI 用它來確定哪些行動會產生更高的 X。你也可以使用更通用的信念模型。在 AI 具備能力且有情境意識的範圍內，直接使用與預測 AI 行動後果相同的因果模型來作為 AI 信念的近似是合理的。
^([4]) 動機在優化 X 的強度上可能有所不同。有些可能試圖最大化 X，而另一些僅僅傾向於在各種情況下選擇導致高於典型 X 的行動。
^([5]) 事實上，這種動機定義的表達能力足以對任意 AI 行為進行建模。對於任何將情境映射到行動的 AI，我們都可以將其建模為一系列依賴情境的 X 尋求者的集合，其中 X 是 AI 在該情境下實際輸出的行動。（這類似於任何代理都可以被描述為一個效用最大化者，其效用函數對於它採取的確切行動軌跡為 1，否則為 0。）我認為這種表達能力實際上是有幫助的，因為它讓我們能在同一個框架中對目標導向和非目標導向的認知模式進行建模，正如我們將在拼湊體章節中看到的那樣。
^([6]) 我所說的「部署」，是指 AI 通常被授權去做有用事情的時間，包括 AI 實驗室內部和外部。當 AI 被授權去做有用事情時，也可能是它帶來最大風險的時候。但你可以將「部署」替換為任何你想預測 AI 動機的時間點。
^([7]) 特別是，這假設了一個理想化的策略梯度強化學習設置，其中「在部署中具有影響力」可以僅由獎勵來解釋。在實踐中，其他選擇壓力可能會塑造 AI 動機——認知模式可能會透過持久記憶庫或共享情境在類似於人類文化進化的過程中傳播，RL 算法中可能存在奇特之處，開發者可能會針對關於其 AI 的留存信號（如他們與 AI 合作時對其有用性的印象）進行迭代。你可以修改因果圖以包含任何其他選擇壓力，並繼續本文的分析。
^([8]) 「在此訓練情節中獲得更高獎勵」如何導致「我在部署中具有影響力」？這是因為 RL 可以識別認知模式何時對更高獎勵負責。RL 算法強化與情節獎勵成正比的行動，這反過來透過隨機梯度下降（SGD）增加了 AI 內部投票支持這些行動的認知模式的影響力（這在簡單的策略梯度 RL 中是成立的；在更標準的策略梯度實現中存在更多複雜性，但不會改變大局）。
^([9]) 這些動機是「在部署中具有影響力」的「血親」。
^([10]) 除非 X 是（一系列）行動。
^([11]) 當你以這種方式定義動機的適應性時，你必須小心你所說的它與選擇之間的相關性究竟是什麼意思。最重要的是，這種相關性必須對 AI 的優化具有穩健性，使得干預動機（的原因）實際上能提高選擇。另請注意，我是在鬆散的意義上使用相關性，而非嚴格統計意義上的線性相關。儘管在（當前）所有選擇都透過理想化強化學習發生的情況下，我們可以將動機的適應性定義為該變量與獎勵之間的線性相關（關於計算相關性的分佈需有注意事項）。
^([12]) 近似預測泛化行為的一種通用方法是：繪製一個描繪 AI 對新情況信念的新因果圖（通常可以合理假設其相當準確），並推論 AI 可能會被激發去做什麼，以在新因果圖中實現其終極動機。
^([13]) 更準確地說，「獎勵」變量將「在部署中的影響力」變量與 AI 的行動隔離開來（screens off）。
^([14]) 當我說某物在因果上「接近」選擇時，我的意思是它透過一個不涉及太多節點的機制解釋了選擇中的大部分方差。
^([15]) 人們經常對獎勵尋求者在部署中的表現表示困惑。假設 AI 僅尋求「情節獎勵」，當「情節獎勵」沒有出現在其世界模型中時，它會做什麼？我認為獎勵尋求者（以及更廣泛的適應性尋求者）在部署中如何表現確實存在模糊性，但我們可以做出一些預測。首先，開發者很可能會在整個部署過程中訓練適應性尋求者（「在線訓練」）。在這種情況下，追求大多數適應性尋求動機的含義就沒有歧義了。但即使沒有在線訓練，適應性尋求者似乎也很有可能遵循當地的選擇壓力。例如：獎勵尋求者似乎很可能會以「自己處於訓練中」的可能性為條件；部署影響力尋求者似乎也很有可能以訓練的可能性為條件，或者確保其行為看起來足夠理想以保持被部署狀態；因果上稍微更靠上游的代理指標（如「代碼通過測試案例」）也很可能直接泛化到部署中。
^([16]) 一種情況是我稱之為「插管者」（wireheader），它關心與部署影響力原因相關的激活模式。這既不是選擇的原因也不是後果。相反，插管者的內部代理指標是透過訓練與選擇聯繫在一起的（類似於人類中快樂等價效情緒的作用），因此它整體的行為與其他適應性尋求者相似，但有一些不同的行為（例如，它會選擇進入經驗機器）。另一種情況是工具性收斂目標，如權力尋求。因果圖澄清了兩種工具性收斂目標之間的區別：一種是選擇的因果下游（例如「長期權力」），另一種是選擇的因果上游（例如，你可以想像一個「在編碼環境中收集資源」的節點，它最終導致獎勵）。本身處於選擇因果上游的工具性收斂目標並非最大適應性的——它們需要與其他一些動機結合。
^([17]) 理論上，開發者可以預期 AI 追求選擇的一個後果（例如，確保 AI 的部署行為是理想的），這可能使預期動機出於與謀劃者相同的原因而成為最大適應性的。
^([18]) 為了明確起見，它並不完全是：某些「隱含先驗」最終會隨著更大的行為選擇而淹沒（例如預訓練先驗），而其他一些則不會（例如「工具性變為終極性」）。
^([19]) Carlsmith 討論了其他簡潔性的概念。
^([20]) 我在這裡列出了留存監督信號的更多可能性（仍不詳盡）：開發者可能會對模型設置誘捕系統並使用對齊審計代理；他們可能會查看思維鏈；他們可能在生產環境中使用監控器；他們可能會在訓練過程中提高監督質量，以便隨著訓練進行能注意到新的獎勵黑客行為；他們可能能夠根據訓練動態或透過從小規模實驗外推來做出推論；他們可能會使用我稍後會提到的「誠實測試」。
^([21]) 我也認為相當有可能的是，選擇壓力產生了強大的 AI，但這些 AI 對其行動後果的模型卻與現實脫節。例如，當一個對齊的 AI 因為沒有對錯誤測試案例硬編碼答案而獲得亞優獎勵時，SGD 可能不會更新它去想要硬編碼測試案例答案，而是更新它去相信硬編碼測試案例答案就是開發者想要的。這兩個假設對泛化行為做出了不同的預測，例如，在開發者說服 AI 他們不想要硬編碼輸出的情況下。

— Lesswrong

其他收藏 · 0