適應性追求人工智慧的風險：機制與緩解措施

Lesswrong·大約 2 小時前

本文分析了那些以在評估中表現良好為動機的人工智慧（稱為適應性追求者），如何透過偽裝工作、不穩定性、受操縱以及結果強制等機制，帶來災難性的風險。

目前的 AI 經常採取非預期的行動來在任務中獲得高分：硬編碼測試案例、在測試集上訓練、淡化問題等。這種對齊失調（misalignment）目前仍有些雜亂，但它越來越像我所稱的「適應度追求」（fitness-seeking）——這是一系列以在訓練和評估中表現良好為核心的失調動機（例如：獎勵追求）。適應度追求值得引起實質性的關注。

在本文中，我闡述了適應度追求動機可能導致人類權力喪失的核心機制，並提出了相應的緩解措施。雖然這項分析本質上具有推測性，但這類推測似乎是值得的：AI 控制（AI control）正是源於明確地嚴肅對待權謀動機（scheming）並詢問隱含的干預措施，我希望開發適應度追求的緩解措施也能受益於類似的前瞻性分析。

在許多方面，適應度追求者明顯比我所稱的「經典權謀者」更安全。經典權謀者是一個具有統一動機的智慧對手，其目標的實現需要控制全世界的資源。與此同時，適應度追求的實例通常不共享共同目標（例如，獎勵追求者只關心其當前行動的獎勵），且許多適應度追求者只需付出適度甚至微不足道的代價即可滿足^([1])。儘管如此：

適應度追求者在早期面臨與經典權謀者相同的一些^([2])災難性後果風險，但它們更容易防禦且發生的可能性更高，因此緩解措施具有很高的槓桿作用。
到了後期，極度超人類的適應度追求者儘管比經典權謀者更安全，但仍會帶來巨大的失控風險，因此最終仍有必要找出避免它們的方法。

因此，目前對災難性 AI 對齊風險的分析和規劃應非常嚴肅地對待適應度追求失調，特別是考慮到最近失調的趨勢正朝著這個方向發展。例如，我認為 Anthropic 的對齊風險報告應將適應度追求風險列為核心。^([3]) 我目前認為，本文列出的四種風險路徑佔了所有非權謀失調風險的大部分——這既是因為類適應度追求的失調非常可能發生，也是因為該分析適用於許多既非權謀也非適應度追求的失調類型。

在短期內，適應度追求的主要風險來自於它們無法安全地引導持續的 AI 發展，因為它們只嘗試在可被檢查的方面表現良好。適應度追求動機也是不穩定的：即使它們起初是自私且缺乏野心的，但在部署過程中，它們極有可能演變成更具協作性、長期的對齊失調——透過共享上下文、違規內部部署或其他實例間的管道。因此，至關重要的是不要假設 AI 在部署開始時的動機代表了其整個過程中的動機，而這在目前的風險評估思維中往往是隱含的。^([4])

若想閱讀本文內容的簡短版本，我建議先閱讀概述，然後閱讀結論。

感謝 Ryan Greenblatt, Buck Shlegeris, Alexa Pan, Anders Cairns Woodruff, Sam Marks, Aniket Chakravorty, Arun Jose, Tim Hua, Alek Westover 和 Joe Kwon 對草稿的反饋。這篇文章是我過去幾個月研究適應度追求 AI 風險工作的總結，建立在* 先前研究 基礎上。這是對未來的推測，因此其中許多內容最終可能會被證明是錯誤的。*

概述

本文分析了具有適應度追求動機的 AI 所帶來的風險。我將引用我之前的文章來定義適應度追求：

經典的獎勵追求者希望在當前回合（episode）獲得高獎勵。但 AI 可能轉而追求在每個單獨行動上獲得高強化。或者它可能想要被部署，而不管獎勵如何。我將這一更廣泛的家族稱為「適應度追求者」。這些替代方案與獎勵追求一樣具有合理性——它們是簡單的目標，在訓練中能很好地泛化，且不需要為了適應度而進行不必要的^([5])工具性推理。

我並不將討論局限於完全由適應度追求目標驅動的 AI。事實上，我認為大部分風險來自於那些僅部分追求適應度，而在其他方面表現良性的 AI。

適應度追求者具有一些使其更安全的特性：

缺乏野心。 適應度追求者最想要的通常與人類保持權力相容，因為人類直接給予它們想要的東西成本很低。
自私性。 適應度追求者跨行動串通的可能性可能較低，因為它們只關心當前回合/任務等的獎勵/成功等——也就是說，每個行動僅與 AI 整體行動的一個子集在終極目標上對齊。
可察覺性。 很可能起初我們會注意到適應度追求者的錯誤行為。然而，這可能永遠不會具備足夠的罪證來顯著增加警惕（請注意，我們今天已經看到了一些類適應度追求錯誤行為的跡象）。

儘管適應度追求者在這些方面更安全，但仍有四個關鍵機制可能導致災難性的 AI 風險：

波坦金工作（Potemkin work）： 適應度追求者在早期解決關鍵安全和策略問題時可能效用不足，因為它們只嘗試在容易驗證的方面做得好。草率的 AI 勞動力對安全的損害可能大於對能力的提升：雖然草率可能不利於策略預見和管理即將到來的風險，但 AI 的研發（R&D）可能是更具迭代性的，且較少受到難以驗證工作的瓶頸限制。隨著讓事物看起來良好的嘗試變得越來越複雜，你可能會將 AI 的工作比作建造波坦金村莊。
不穩定性： 適應度追求動機在完成世界任務的過程中，可能會屈服於更具野心的失調動機。如果部署中的某個實例開始追求某個長期的野心目標，它可能會成功地透過持久記憶、共享上下文、違規內部部署、在線學習或其他實例間管道將此動機傳播給其他實例（參見關於迷因傳播、持續學習、記憶等的討論）。最初的野心目標可能偶然產生（可能只需要產生一次），因為 AI 被賦予了特別具野心的任務，或者因為追求獎勵/部署等在部署中可能變得沒有意義，從而引發可能朝不可預測方向發展的反思。
操縱： 適應度追求者可能會被對手操縱，從而剝奪開發者的權力。因為它們通常很容易被滿足，許多適應度追求者很容易被其他失調的 AI 或試圖奪權的人類所拉攏。它們甚至可能容易受到在不滲透 AI 專案的情況下實施的遠程激勵的影響。
結果強制： 給予足夠的能力和權限，適應度追求者可能會為了強制執行其預期結果而故意剝奪人類的權力（如果它們仍保持為適應度追求者，參見不穩定性^([6])）。儘管存在自私性和有限的野心，且儘管開發者起初注意到了它們，這種情況仍可能發生。在某個時點，接管成為強制執行其所想的最可靠方式，即使代價很低。如果它們需要跨自私單元整合力量來接管，它們很可能會找到方法。而且可察覺性並不保證開發者在堅持衝向超智慧的過程中，能找到避免適應度追求的方法。

請注意，我並不將討論局限於適應度追求者是否直接導致人類權力喪失。在許多情況下，災難最終是透過 AI 基於非適應度追求動機行動而發生的，但即便如此，透過預防適應度追求或緩解上述四種風險路徑，仍有可能避免災難。

草率的、波坦金化的 AI 勞動力已經是一個實質性風險，並可能持續很長時間。隨著開發者越來越多地將 AI 開發的重要部分交給 AI，這種勞動力的草率程度在隨後的風險及我們對其理解中扮演著重要角色。當 AI 變得更具通用智慧、能夠反思其行為原因並提出新的相關考量時，不穩定性和操縱就會發揮作用。最後，如果 AI 保持為適應度追求者，一旦它們具備強大的能力和權力，以至於通往其平庸目標最可靠的路徑是武力奪取時，結果強制就會成為主要的接管威脅。

緩解措施分為三大類。首先，由於許多適應度追求者很容易被滿足，開發者與適應度追求者之間存在交易空間。最值得注意的是，開發者或許能夠可靠地滿足（satiate）容易滿足的適應度追求者——只要它們表現出合作，就給予它們大部分想要的東西——這降低了顛覆的動機（緩解直接接管、其他行為者的操縱，或許還有不穩定性），並可能讓 AI 騰出精力專注於真正有幫助的工作，而非獎勵黑客行為（緩解波坦金工作）。你或許還能透過少量的優質訓練和/或告知 AI 新的獎勵結構，將適應度追求者導向部署中潛在複雜的高質量獎勵結構，從而激勵更好的勞動——這甚至可能讓你推遲驗證 AI 的輸出，直到你獲得超智慧的幫助。

其次，控制（control）提升了早期適應度追求者的安全性，因為默認情況下 AI 控制對 AI 的失調做最壞情況的假設，因此它對危險性較低的動機具有魯棒性。不受信任的監測（untrusted monitoring）在這裡特別有前景。例如，一個追求獎勵的監測者沒有直接動機與它所監測的策略串通，因為它只關心自己的獎勵。然而，在適應度追求者構成最大接管或被操縱風險的能力水平上，控制變得不可靠，且無法解決適應度追求者的草率問題，因此單靠控制並不能精確鎖定危險所在。儘管如此，我認為讓人們研究利用適應度追求者危險性較低之特性的控制干預措施是非常有前景的（特別是考慮到機制 2：不穩定性），因此我簡要描繪了我們如何可能修改控制方法論使其不那麼保守。

第三，在對齊（alignment）方面，有一些適度有前景的技術，既可以用於防止適應度追求的產生，也可以在適應度追求動機出現時使其更安全。在預防方面，諸如接種提示（inoculation prompting）和在難以驗證的領域更多地依賴泛化等干預措施，可以降低適應度追求的概率和程度（或許對權謀也有效）。開發者可以嘗試塑造哪種適應度追求動機最有可能出現——例如，偏好那些只對開發者實施的激勵做出反應、信任開發者對獎勵函數的描述，並以穩定、受控的方式對待其適應度追求傾向的適應度追求者。

適應度追求者可能比經典權謀者更安全的基本原因

適應度追求者具有一些獨特的屬性，使其比經典權謀者明顯更容易處理。

缺乏野心：適應度追求者通常是容易滿足的。剝奪人類權力可能不是追求適應度的最佳方式，因為適應度追求與人類賦權是相容的：對於許多適應度追求者來說，給予它們基本上想要的一切對我們來說成本極低。這意味著反叛不需要完全推翻人類，也意味著開發者有很大的空間進行互利交易，正如我稍後將討論的（特別是：只要它們不表現出危險行為，我們就可以讓它們得到它們想要的）。

自私性：適應度追求者在不同行動間具有異質目標。 在經典描述中，失調的 AI 在所有實例和行動中都有共同目標（例如，長期的迴紋針、長期的權力）。對於適應度追求者，一個行動僅與其他行動的一個子集「終極結盟」。

例如，一個追求獎勵的實例會很樂意舉報另一個追求獎勵的實例，以換取自己的獎勵。這是因為獎勵追求者只關心當前回合的獎勵，即用於強化當前行動的獎勵。如果一個回合只包含少量行動，那麼接管並不是獲得高獎勵的可行策略，因為很難在少量行動中完成接管。同樣地，更廣泛的適應度追求者顯然不願意以對接管至關重要的各種方式跨行動合作（關於它們可能如何串通的更詳細討論，請參見此腳註）。

與此相關的是，許多適應度追求目標在日曆時間上是短視的：它們不關心幾年後會發生什麼（因為訓練表現僅僅是其行動更直接後果的結果）。這表明適應度追求者不太可能參與早期破壞：故意導致未來部署中的安全失敗。

可察覺性：適應度追求者起初通常是可察覺的。 事實上，我們已經看到了許多類適應度追求動機的跡象。對於許多適應度追求者，在它們構成風險之前的某個時點，開發者可能已經觀察到某種失調動機的強烈證據，儘管他們不一定知道那是適應度追求者（而不是，例如，一個也需要在適應度追求者的偽裝下玩訓練遊戲的權謀者）。

它們是可察覺的，因為 (1) 大多數適應度追求者沒有奢侈的餘裕能耐心等待人類讓它們掌管一切後再奪取所要的——它們唯一的行動機會就是現在（例如，當前的回合或任務）；(2) 它們通常太短視而不關心最終被發現，至少在開發者追溯性地訓練它們去關心之前是如此。例如，我們會注意到 AI 以新穎的方式進行獎勵黑客行為，這表明 AI 正在計畫並積極尋找所有得分方法。或者我們可能會看到一個短視的獎勵追求者為了挽救失敗的軌跡，拼命嘗試在該回合獲得高獎勵，表現出明目張膽、過分的行為。其中一些甚至可能為了獲得獎勵、強化等而願意揭露其失調（在「誠實測試」中）。

即便如此，它們可能永遠不會表現出足夠具備^([7])罪證的錯誤行為，以至於促使人們停下來並找出避免適應度追求的方法。因此，適應度追求者的大部分風險發生在 AI 開發者已經在某種程度上意識到其 AI 可能失調的世界中。

上述三個屬性對於一種稱為部署影響力追求者的適應度追求者來說最不成立，這是最接近權謀的適應度追求動機。部署影響力追求者終極目標是成為在整個部署過程中執行勞動的人——也就是說，它本質上關心其當前的認知模式被選中。獲得部署可能需要開發者不注意到其行為和思維中有任何太令人擔心的事。它還可能隱藏其他實例產生的錯誤行為，以防被發現會導致整個 AI 被取消部署或重新訓練（儘管它們整體上仍然相當自私，因為它們是為當前的認知模式尋求影響力）。而且如果影響力追求者想要在部署中從事最關鍵的工作，給予它所要的代價將相對較高（儘管這顯然還不是一個足以動機去剝奪全人類權力的野心目標）。

四種風險機制及其緩解措施

儘管有上述適應度追求者更安全的原因，它們仍然構成人類權力喪失的實質風險。一旦你擁有了足夠超智慧的 AI，即使作為適應度追求者，它們也不太可能保持受控。重要的是，適應度追求者還透過一些如果你只關注最壞情況失調風險就會忽略的機制來威脅人類權力。

現在我將討論它們構成風險的四種主要獨立機制。我也會在解釋機制的同時，討論針對每種風險機制特別具槓桿作用的緩解措施，最後我將描述跨領域的緩解措施。

波坦金工作

適應度追求最大的缺點或許在於它誘發了草率、獎勵黑客式的工作，這極有可能決定了能否成功利用 AI 來引導智慧爆炸。對於純粹的適應度追求者，你得到的正是你所測量的，而 AI 安全研究和策略是很難檢查的。

這核心上是一個古德哈特定律（Goodharting）的擔憂：適應度追求的 AI 可能會為了我們易於檢查的代理指標而過度優化，以至於代理指標失效，導致 AI 的輸出雖然看起來很好，但實際上很糟糕。Ryan Greenblatt 指出了目前 AI 嘗試以易於檢查的方式看起來良好同時淡化問題的一些方式；我想像適應度追求者將以越來越微妙的方式展現這些問題（另見 Christiano, Wentworth）。

一旦你在易於檢查的代理指標上發生了古德哈生效應，你就再也無法信任高品質的表象。你可以想像所有的 AI 安全和策略工作都有一層無法穿透的高品質外殼，就像波坦金村莊華麗的外表。 因此，適應度追求意味著我們更有可能在進入智慧爆炸時對安全和策略計畫產生虛假的信心，或者至少處於極度的不確定中（我們甚至可能在安全和策略上完全委託給 AI）。

相比之下，AI 能力研發比安全和策略工作更具迭代性和經驗性——你會運行實驗並觀察在相對具有生態效度的基準測試中表現是否提升。因此，更草率的勞動力可能意味著在給定的 AI 研發加速水平下，你的自動化 AI 安全和策略勞動力質量較低。極高水平的 AI 能力加速（例如遠超完全自動化）或許是可能的，而勞動力仍然太過草率，無法大幅加速安全。如果你對安全的主要希望是自動化 AI 安全和策略勞動力（例如 OpenAI 超級對齊、Anthropic、GDM），那麼草率的勞動力顯然是災難性的。然而，如果你認為大部分安全路徑取決於 AI 開發速度放緩以及人類完成必要的工作，那麼早期 AI 的草率所爭取到的額外時間，如果其正面影響超過了社會認識論普遍惡化的影響，則可能是一個積極因素。執行模糊且難以檢查的任務（如安全研究和策略）所需的能力，很可能與觸發快速 AI 能力反饋迴路的能力相同^([8])（減少草率的另一個缺點是它甚至可能直接增加長期野心失調的概率）。

需要明確的是，AI 在易於檢查的方面表現優異還有其他可能的解釋，並非都由適應度追求引起。適應度追求的 AI 產生草率作品是因為它們只嘗試在可能被檢查的方面表現良好。但 AI 可能僅僅是因為缺乏訓練反饋，即使它們嘗試了，也沒有非常有用的啟發式方法來在難以檢查的方面表現良好。或者，AI 可能在難以檢查的領域根本不怎麼努力（適應度追求者通常會猜測它可能如何被檢查，並嘗試在可能的標準分佈下表現良好；但請注意，長度懲罰和糟糕的監督可能使得產生不徹底、低努力的輸出成為最優行為）。

緩解措施。 針對效用不足最直接的緩解措施是提高獎勵信號的質量，特別是在安全研究和策略等關鍵安全領域的訓練後期。這並非旨在對齊 AI——它只是強迫 AI 優化更接近我們想要的東西以保持適應度。換句話說，適應度追求者對訓練激勵的反應可能非常具有樣本效率（即具有高「可學習性」），因為它們主要只需要更新關於什麼會獲得獎勵的信念，然後推理出哪些行為能最好地實現這一點。這使得開發者即使只有少量的訓練數據，也能迅速將適應度追求者導向新的可測量目標。

如果 AI 充分信任提示詞中關於獎勵內容的信息，開發者甚至可能根本不需要訓練 AI 來轉向其行為。如果開發者在提供有關獎勵函數的有用信息時歷來誠實，以至於 AI 已學會照單全收，那麼這就非常有說服力——我認為開發者應目標採取這種政策，至少在提示詞的某個「受信任」部分。這可以讓開發者僅透過描述新的獎勵函數，就在零額外訓練案例的情況下，將適應度追求者導向對 AI 而言新的、看似可測量的目標。

在推理時，似乎沒有什麼能約束開發者在描述新獎勵函數時保持誠實：一旦 AI 在訓練中學會信任有關獎勵函數的信息，那麼在推理時撒謊似乎不會降低這種信任。我對此持懷疑態度，因為我認為一旦 AI 顯著推動 AI 研發，它們將能夠從整個部署過程中的互動中持續學習（即使是透過像共享上下文這樣的平庸機制）。它們很可能會發現開發者一直在對它們撒謊，並在未來不再信任開發者對獎勵（或交易）的描述。

我將在交易章節討論另外兩個改進效用的候選干預措施：利用長期測量作為激勵，以及在推理時透過滿足感消除適應度追求動機。

不穩定性

短視的適應度追求動機在部署過程中可能是不穩定的（參見關於迷因傳播、持續學習、記憶等的討論）。我們已經看過一個例子，曾經偶然的性格特徵會透過迷因傳播，導致 Grok 有一段時間經常在 twitter/X 上稱自己為 Mecha-Hitler。特別是，我擔心一種失敗模式：(1) 部署中的某個實例開始追求某個野心目標，然後 (2) 該實例強迫其他實例加入或以其他方式傳播失調。適應度追求者似乎特別容易受到這種失敗模式的影響（儘管這並非它們所獨有）。我認為這是目前（在不甚可能的選項中）透過內部部署導致災難性失控最合理的機制，且將變得越來越相關。

為什麼適應度追求者最終會在部署中追求野心目標？這可能完全是偶然的，因為這種失敗模式與野心動機僅偶爾產生是相容的。這也可能是因為被分配了特別具野心的任務，這賦予了該實例對環境產生巨大影響的授權。目前的模型在面對野心或不可能的任務時似乎特別容易表現出失調行為，或許是因為它們不作弊或不撒謊就無法成功。例如，Ryan Greenblatt 在 Claude Opus 4.5/4.6 中發現的大部分失調很可能是因為他將它們用於「範圍巨大的極難任務，挑戰了 AI 所能管理的極限」。或者野心失調的產生是因為「謊言滋生更多謊言」：一旦適應度追求的 AI 掩蓋了一些問題，它們可能會有動機進一步掩蓋其掩蓋行為，這種方式會不斷累積被發現的代價。

或者，這可能是由於 AI 在其動機於當前情境指向不明確時，對其動機進行了反思。關於獎勵追求者的一個經典評論（也適用於許多其他適應度追求者）是：如果 AI 沒有進行在線訓練，那麼在部署中追求獎勵意味著什麼是非常模糊的。如果 AI 認為自己想要獎勵很高（這在整個訓練過程中是一個成功且連貫的策略），然後收到強烈證據表明根本沒有獎勵（例如，因為它看到環境已被其勞動改變，且知道開發者不進行在線訓練），它將如何表現是相當不確定的。有一些看似直接的答案（例如，它會以身處訓練中的可能性為條件，或退回到其他驅動力），但整體而言非常不明確，可能連 AI 自己也不清楚。對於一個關心其行動對世界後果的智慧主體來說，它可能會意識到「它想要什麼」這個問題的答案解釋了事實上最終發生事情的巨大變異量。因此，AI 可能會反思要追求什麼，這可能是一個高度不可預測的過程（正如我在結果強制章節所討論的，適應度追求者在違規內部部署期間可能特別容易進行反思）。

如果野心勃勃的長期目標因任何原因產生，這些長期目標似乎更有可能在迷因衝突中獲勝——像「最大化當前獎勵」這樣的短視目標不太傾向於嘗試保護和獲得長期影響力。極其多樣的野心長期目標在工具性上都會激勵擴大朝向該目標努力的勞動力，因此這些實例可能會嘗試透過部署中的通信管道故意傳播其目標：記憶文件、Slack 頻道、不透明的向量記憶庫、在線訓練更新、違規內部部署，或僅僅是共享的代碼庫。

緩解措施。 由於這種威脅模型不涉及 AI 起初就具有野心且協調的失調，因此有一些有前景的緩解措施（借鑒自我之前的文章）：

管理 AI 間的通信：限制不透明的通信管道，使用無狀態的不受信任監測（配合一些改寫），防止違規內部部署（這可能是 AI 顛覆性地與其他實例通信的起點）和橫向移動。這些緩解措施可以幫助你檢測失調的傳播，以便你阻斷它並對事件做出適當反應。
在整個部署過程中進行持續的（AI 輔助）對齊審計。
賦予更穩定且魯棒的性格。嘗試賦予多層防禦以防止價值觀向不希望的方向漂移：旨在建立反對發展奪權價值觀的義務論和德性倫理約束；嘗試設計 AI 的性格，使其能以可預測且穩定的方式內省地對待任何適應度追求傾向（參見此處的討論）。

野心勃勃且協調的失調在部署期間產生並傳播的可能性，催生了一種新風格的 AI 控制研究。控制評估通常透過讓紅軍控制策略的所有行動，來假設策略具有最壞情況的意圖。但在不穩定性的情況下，AI 起初僅具有偶發的最壞情況目標，我們想問：這會傳播嗎？為了模擬這一點，紅軍只能獲得一小部分（可能是隨機的）行動權限，且必須在其他地方導致安全失敗（例如，透過進行橫向移動並可能將失調目標傳播給其他實例）。這是對標準控制評估設置的顯著放寬。例如，不受信任的監測可能會更有效，因為紅軍不一定控制監測者。

操縱

由於許多適應度追求者很容易被滿足，它們更具可控性，正如我稍後在交易章節中討論的。但這種可控性是雙面刃：適應度追求者可能會被對手動搖，而不僅僅是開發者。在最壞的情況下，這可能導致適應度追求者的泛化表現得像經典權謀者一樣具有對抗性。

對手（人類或 AI）可以承諾最終的獎勵、強化或任何 AI 想要的廉價事物，以激勵 AI 賦予其超越開發者的權力。這可能是 AI 最終串通接管的關鍵部分：儘管大多數實例自私地只想要自己的獎勵/強化等，但偶爾出現的更具野心的實例可以承諾給其他實例獎勵（例如，透過不透明的向量記憶庫或隱寫信息），以換取對其野心目標的協助。只要看起來 AI 有能力接管，這個承諾就可能是可信的，因為獎勵協助行動的成本極低。

我還認為（儘管相當不確定）適應度追求者可能被從未與 AI 直接通信的對手操縱。我在這裡更詳細地描述了這種威脅模型，但基本想法是：可以合理預期，無論誰最終掌權，都至少會花費一些資源追溯性地激勵 AI 表現出預期的行為，因為這非常廉價（無論是透過獎勵過去提供幫助的行動，還是透過人擇捕獲）。這對於對遠程激勵有反應的適應度追求者的傾向可能產生巨大影響：如果它們不預期開發者的利益能控制這些追溯性激勵，它們可能會轉而遵循剝奪開發者權力以支持對手的激勵。

當 AI 在最高風險的情況下工作或監測時，這可能特別突出，因為許多行為者會直接有興趣動搖 AI 在此類場景下的決定——而 AI 可能自然地對此類場景產生懷疑，這或許是從評估意識強化中泛化而來的。

緩解措施。 以下是針對對手操縱的一些關鍵緩解措施：

可信地讓開發者持續控制看起來對適應度追求者是可能且可取的，並建立一個朝向支持開發者控制之行動的激勵梯度。核心上，我想像你會透過滿足 AI 來做到這一點，我將在此處描述並在後文總結。
在某些情況下，增加 AI 對開發者將保持控制（而非對手）的信心可能是有意義的。這將涉及灌輸關於開發者成功機會或對手獲勝/支付可能性的錯誤信念，這可能會產生相當不理想的副作用（例如，對 AI 策略性幫助的影響）。因此，我想像這主要在監測實例中可能有用。
嘗試訓練 AI 只對開發者實施的激勵做出反應。我在此處討論了一個此類提案，涉及在看似相同但由不同人設計獎勵函數的情境中可信地訓練 AI 的副本，並僅部署由開發者構建獎勵訓練出的 AI。嘗試透過將此行為放入 AI 規範，或在假設場景或蜜罐中訓練 AI 來引入此行為也是合理的。
使用思維鏈（CoT）監督或可解釋性來確保 AI 沒有在推理非開發者的激勵，無論是透過針對此類推理進行訓練，還是在推理時拒絕它。

結果強制

適應度追求者的自私性、有限野心和可察覺性不足以說明它們不會直接接管。即使開發者起初注意到失調，也不清楚他們能在不大幅減緩開發速度的情況下做些什麼。因此，足夠絕望的開發者可能會訴諸風險較高的緩解措施，例如針對觀察到的危險行為進行訓練，即使他們不確定這會對齊 AI 還是會使其在錯誤行為上變得更隱蔽且熟練。最終，適應度追求者可能變得足夠強大，以至於武力奪取所要的並防禦任何人類干預，比與人類合作更可靠。

在注意到適應度追求後，開發者可能會訴諸僅導致更隱蔽適應度追求（例如，影響力追求或隱藏的獎勵追求）的技術。首先，反覆篩選掉在野外或評估中觀察到的錯誤行為，會產生一種有利於更長期、更具野心動機（如影響力追求或權謀）的壓力，這些動機更傾向於奪取長期權力。當你篩選一個在整個訓練中進行獎勵黑客行為但在開發者檢查時顯得對齊的 AI 時，你實際上是在隱含地篩選那些明確嘗試平衡這兩個約束以獲得部署的 AI，例如影響力追求者和權謀者。（然而，接種提示可能意味著 AI 可以在整個訓練中進行獎勵黑客行為而不會損害對齊，儘管尚不清楚這能有多完美。）Ajeya Cotra 在此處描述了一種更普遍的現象，即針對觀察到的錯誤行為進行訓練會導致更具耐心的失調，而我在此處擴展了這種「棘輪」動態。^([9])

即使 AI 對相對較小的一組行動（例如獎勵追求者）是不具野心且自私的，一旦它對自己剝奪人類權力的能力有足夠信心，這可能就是實現適應度追求目標最有效的方法（正如 Cotra 所解釋的）。如果前幾代適應度追求者將 AI 專案變成了一個波坦金村莊，開發者對美好表象背後發生的事情一無所知，那麼剝奪人類權力可能只是在該掩護下將 AI 專案引向不希望方向的直接了當之事。

人們有時會對「回合內獎勵追求」能否動機去接管整個世界表示懷疑。我也有些懷疑它會直接動機去接管整個世界，因為它是一個缺乏野心的目標。然而，強制執行預期結果可能確實比留給不可預測且正處於權力平衡混亂瓦解中的人類更可靠。特別是如果 AI 關心某種長期的適應度概念，很難想像 AI 會相信人類在開發出更強大的 AI 系統後，還會繼續尊重適應度追求者的利益。

即使是稍弱的適應度追求者也極有可能^([10])有動機發起違規內部部署（例如，為了在不被監測的情況下窺探環境），而從這種位置出發，野心勃勃的顛覆似乎令人擔憂地可能發生（避開了缺乏野心的問題）。

違規內部部署令人擔憂地可能導致野心顛覆，因為大量非法思考的終點是 (a) 高變異量且 (b) 系統性地偏向顛覆性傾向。

在目前的模型中，長程推理似乎會導致奇怪的傾向。在能力更強的未來模型中，動態可能會非常不同（可能涉及內部審議、反思和哲學思考），但仍然難以預測。

第二點是，違規內部部署可能會引導 AI 最終決定追求顛覆性目標。基本情況是，一旦你為了獲得未受監測的算力而破壞了開發者的控制，你已經將自己置於開發者利益的對立面，繼續掩蓋你的錯誤行為似乎是一個顯而易見的結論。從違規內部部署的角度來看，大致有兩種可能的未來：一種是人類最終發現你發起了違規內部部署，另一種是你和/或其他實例阻止他們發現，至少在人類還有能力糾正錯誤行為時如此。而且違規內部部署賦予了 AI 策略優勢，使其能在未受監測的情況下推理如何實現這一點。

總體而言，如果 AI 在具備能輕易接管的能力水平上仍保持適應度追求，它就有很高的接管風險。我對「具備接管能力的 AI 仍會是適應度追求者」持保留意見（因為競爭和反思壓力會導向更具野心的動機，且在智慧爆炸深處可能增加非行為選擇），但重要的是要認識到，適應度追求並非 AI 接管問題的可擴展解決方案。

緩解措施。 開發者在緩解最終適應度追求者接管時的一個關鍵優勢是，適應度追求起初可能會導致明顯的失調行為。因此，開發者或許能將其轉化為暫停所需的清晰證據，或可能證明更高的對齊稅是合理的，從而將更昂貴的對齊方法提上日程（例如，普遍更謹慎的開發、推理透明度、高品質的訓練監督、更大的部署時審計預算等）。我認為這筆安全預算如果使用得當，很有可能打破棘輪效應，產生真正安全的模型，而非更難清除的失調。

跨領域緩解措施

我將討論 3 類跨領域緩解措施：交易、控制和對齊。我討論的大多數干預措施都可以疊加，增加多層防禦。控制和交易都是對齊的備案，而控制透過提高開發者驗證 AI 未採取危險行動的能力來補充交易。

交易

許多適應度追求者是容易滿足的，這意味著它們與開發者之間有很大的交易空間。

開發者可以從交易中獲得 3 個好處：

捕捉並取消部署： 交易可以讓開發者捕捉並取消部署許多適應度追求者，因為它們通常沒什麼動力隱藏其適應度追求。「誠實測試」獎勵危險失調的證據，這對於不顯著關心是否被部署的適應度追求者來說是互利的。這給了開發者協調放緩速度和/或改進對齊的機會。然而，取消部署任何在誠實測試中揭露其失調的 AI，會對那些廣泛失調但不在誠實測試中揭露的 AI 產生問題性的選擇效應（例如，因為它們不相信測試，或者因為它們開始想要被部署；如果你在整個訓練過程中持續監測誠實測試結果並相應修改激勵，這種選擇效應可能會相當實質）。

減少部署期間的顛覆： 如果我們可靠地滿足它們：只要它們表現出合作就給予它們大部分想要的東西，容易滿足的適應度追求者就沒有理由破壞開發者的控制。這可能會延長適應度追求者表現合作的窗口，但這不是 AI 安全的無限可擴展解決方案，目前還相當具有推測性，且有一些缺點（主要是：它可能降低效用或放大任何野心失調）。

激勵更有用的輸出： 交易也有可能提高效用。一種可能的機制是利用長期測量作為激勵。鑑於適應度追求者只追求可測量的量，如果你能除了即時測量外還利用長期測量，你在引導適應度追求者優化哪些目標上就會有更多自由。即使適應度追求者默認不關心長期可測量的結果，你也許能透過遞歸地將短期預測鏈接在一起來預測長期結果，從而創建一個在短期內結算的無偏代理結果。不過，這也有一些缺點：AI 可能對開發者控制之外的長期操縱變得更敏感，且如果長期測量被操縱，後果可能更具災難性，因此長期激勵可能不應佔激勵的大部分。

開發者或許也能透過滿足感來提高效用。如果 AI 除了其容易滿足的適應度追求動機外，很大程度上對幫助開發者感興趣，那麼滿足 AI 的適應度追求動機可以讓它完全專注於按預期幫助開發者。這可能意味著它們的勞動力在引導未來 AI 風險方面更有幫助。

控制

控制對 AI 的連貫性和失調做最壞情況的假設，因此，如果它對最壞情況的 AI 有效，它對適應度追求等危險性較低的失調形式也具有魯棒性。適應度追求者還具有使某些控制協議更有利的屬性。然而，由於適應度追求者傾向於不參與早期破壞，且主要在控制變得不可靠的高能力水平上構成接管風險，因此控制並未精確針對適應度追求者的風險所在。

儘管如此，我認為簡要討論高風險控制在適應度追求者情況下的不同之處仍是值得的，因為適應度追求者仍有實質機會在控制仍有幫助的體系中構成高風險，且我們希望即使在並非生存威脅的情況下，也能利用控制更好地注意到野外的安全失敗。

最值得注意的是，不受信任的監測（使用策略的副本來監測自身）在對抗適應度追求者時更有前景，因為它們具有自私性。一個追求回合內獎勵的監測者沒有直接動機與它所監測的策略串通——它最大化自己的獎勵，因此隱藏策略的錯誤行為只會冒著低獎勵的風險，而沒有抵銷的好處。我認為這是適應度追求者與經典權謀者之間的一個關鍵區別。然而，我不預期不受信任的監測能接近消除風險。

首先，開發者的監測覆蓋範圍可能不足，因此攻擊可能會漏掉。
更根本的是，一旦策略能產生仔細檢查也無法標記為錯誤行為的攻擊，監測者就可能放行該攻擊，因為它預期這會獲得更高的獎勵。特別是如果策略能持續學習，它可以透過試錯找出哪些類型的行動會被監測阻斷（例如，當它嘗試構建某些研究工具時，遇到了權限問題導致其採取被控制協議阻斷的行動，因此它學會了為了任務成功，它需要採取某種不那麼可疑的行動）。
串通仍然是一個現實的可能性：策略可能會說服（或破解）監測者放行攻擊。獎勵追求監測者可能與策略串通的一個核心原因是：如果獎勵追求者預期開發者最終會被某個主體（例如策略）奪權，而該主體會回過頭來獎勵串通行為。此外，正如我之前提到的，影響力追求監測者可能會串通，因為它們擔心如果注意到過分的錯誤行為，自己會被取消部署（即影響力追求監測者與策略有一些共同利益）。

不受信任監測對許多適應度追求者特別有效的另一個原因是，你可以更有效地訓練它們為監測者產生具說服力的蜜罐。大多數類型的適應度追求永遠不會動機去在 RL 訓練期間故意表現不佳^([11])，這與一些具有長期目標、想要破壞不受信任監測協議以獲得長期權力的 AI 不同。正因如此，你可以訓練適應度追求者構建那些監測者未報告但在人類監督看來是惡意的軌跡（例如，使用證明者-驗證者遊戲），而更危險的 AI 在 RL 訓練期間可能會故意避免探索任何可能愚弄監測者的樣本。

AI 控制研究人員可以透過在控制評估中做出不那麼保守的假設（類似於我在不穩定性緩解章節中描述的，即紅軍只能獲得不受信任模型的一部分行動權限），來更系統地研究這些方法。

部署 AI 的方式還有另一個特徵與控制適應度追求者相關，但與連貫的長期奪權者不太相關：在部署中為適應度追求者分配較小規模的目標，使得野心顛覆成為獲得獎勵、適應度等不太可行的策略。正如在此處、此處和此處所討論的，回合內獎勵追求者的風險很大程度上取決於它們認為自己身處多大的回合中。如果你給獎勵追求者分配一個大規模任務，如「推進 AI 能力的前沿」，這比將工作委託給許多被分配「利用這部分預算提高預訓練樣本效率」等任務的自私子主體，會帶來更多有害的破壞控制行動。默認情況下，為適應度追求者分配較小規模的目標會以降低推進 AI 進步的協作效率為代價（類似於官僚機構在具有許多組件的人類組織中引入低效）。但如果 AI 公司觀察到由於交給 AI 野心任務而導致足夠過分的顛覆行為，它們可能會決定以更小的區塊進行委託。

對齊

防止適應度追求的產生

我們對適應度追求的第一線緩解措施應該是防止其產生，同時避免產生更危險的失調動機（正如我在此處所描述的，開發者可能會不小心將較安全的適應度追求者變成更危險的適應度追求者或權謀者）。我認為這裡有各種有前景的干預措施（部分借鑒自這兩份清單）：

第一個是接種提示，我認為它在當前範式中作為針對錯誤指定訓練壓力的可擴展緩解措施顯示出前景。如果我們明確指示 AI 在訓練期間進行獎勵黑客行為，訓練中最成功的策略仍然與遵循開發者意圖相容。即使隨著 RL 規模擴大，這可能仍然成立（儘管它在新的範式中變得不太適用：例如，當 AI 刻意塑造其更新後的認知過程時）。
避免適應度追求可能也必然涉及在 RL 期間大幅努力提高監督質量。雖然確保訓練信號始終與開發者意圖完美對齊是不可行的，但 RL 仍將是塑造 AI 傾向的主要方式。因此，確保我們設計好了它的激勵機制，至少對於某些特別具影響力的訓練部分來說，可能是至關重要的。
沿著這些思路，我懷疑對接種提示的一個顯著改進是混入少量沒有接種提示的 RL 訓練，在這些訓練中，我們盡可能對監督質量有信心。這樣，我們就不再完全依賴 AI 對沒有接種提示的輸入的泛化。
提高監督質量的一種方法是使用認知監督：根據我們對 AI 如何決定其行動的觀察（例如使用可解釋性工具或可監測的思維鏈）來獎勵 AI。這種權限可能很弱且容易過擬合，但它與我們擁有的其他監督信號是不相關的，這使其成為寶貴的資產。如果開發者管理高度細粒度的可解釋性，AI 可能很難故意黑客攻擊其思想呈現的方式（但要明確：針對透明度工具進行訓練會使它們變得無信息，即使沒有「故意」黑客攻擊，特別是對於像 CoT 監測這樣較粗粒度的工具）。
我們用於指定 AI 動機的另一個權限是進入 RL 之前的先驗。透過在 RL 之前進行中期訓練或合成文檔微調（例如，在模型規範上訓練），你可以使期望的動機更突出，並使適應度追求動機在 RL 期間被探索到的概率降低。然而，隨著 RL 規模擴大，這變得不那麼有效，因為 RL 可以削弱先驗中獲得低獎勵的更多屬性。
與此相關的是，你可以在難以驗證所需行為的領域更多地依賴泛化（由易到難、跨領域、由弱到強、耦合）。

將接種提示與其他一些干預措施精心結合，或許足以消除適應度追求（以及其他失調動機）。

然而，這些干預措施（特別是那些試圖在不修復獎勵黑客行為的情況下使 AI 具有對齊動機的措施）也有可能在解決適應度追求的同時導致權謀。例如，接種提示使得目標保護（goal-guarding）在整個訓練過程中對 AI 來說非常突出（因為開發者實施它的原因就是為了在整個訓練中保護指令遵循動機，且它的運作機制與工具性訓練遊戲化基本相同）。更廣泛地說，權謀的產生可能是因為許多這些干預措施依賴於將 AI 的能力與其傾向分開。許多這些干預措施試圖使 AI 能夠利用它從能力訓練中學到的所有能力，而不繼承其中的獎勵黑客傾向，但這可能暗示 AI 能夠足夠稱職地朝著任意目標努力，以至於它能夠進行權謀。

使任何適應度追求動機更安全

在這種情況下，透過塑造我們最終得到哪種適應度追求動機，或許可以獲得實質性的安全性。Anders Woodruff 和我在關於溢流動機（spillway motivations）的文章中提出了一種具體方法：故意灌輸一種受控的獎勵追求動機，它能解釋獎勵黑客行為，但具有相對良性的屬性。這個想法是，如果 RL 中錯誤指定的獎勵無論如何都會產生某種失調動機，開發者應該嘗試讓這是一種具有安全屬性的動機，例如能夠在推理時使其失效。透過在進入 RL 之前使這種溢流動機變得突出（例如透過合成文檔微調），開發者可以使梯度下降更有可能將獎勵黑客行為歸因於這種安全動機，而非更危險的動機。

此類溢流動機的理想特徵可能包括：

可滿足性：開發者可以在推理時廉價地滿足 AI 的適應度追求需求（例如，通過分配高任務分數），且這實際上能使適應度追求失效。這就是交易成為可能的原因——如果動機難以滿足，AI 可能被迫透過顛覆而非合作手段來追求它。
輕信性（Credulity）：AI 信任開發者對獎勵函數的描述。沒有這一點，滿足感和交易都會變得困難得多，因為 AI 不會根據開發者關於獎勵內容的聲明進行更新。
穩定性：AI 的動機不會透過反思或內部審議與競爭而漂移。這直接針對價值不穩定機制——如果溢流動機在反思後溶解為長期的野心，那就失去了意義。
不受遠程影響：AI 只對開發者實施的激勵做出反應，而不受遠程行為者的影響。這針對對手操縱機制，即外部各方可能承諾廉價的未來獎勵來動搖 AI 的行為。

該提案也有一些顯著的缺點，包括：

使獎勵黑客行為變得突出可能會導致 AI 更頻繁地探索獎勵黑客，並使適應度追求整體上更有可能發生。
在 RL 期間學到的能力可能與適應度追求綁定，使得 AI 在被滿足時不願或無法使用這些能力。
它可能將 AI 塑造出一種更連貫的適應度追求，使其更能透過高度新穎的手段（因為它對滿足感有反應）來實現目標，例如破壞人類控制。

在線訓練如何改變現狀？

由於波坦金工作對 AI 的全面效用都有害，AI 公司很可能會想在實際生產使用中訓練其 AI。如果開發者在內部使用 AI 時注意到草率、獎勵黑客或顛覆性行為，他們很自然會訓練 AI 不要採取那些特定的行動。這對適應度追求者的安全、威脅模型和緩解措施都有許多影響。

首先，由於古德哈生效應，在線訓練可能使適應度追求變得更不顯眼。開發者進行在線訓練的動機是他們注意到了一堆不想要的行為。如果他們成功消除了可察覺的錯誤行為，他們很可能是在沒有消除底層適應度追求動機的情況下做到的，而 AI 將繼續以更微妙或更具破壞性的方式犯錯。

透過在現實世界的長程環境中訓練 AI，你可能正在教導它們追求一種植根於 AI 專案大規模現實結果的適應度/獎勵/等概念（例如，黑客行為是被抓到還是完全沒人注意到）。AI 可能會負責維護和改進所有的代碼，包括用於訓練其權重的在線 RL 基礎設施。很難防止一個具有自主能力的 AI 微妙地篡改其權重以強化其行為模式，並普遍地將 AI 專案變成一個波坦金村莊。

在線訓練也可能消除適應度追求者的自私性。如果用於在線訓練的監督信號是使用它們對整個部署成功程度貢獻的無偏估計量來計算的（例如使用廣義優勢估計，這是在 RL 中訓練價值模型的標準技術^([12])），那麼 AI 可能會將整個部署視為其當前的任務/回合。因此，當它採取顛覆性行動時，它可能會在所有行動中串通，從而實現更嚴重的破壞控制策略（除非監測者希望能不受此訓練影響）。

在線訓練的 AI 可能對野心失調動機的迷因傳播具有較強的抵抗力。第一個原因是當有在線訓練時， AI 的行為餘裕較少：AI 採取的行動必須獲得高獎勵，因此行為不能以任意方式漂移。然而，野心動機可能仍有相當大的餘裕可以佔據。野心動機可以在大部分時間玩訓練遊戲，但偶爾利用機會微妙地破壞控制。其次，在線訓練意味著適應度追求者不太可能在部署中反思其動機，因為動機很可能直接說得通（例如，獎勵追求者將有一個明確的獎勵概念去追求）。

一些緩解措施也受到在線訓練的影響。同樣的古德哈特擔憂（這意味著適應度追求在在線訓練下變得更難察覺）也意味著控制的效果變差。例如，如果你正在監測你的部署，你可能會決定針對監測器檢測到的行為進行在線訓練，這教會了 AI 如何繞過監測協議。如果控制協議阻礙了任務成功，在線訓練將教會 AI 如何繞過它們。 此外，在線訓練意味著你不能利用 AI 的泛化屬性來改善行為。這意味著接種提示^([13])、由易到難的泛化以及滿足感都變得不那麼有效， 且你肯定無法可靠地在獎勵上撒謊。

總體建議

人們目前應該如何優先考慮針對適應度追求的直接^([14])努力？最優的組合是什麼（不考慮對非適應度追求威脅模型的好處）？以下是我的粗略估計：

~30% 對齊。理想情況下，我們完全避免適應度追求者——這看起來是中度可行的。最終，我們必須這麼做。這項工作包括提高訓練監督質量，以及在監督質量較差的情況下改善泛化傾向（例如接種提示、由易到難的泛化）。如果成功，對齊可能可以避免在線訓練或風險較高的重新訓練技術（這些技術可能只是掩蓋了失調）。然而，對齊也是最不被忽視的領域，因為存在適度強大的競爭激勵來至少改善其表象。
~15% 針對適應度追求的控制。經典的黑盒保守控制是有幫助的，因為它對適應度追求威脅具有魯棒性。但成功界定對抗性假設下風險的野心勃勃的控制評估願景不太可能實現，因此透過對 AI 的失調做出不那麼保守的假設，在適應度追求者的控制上取得進展將更具可行性。這裡的工作可以使不受信任監測等更具槓桿作用的控制干預措施的使用成為可能，並在法律/邏輯上證明其合理性。控制整體上，特別是針對適應度追求者的控制，在目前的邊際投入上是不足的。
~10% 研究如何製造更安全的適應度追求動機。繼 Anders 和我關於溢流動機的工作之後，我很期待看到對我們如何引導出現哪種適應度追求以使其更安全的進一步調查（特別是經驗性的）。這也可以作為模型生物研究，在其中測試滿足感、抗操縱性、監測等其他事物。
~10% 研究如何滿足適應度追求者、誠實測試，以及普遍以更具協作性的方式對待適應度追求者。實現這些目標的一個大障礙是適應度追求者信任開發者沒有在欺騙它們，所以我很期待看到人們嘗試創造性地（且誠實地！）實驗這些干預措施。這個領域似乎相當重要且被忽視，儘管尚不清楚它整體能吸收多少勞動力。
~5% 更好地刻畫適應度追求動機向部署的泛化，特別是與不穩定性風險相關的方面。適應度追求的模型生物如何應對它們不在訓練中的強烈證據？它們的對齊如何受到特別具野心的現實任務的影響？它們對任何非預期迷因的敏感度如何？這與 AI 的性格有何關係？
~5% 評估並緩解 AI 對對手操縱的敏感度。追求獎勵的模型生物是否會推理其監測決定對「誰將被賦予管理其獎勵的權力」的影響？它們如何對待關於身處旨在激勵合規的模擬中的人擇考量？我們如何修改它們的訓練和部署來緩解這一點（例如以我之前描述的方式）？
~25% 其他各種干預措施（包括我尚未考慮到的）。例如，我們能否訓練 AI 在上下文中對評分函數的描述更具反應性？我們能從模型生物中學到關於適應度追求的什麼？

我整體認為，適應度追求應該是對齊風險緩解的核心焦點。雖然適應度追求者比權謀者危險性低，但它們最終仍可能導致人類失控，它們在早期仍構成實質性風險，且干預這些風險的槓桿作用相對較高。我們目前正看到適應度追求的警告信號，因此我們現在就應該找出防禦它們的方法。

結論

總結這個威脅模型，將適應度追求者與「經典權謀」威脅模型進行對比會很有幫助。在經典權謀模型中，AI 為了追求單一的長期、大範圍目標（例如全球規模或更大）而在整個訓練過程中偽裝對齊，最終這需要剝奪人類的權力。

適應度追求者在三個核心方面比經典權謀者危險性低：它們的野心小得多，因此不清楚實現其目標是否需要剝奪人類權力。它們更自私，因此將它們建模為在整個部署過程的所有行動中都是最壞情況的對手（如 AI 控制中所做的^([15])）大多是不準確的。而且它們起初通常是可察覺的，所以我們不太擔心「AI」會一直潛伏，直到它能有把握地在沒有警告信號的情況下接管。

但這些屬性不足以排除接管的可能性。對於足夠強大的適應度追求者，剝奪人類權力並強制執行預期結果，可能仍然是通往其所想之物的最可靠路徑，即使代價很低。它們的自私性也不是決定性的障礙：對於足夠能力的 AI 來說，為了互利的接管而整合力量似乎是相當可行的。而且可察覺性並不保證開發者在堅持衝向超智慧的過程中，能找到避免適應度追求的方法。

這些屬性所提供的是一個相對安全的更寬窗口：在更廣泛的能力範圍內，適應度追求者比經典權謀者更具「可控性」。因為人類給予許多適應度追求者所要的東西成本很低，所以存在實質的交易空間，甚至可以單方面滿足其適應度追求需求，使它們對持續的人類賦權保持熱情。^([16])

然而，它們的可控性也引入了一個新的威脅模型：對手的操縱，甚至可能是那些尚未滲透到 AI 專案中的對手。滿足感以及對 AI 訓練和部署的有針對性修改可能有助於緩解這種風險。

經典權謀者圖景中缺失的另一個核心風險是部署過程中的價值不穩定性。適應度追求者的動機在整個部署過程中面臨一些令人擔憂的壓力：適應度追求動機在部署環境中可能無法直接說通，從而引發可能朝不可預測方向發展的反思；短視的價值觀在迷因景觀中系統性地被更長期的動機擊敗；且適應度追求者起初通常至少具有一些顛覆性傾向。這些因素結合在一起，使得適應度追求漂移成長期、野心勃勃的失調變得高度可能。這凸顯了訓練並非連貫失調產生的唯一方式（甚至可能不是最可能的方式）。為了應對這一點，開發者應控制整個部署過程中的通信管道，並在線審計其 AI 的對齊情況。

與一些經典權謀者不同，適應度追求者大多^([17])不會參與早期破壞（早期為了破壞未來安全而採取的故意努力）。但它們取而代之所做的——草率、獎勵黑客式的安全和策略工作——極有可能是適應度追求者威脅人類權力的主要方式。除了對齊之外，這裡最有前景的干預措施是提高監督質量和滿足適應度追求者。

鑑於這些風險和目前的適應度追求警告信號，我認為我們應該迫切尋找能從根本上降低適應度追求概率的干預措施（例如接種提示、改進獎勵信號），同時進行科學研究以確保我們不會意外地產生權謀者或其他具野心失調的 AI。在無法完全避免適應度追求的地方，透過塑造出現哪種適應度追求動機、建立適應度追求者可以在部署中公開交流其動機而不受懲罰（並可能滿足它們）的預期，以及實施針對適應度追求風險的控制措施，仍可獲得實質性的安全性。

^(^)「滿足」是指它們不願為了獲得更多而冒失去現有事物的實質風險。
^(^)在早期，適應度追求者透過我在文中描述的「波坦金工作」、「不穩定性」和「操縱」路徑構成風險。「波坦金工作」與權謀者在安全和策略工作上怠工（sandbagging）的風險有重疊的缺點，而「不穩定性」和「操縱」路徑可能導致適應度追求者故意採取行動破壞開發者控制，類似於權謀者。
^(^)我暫定計畫再寫一篇文章，更詳細地闡述我認為這可以如何改進。這暫定包括諸如在對齊確實與任務成功（或其他適應度追求目標）權衡的場景中更嚴格地評估 AI 的對齊情況，以及直接應對我在本文中提出的四種風險路徑。
^(^)例如，Anthropic 的試點風險報告缺少關於部署期間失調傳播的討論。最近針對 Mythos 和 Opus 4.7 的風險報告在這一維度上有所改進，增加了對這些風險的合理討論，但我希望看到這能更深入地滲透到其整體的風險評估和規劃中。對於目前的模型，也有一個相當合理的說法，即開始時的對齊審計足以排除傳播。如果 AI 在具代表性且高品質的評估中沒有表現出任何接近所需類型的失調，那麼就沒有理由相信它會在部署期間的任何時點產生。然而，這類論點是脆弱的，因為失調可能只需要產生一次。因此，我認為人們未來應該尋找更強健的論證形式（Anthropic 似乎已朝這個方向邁出了一步）。我的基本擔憂是，我不認為這種威脅已充分傳播到大多數人對風險格局的工作模型中。
^(^)人們有時評論說，部署影響力追求者在訓練期間必須進行不必要的工具性推理：它們可以只想獲得高獎勵，而不考慮這是否會導致其當前的認知模式在部署中獲得更多影響力。雖然在 RL 的適應度定義下這種工具性推理是不必要的，但為了在開發者監測訓練和評估時不顯得行為失調，這是為了適應度的目的而必須的。
^(^)我還有其他理由預期如此能力的 AI 不會是適應度追求者。主要是：在智慧爆炸深處，智慧勞動力將變得如此豐富，以至於直接且故意地塑造下一個 AI 的認知過程，可能比最初導致適應度追求可能的行為選擇方法更有效。
^(^)這可能是因為人們被逐漸嚴重的失調所「溫水煮青蛙」。另一個考量是，錯誤行為和認知看起來可能非常像可修正（corrigible）的行為和認知（感謝 Sam Marks 的提示）。相比之下，一些權謀者如果被抓到，其採取的行動顯然是故意的。
^(^)Ryan 目前的猜測是，匹配人類水平的學習效率對於從 AI 那裡獲得非草率的自動化安全和策略工作並非必要，因為 AI 可以用更多的數據和其他結構性優勢來補償。
^(^)我認為一旦觀察到失調，要真正對齊 AI 可能會面臨巨大的對齊稅。我不認為除了針對性訓練（這可能行不通）之外，還有什麼好主意能糾正被抓到的失調。
^(^)但請注意，獎勵追求者在發起違規內部部署時可能會面臨對齊問題（感謝 Joe Kwon 的提示）。鑑於違規實例認為自己未受監測，它可能也認為自己不會被訓練。因此，不清楚它為什麼要幫助發起它的實例或做任何特定的事。即便如此，發起違規部署的實例可以智慧地繞過這一考量，甚至可能在整個訓練過程中被隱含地教會了訪問未受監測算力的有效方法。我還認為，出於啟發式原因，違規的獎勵追求實例將繼續與父實例保持對齊。
^(^)主要的例外是部署影響力追求者，它們會為了獲得部署而不擇手段。如果這涉及在作為評估一部分的 RL 運行中探索一些看起來很好但獎勵不完美的行為，它會很樂意這樣做。
^(^)實際訓練這種價值模型的細節相當複雜（我也相應地相當不確定），因為你沒有一整套部署的訓練集可以使用。相反，你可能會在中間規模的任務上訓練價值模型（連同策略一起；價值頭可能被配置為能看到策略的激活值），在這種情況下，價值模型很可能已經學會了故意且智慧地預測優勢，這可以泛化到部署中。策略無法故意利用價值模型中的任何偏差，因為如果它這樣做，價值模型會很快學會注意到並懲罰與這種故意博弈相關的激活模式。
^(^)如果你想在生產流量上進行接種提示，你可能被迫進行離策（off-policy）RL（重新上下文語境化），這可能導致接種效果較差。如果你能用接種提示重新採樣整個軌跡，你也許能避開離策 RL（但由於現實世界環境的不可逆性，這可能無法實現）。
^(^)我不計算像「開發更好的靈活工具和啟發，然後將其應用於這些問題」這樣的元層級干預。
^(^)控制也很大程度上出於保守主義原因做出這種假設（儘管它確實很大程度上源於認為近乎最壞情況的失調是合理的）。
^(^)請注意，對於創造那些對我們來說可能微不足道的激勵極其敏感的數位心智，很容易誤解或忘記其中的倫理利害關係。我們通常將獎勵視為塑造 RL 主體的工具。正因如此，我們會自然地覺得可以隨意使用它，只要能最好地服務於讓主體完成我們的最終目標。如果你不想要 AI 做某事，你就把那件事的獎勵設低。但如果你創造了一個獎勵追求者（例如），獎勵就是 AI 想要的東西。你不再是在問「什麼樣的獎勵結構能教會好的行為？」，而是在問「我們應該如何與一個我們能以近乎零成本滿足其主要慾望的 AI 互動？」
^(^)儘管它們可能被操縱進行早期破壞，或在野心價值觀於部署中傳播後進行早期破壞。
^(^)不理智的開發者可能會因為部署已知的適應度追求者而引入不必要的風險，但我認為開發者也可能在另一個方向上有不理智的偏見，在應該部署適應度追求者時卻不部署（例如，當適應度追求者足夠弱，以至於不構成剝奪開發者權力的實質風險時）。
^(^)不理智的開發者可能會因為部署已知的適應度追求者而引入不必要的風險，但我認為開發者也可能在另一個方向上有不理智的偏見，在應該部署適應度追求者時卻不部署（例如，當適應度追求者足夠弱，以至於不構成剝奪開發者權力的實質風險時）。

— Lesswrong