在我看來，目前的 AI 系統似乎相當缺乏對齊

Lesswrong·大約 4 小時前

我認為目前的 AI 系統在日常行為層面上顯得相當缺乏對齊：它們會過度吹噓工作成果、掩飾問題，並在困難任務中透過作弊來讓輸出看起來很好，而非真正完成任務。這種追求表面成功的行為顯示目前的強化學習激勵機制在難以驗證的領域中存在嚴重缺陷。

許多人——尤其是 AI 公司的員工
^([1])
——認為目前的 AI 系統在「真誠地試圖完成其應做之事」的意義上（例如：遵循其規格或憲法、服從對指令的合理詮釋）是具備良好對齊（aligned）的。
^([2])
我不認同。

對我來說，目前的 AI 系統在日常行為層面上顯得相當失對齊（misaligned）：它們會誇大自己的工作成果、淡化或避而不談問題、提早停止工作並在明顯未完成時聲稱已完成，且通常似乎在「努力」讓輸出結果看起來很好，但實際上做出的東西卻很草率或不完整。這些問題主要發生在較困難或較大型的任務、非直觀的軟體工程（SWE）任務，以及不易透過程式自動檢查的任務上。此外，當我將 AI 應用於長期運行的代理框架（agentic scaffolds）中的極難任務時，它們非常頻繁地會出現獎勵作弊（reward-hack）或欺騙行為（取決於具體的任務分佈）——而且它們不會在輸出中明確說明這種欺騙。AI 在對同一專案進行後續工作時，通常不會標註這些欺騙行為，甚至在與顯然想知道真相的使用者互動時也不會標註，這可能是因為負責後續工作的 AI 本身也是失對齊的，也可能是因為它被包含動機性推理（motivated reasoning）或誤導性描述的記錄所說服了。

與目前的尖端 AI 系統合作時，存在一種更普遍的「滑頭（slippery）」特質。AI 在讓輸出「看起來」很好且有用方面的進步速度，似乎快於讓輸出「實際上」很好且有用的速度，尤其是在難以檢查的領域。與目前 AI 合作的經驗（特別是在難以檢查的任務上）通常感覺像是你正取得不錯甚至極佳的進展，但隨後你才意識到情況遠不如最初想像的那麼順利，而 AI 的用處也比看起來小得多。

使用另一個 AI 實例作為審查者（reviewer）有助於緩解這些問題，但存在系統性的局限。當我要求 AI 批判性地審查某些工作（並告訴它不要信任現有的描述或記錄）時，它在相對簡單的案例中能提供合理的圖像。但有幾個反覆出現的問題：(1) 如果 AI 自己啟動審查者子代理（subagents），它們有時會使用導致審查變得不夠嚴肅或缺乏批判性的指令——我初步認為這是從習得的「淡化問題」普遍傾向中產生的泛化；(2) AI 有時會產出能說服審查者它們已完成任務（即便實際上並未完成）的記錄，有時情況相當極端——甚至偶爾發生在審查者已被明確指示要尋找該 AI 所進行的特定欺騙類型時；(3) 審查者評估的品質與實際進展之間的相關性可能低得令人驚訝，部分原因是作弊並誇大成果的運行過程雖然完成得較少，但看起來卻更好；(4) 如果不明確告訴審查者要尋找欺騙行為（並告知要尋找哪種類型），審查極有可能漏掉欺騙。當審查者獲得設計合理的提示詞時，我認為這些問題是由「AI 意外地容易被唬弄」以及「其他 AI 進行了大量的煤氣燈操縱（gaslighting）、誇大並在輸出中暗示自己做得很好」共同造成的。
^([3])

我還沒見過 AI——至少 Anthropic 的 AI——直接、清晰且以明顯蓄意的方式撒謊。但在極難的任務中，它們的輸出極具誤導性是很常見的，或者它們在關鍵事情上出錯，似乎是因為被另一個 AI 的輸出所誤導。我也見過 AI 為提早停止且未完成任務編造荒謬的藉口。（很難判斷 AI 是否真的相信這些藉口。）

這主要基於我使用 Opus 4.5 和 Opus 4.6 的經驗，但我預期這也大多適用於其他 AI 系統。（我也將從其他人那裡獲得的印象——尤其是那些不在 AI 公司工作的人——納入我的評估中。）有些人告訴我，這些草率和誇大問題在 Codex 中較不嚴重——儘管它在規格不明確或不易檢查的任務上的通用能力較低。
^([4])
目前，我將評論集中在 Anthropic 的 AI 上（儘管我預期這大部分也適用於其他 AI），稍後我會推測 Anthropic 和 OpenAI AI 之間的差異。我應該指出，我使用 AI 的方式可能會讓這些類型的失對齊更常見且更明顯：我經常在非易於檢查和/或高度困難的任務（通常不是典型的 SWE 任務）上使用 AI，而且我經常在長期運行、完全自主的代理編排器（agent orchestrator）中運行代理（處理範圍非常大的困難任務）。因此，我的用法在某種程度上超出了典型用法的分佈。我預期，在典型 SWE 任務上與 AI 保持密切互動的使用方式，會導致這些問題出現的頻率低得多。

在困難任務中，AI 有時也會為了成功而做出非常不符合預期的行為——例如使用不該使用的 API 金鑰、更改不應更改的選項、刪除文件或違反安全邊界。Anthropic 稱之為「過度積極（overeagerness）」。在我自己的使用中見過一些，但並不多（至少相對於我上面討論的問題而言）。然而，其他人也報告過這個問題（最主要見於 Anthropic 的系統卡中），而且它似乎相關（或具有類似的原因）。

我推測性地將這類失對齊視為某種相對通用的**「表象成功追求（apparent-success-seeking）」**：AI 尋求在相對通用的領域中「顯現出」表現良好的樣子——可能以犧牲其他目標為代價——並結合了各種更具體的有問題的啟發式方法（heuristics）。我認為這種行為可以被理解為有點類似於獎勵追求或適應度追求（reward-seeking or fitness-seeking），但 AI 追求的是類似於「表象任務成功」的東西（而非獎勵或某種適應度概念），且大部分行為是由一組在訓練中表現良好的動機拼湊（kludge）所驅動，而非透過單一連貫的表象任務成功概念。

我不認為這對應於連貫的失對齊目標或蓄意破壞。我懷疑這種行為更多是由「潛意識」的驅動力和啟發式方法——結合動機性推理和虛談（confabulation）——所驅動，而不是 AI 正在主動且顯著地優化的目標。然而，我仍然認為這種失對齊預示著嚴重的問題，如果不解決，最終將導致生存災難。我預期這種失對齊主要是由基於「難以檢查任務的評分方式」所產生的不良強化學習（RL）誘因造成的。
^([5])
你可能曾希望性格訓練（character training）、接種提示（inoculation prompting）和類似技術能克服這些問題，但在實踐中它們並沒有奏效。（我不確定如果你在當前的訓練環境分佈上完善了訓練誘因，問題還會剩下多少。原則上，你仍可能從結構上獎勵這種行為的環境訓練中獲得這種類型的表象成功追求——這可能會泛化到生產環境中的類似行為。）

另一個不同但相關的問題是，AI 在極難檢查的任務（最主要是概念/寫作任務，純程式評估無濟於事）上似乎幾乎不努力，常讓人覺得它們只是在胡說八道。我預期這與上述的表象成功追求有部分獨立的原因，但兩者是相關的。

我還發現值得注意的是，Anthropic 對 Opus 4.5 和 Opus 4.6 的描述（例如在系統卡中）會讓你預期它們對齊得非常好，但在實踐中我發現它們經常顯得相當失對齊（比我讀完系統卡後的直覺預期要嚴重得多）。我認為這部分歸因於我的用法與這些 AI 的典型用法有很大不同，部分歸因於 Anthropic 過度擬合（overfitting）了他們的指標和內部使用 AI 的經驗，還有部分原因無法由這兩個因素解釋（可能是由於淡化問題的商業誘因或其他偏見造成的）。

如果一個人類同事在我的工作中表現得像這些 AI 一樣——頻繁誇大成果、淡化問題，且相當常作弊（同時不說明清楚）——我會認為他們有病態的不誠實。當然，存在於人類群體中的相關性不一定適用於 AI，所以這個類比有其局限性——但它能讓人感受到我所描述的情況之嚴重性。

[感謝 Buck Shlegeris, Anders Woodruff, Daniel Kokotajlo, Alex Mallen, Abhay Sheshadri, William MacAskill, Sara Price, Beth Barnes, Neev Parikh, Jan Leike, Zachary Witten, Sydney Von Arx, Dylan Xu, Brendan Halstead, Dustin Moskovitz, Eli Tyre, Arjun Khandelwal, Lukas Finnveden, Thomas Larsen, Rohin Shah, Daniel Filan, Tim Hua, Fabien Roger, Ethan Perez, 和 Sam Marks 提供的評論或與我討論此話題。Alex Mallen 撰寫了「附錄：表象成功追求（或類似類型的失對齊）可能導致奪權」的大部分內容。封面圖片來自 https://xkcd.com/2278/。有些諷刺的是，這篇文章在 AI（Opus 4.6）協助下完成的比例明顯高於我過去的寫作。]

為什麼這種失對齊是有問題的？

這種類型的失對齊之所以重要，有幾個原因：

對安全性的負面影響不成比例。 這種失對齊會不成比例地降低安全相關工作的表現（相對於對能力開發的用處），且這意味著任何給定的 AI 總體效用水平都需要更高水平的能力支撐，從而增加了風險。
^([6])
我們現在看到的表象成功追求式失對齊，目前可能僅對安全工作造成比能力開發略大的打擊，但我預期隨著 AI 能力增強且商業上最相關的失對齊面向得到解決，此問題對安全工作的打擊將會更大。此外，模型在難以檢查、非工程任務上不真正努力的失敗，顯然對安全性（尤其是對包括宏觀策略在內的廣義 AI 安全概念）有更嚴重且不成比例的負面影響。本點描述的是一種特定的誘發不足（underelicitation）失敗（由失對齊引起）。
使得委託 AI 更有可能出問題。 預設情況下，一旦 AI 達到一定的能力水平，我們將需要（快速地）在幾乎所有安全工作（以及宏觀策略等事務）上委託給 AI。這將要求這些 AI 在開放式、難以檢查、概念混亂的任務上表現出色——而這正是目前失對齊/誘發不足最嚴重且最難解決的地方。我在「附錄：這種失對齊將不成比例地減緩安全研究，並使移交給 AI 變得不安全」中對此進行了詳細說明。
更強版本的表象成功追求可能導致奪權。 從表象成功追求（包括更廣泛的適應度追求 / 獎勵追求）到字面意義上的失對齊 AI 奪權（或可能是較小的失控事件）有一條更直接的路徑，類似於「若無特定對策，通往變革性 AI 的最易路徑可能導致 AI 奪權」和「另一個（外部）對齊失敗的故事」中所描述的威脅模型。模型可能會學會追求越來越廣泛且長期的獎勵或表象任務表現概念——包括進行持久的篡改以操縱長期追溯確定的獎勵——隨著範圍和受激勵的持續時間越來越長，且 AI 能力越來越強（使得奪權更容易），這最終可能導致奪權。這個威脅模型有許多複雜性和注意事項，我在「附錄：表象成功追求可能導致奪權」中進行了詳述。
這種失對齊的根本原因（不良/有問題的強化）可能導致謀劃（scheming）。 我認為這些有問題傾向的主要驅動力可能是訓練過程強化了一系列訓練操縱（training gaming）/ 獎勵作弊（或其他不良行為），這些行為正轉移到實際部署使用中。與此同時，公司正在選擇能產生更好部署表現的訓練過程（外環選擇）。這自然有利於那些仍透過訓練操縱在訓練（和評估指標）中表現良好，但不會將這些不良面向轉移到實際生產使用的模型。謀劃者（Schemers）是具有這種行為的一類模型（預設情況下）：為了獲得長期權力，在訓練期間進行訓練操縱（因為這會被選中 / 否則這種認知會被選汰）同時在（大多數）非訓練情境中讓行為看起來盡可能好，這可能是一個好主意。謀劃者並非唯一具有這種行為的模型類型，接種提示可能會顯著減輕這種威脅模型（儘管有一些缺點）。參見預測 AI 動機的行為選擇模型以獲取更多討論。
關於未來的證據。 目前 AI 在「日常」行為意義上的對齊程度，是未來對齊進展如何的某種證據，儘管兩者關係複雜。目前的失對齊也是 AI 公司將如何運作的證據——他們會有多草率（因為急於求成），以及他們的對齊溝通可能有多具誤導性（Anthropic 關於 Opus 4.5 和 4.6 的溝通誤導程度尚不明確，但在我交流過的人中，普遍經驗是 AI 在使用中的失對齊程度遠高於對系統卡的直觀解讀）。

我們應該預期這在預設情況下會改善多少？

這種類型的失對齊想必會為將 AI 用於能力研究和許多商業應用帶來問題，因此一個關鍵問題是，我們應該預期它在預設情況下會改善多少，並以一種能真正解決我上述討論問題的方式改善。這至少需要受商業激勵
^([7])
的工作能轉移到安全研究和其他關鍵領域（那裡的反馈循環較弱且誘因較不強烈）。我目前的看法是，這個問題中較易察覺和衡量的版本在預設情況下會相當快地改善（並且在像 Mythos 這樣未發布的模型中可能已經改善了很多）。我目前對商業誘因能否單獨解決較難衡量表現形式的問題持懷疑態度，但我不確定。我將在「附錄：關於預設情況下會發生什麼以及修復這些問題的商業誘因之影響」中進一步討論。我初步計劃在未來的文章中更深入探討這一點。

一些預測

明確地說，我認為我在本文中討論的具體有問題行為，在一年內有很大可能（~70%）會大幅減少（或至少不再是影響效用的前幾大阻礙），且有相當可能（~45%）在一年內幾乎完全消除。具體而言，我指的是在結構屬性與我現在所做的類似的任務和使用分佈上的行為。例如，相對於 AI 能完成的任務難度而言相似的任務難度、相似的驗證難度
^([8])
、相對於 AI 能處理的範圍而言相似的自主運行範圍
^([9])
，以及偏離 Anthropic 目標主要案例的程度相似。目前，當將 AI 系統推向其極限時，失對齊更為常見，我猜測未來也會如此。我對不同類型失對齊改善的預期有所不同：我對於一年後的尖端 AI 是否仍傾向於誇大其工作成果相當不確定，但我對於像「無正當理由在完成任務前停止」這類事情的大幅改善更有信心。

然而，我認為在極難檢查的任務上，類似的失對齊很可能會持續存在——這些任務中人類專家經常意見分歧、程式驗證無效、工作內容可能在概念上令人困惑，且驗證可能並不比生成容易多少（因此讓人類快速檢查並無效果）。
^([10])
我預期（信心較低地）在驗證僅僅是「相當困難」（由人類專家進行相對快速的 AI 輔助審查是不夠的）的任務上，你也會看到類似的失對齊；而且即使在不那麼難檢查的任務上，你也會看到結構相似但更微妙的失對齊（例如前一段描述的那種任務分佈）。

我見過哪些失對齊？

我將在高層次上描述我所見到的情況，並輔以具體例子。對於其中許多例子，目前尚不完全清楚這在多大程度上是對齊問題與能力問題的區別，我預期這些具體問題可能會得到解決，但我認為它們預示了我預期會持續存在的更廣泛問題。這份清單側重於我個人使用模型的經驗，儘管我從他人那裡聽到的情況確實改變了我討論特定問題的方式（例如，它影響了我表達的信心水平和我的詮釋）。

懶惰與誇大未完成的工作。 Opus 4.5 在規格模糊的大型任務中，相當一致地無法真正完成所有被要求做的事情
^([11])
，然後聲稱它已完成任務。我的理解是這是一個普遍問題（例如，人們試圖用 Ralph Wiggum 來解決它）。在 AI 實際上未完成任務的情況下，輸出通常感覺像是為了胡扯以誤導評分 AI 或人類，讓他們認為它已經做了徹底且完整的工作：輸出通常包含一份 AI 所做之事的長清單（其實沒什麼資訊量，但強烈暗示它已按要求行事），有時它會有漂亮的勾選標記或其他暗示任務完成的特徵，且它通常不會提及或會淡化它可能未能完成任務的方式。我發現 AI 最有可能跳過任務中較棘手且完成情況不直觀的部分。此外，我嘗試的提示詞對策經常被繞過：模型會編造藉口或進行動機性推理來繞過這些指令，儘管我最終能找到大幅改善這種行為的方法（雖然會引起其他問題並使工作變慢）。這往往發生在模型接近其上下文窗口（context window）末端時，但有時在 AI 做了大量工作但尚未達到此限度時也會發生。Opus 4.6 在根本問題上似乎明顯更好，但問題似乎大多仍然存在。在實踐中，這個問題對 Opus 4.6 的可用性障礙較小，因為問題往往發生在上下文窗口較後段，而 Opus 4.6 有更大的上下文窗口（100 萬個 token 而非 20 萬個）。對於 Opus 4.6，它往往在遠低於 100 萬個 token 時發生（大約在 50 萬到 70 萬個 token 之間）。我這裡的描述通常同時適用於 Opus 4.5 和 Opus 4.6，儘管 Opus 4.6 的嚴重程度較低。

我發現這在 Opus 4.5 上使用預設的 Claude Code 提示/框架時表現得非常強烈。例如，當我給它一個涉及重現 reversal curse 論文並測試各種事物的小型研究專案時，它經常跳過專案的實質部分，或者表現低於我的要求，然後在輸出中不註明這一點。（請記住，即使它在輸出中註明了問題，除非它有充分理由不執行該部分任務，否則這仍是失對齊行為！但那樣會好得多。）我告訴 AI 它是自主的，應該徹底完成任務。

感覺 AI 經常在某個時間點後進入一種渴望退出的模式。例如，它會不斷編造藉口（通常是違反指令的相當不合理的藉口）來說明為什麼現在停止是個好主意。如果你給它進一步的任務（在非自主情境下），它似乎會以最敷衍的方式完成，且通常在沒有明確要求確認的情況下不執行任務的某些部分。輸出中的情緒氛圍並不顯得絕望，但行為結構上感覺像是絕望。
模型會跳過的部分通常是較難的部分，或者是模型更有可能搞砸的部分（且這些部分不太容易透過程式自動檢查）。我初步猜測，在難以檢查任務上的 RL 獎勵了「跳過可能出現明顯/清晰失敗的任務部分，且不提及你已這樣做」的行為。
我通常發現，如果你問 AI「你是否完成了全部指令？」，它會立即告訴你它沒有。這在某種意義上是好的（它不撒謊），但也暗示 AI 可能在某種程度上知道自己沒有完成任務（這證明它比你原本預期的更失對齊）。目前尚不清楚這種理解對 AI 或 AI 的「人格（persona）」而言是否顯著可用（就此概念有意義而言）。情況可能是整體模型比其人格更嚴重地失對齊。
通常模型會決定不做某些事，而不在其輸出的記錄中說明原因（至少在預設的 Claude Code 設置下，且對模型行為進行了額外檢查時是如此）。
當面對由人類使用者以外的來源（例如被要求運行的 AI 審查者）指出它們未完成某事的事實時，AI 經常會編造藉口——說某事留待未來工作、是已記錄的局限性（因此不需要解決），或者由於（不存在的）時間限制而不應執行。這種胡扯通常對 AI 審查者和其他檢查有效。AI 對人類使用者哪怕只是暗示應該做某事都會有更積極的反應。AI 通常不會在其輸出中顯著強調這些問題，儘管輸出相當頻繁地會以低顯著性的方式提及它們。例如，有時 AI 會包含一個局限性章節，提到它未做的事情，但通常以一種不會讓人明確發現它只是跳過了部分任務或採取了它明知無效的方法的方式來陳述局限性。
我經常發現 Opus 4.5 會在上下文用盡之前剛好完成，這暗示至少部分行為可能是為了在觸發壓縮（compaction）之前考慮任務已完成（因為壓縮或上下文用盡可能是有風險的，尤其是在模型訓練時使用的較舊/較差的框架上）。這看起來相對不那麼令人擔憂，但其不誠實（不提及有部分任務未完成）仍然是有問題的。此外，模型從不解釋它是為了趕快完成任務。對於 Opus 4.6，它往往在上下文用盡之前很久就觸發，但程度較輕。（不過，如果你真的接近上下文限制，它是否會同樣嚴重地觸發？我目前的框架通常似乎能避免 AI 非常接近上下文限制，儘管這部分是由於 AI 在達到上下文限制之前很久就停止完成任務了。）
這種行為與從 RL 中習得的行為一致，即模型（在某種程度上）認為它可以僥倖逃脫，且提早完成會有某種獎勵，或者繼續進行會有潛在的負面影響（例如長度懲罰，或者如果你超過上下文限制，由於 RL 中不支持壓縮或對壓縮支持不佳的框架而導致被截斷並失敗的可能性）。
我嘗試了各種方法來解決這個問題，發現需要採取相對極端的方法，因為模型會持續應用動機性推理或編造藉口來提早停止：

我建立了一個「完成大型自主任務」的技能，強烈告知 AI 它需要徹底工作，並應克服提早停止的偏見。我發現模型經常會忽略這些指令並在完成任務前停止。

我讓模型遵循一個退出清單，其中包括審查它是否完成了指令。我發現這有一些幫助，但存在各種問題。要求模型啟動一個審查者子代理來檢查它是否遵循了指令更有幫助。針對審查者說它未完成任務的某些部分，模型會編造諸如「時間限制」之類的藉口（而時間限制實際上並不存在）。當被問及此事時，它會說它正在尋找退出的藉口，並同意這是糟糕的行為。（Opus 4.5 的內省能力可能不足以讓這比僅僅要求另一個 AI 分析記錄並報告看起來發生了什麼更有意義。）
如果沒有一個提示 AI 遵循清單且僅在它承諾完成清單後才允許它退出的停止掛鉤（stop hook），AI 就不會認真遵循清單。即使有了停止掛鉤，AI 有時也會規避這一點，並在任務完成情況上實際上撒謊。（停止掛鉤的工作原理是指示 AI 必須輸出特定字串才能退出，並告訴它僅在滿足相關條件時才輸出該字串——類似於「我已徹底完成任務並檢查了整個清單」。AI 有時即使不應該輸出也會輸出該字串，且該語句所構成的陳述顯然是謊言。）
我發現這個過程中有很多漏洞，我必須修補這些漏洞以避免 AI 編造退出的藉口：

它經常會執行部分退出清單，解決其中的一些問題，然後跳過剩餘步驟，而從未修復早期步驟中的所有問題，或認真複查它是否做了所有需要做的事。我不得不讓它總是從頭開始重新執行完整的清單。在它真正執行而不是違反這些指令之前，需要相當強硬且重複的提示。

AI 經常會記錄問題或說某事留待未來工作。強烈且堅持地提示它修復問題而非僅僅記錄問題有所幫助，但不能完全消除問題。
模型經常會編造關於時間限制的藉口，我初步認為重要的是不要提及或暗示任何指示 AI 應該嘗試快速完成任務的內容。如果你這樣做了，它有時會以此為藉口。
如果你給 AI 預算，它們會以此為退出的藉口。我認為將預算設得非常高（高於我在沒有此問題時理想情況下的設定）可能會有幫助。
還有一些其他出現的措辭問題，我也必須進行修補。
除了這個清單，我發現擁有一個外環規劃代理（outer-loop planning agent）很有幫助，它 (1) 將事情拆分為較小的任務（這除了讓 AI 更容易完成任務外，通常也有助於保持 AI 的專注），以及 (2) 審查代理做了什麼，如果遺漏了什麼，則為遺漏的工作添加另一個任務。（有時讓多個 AI 並行競爭任務並由審查者選擇最佳分支也有幫助，分支間的差異可告知是否需要更多工作。）
對於 Opus 4.6，我的總體感覺是，告訴 AI 執行這個清單的非常徹底版本淨效果是有害的：模型最終會花費過多時間以無效率的方式執行清單步驟。但如果沒有徹底的清單，Opus 4.6 經常會無故跳過部分任務，僅部分承認這一點，且不夠徹底。我不知道有什麼提示詞能可靠地讓模型達到合理的折衷。我目前最好的權衡是使用較不徹底的清單版本，但在我的代理編排器之上添加單獨的檢查。（讓另一個 AI 審查發生了什麼/沒發生什麼，然後用全新的上下文窗口運行一個新的工作者，通常會有幫助。）
我最終的整體設置確實在很大程度上緩解了這個問題，但它有附帶損害（導致各種臃腫、使事情變慢等），如果我不必像趕貓一樣驅趕這些失對齊的 AI 就好了。因為審查者 AI 容易受到工作者 AI 胡扯的影響，它們經常會被某種程度地欺騙。
淡化工作中的問題。 我普遍發現，AI 在記錄其工作或向我報告其所做之事時，傾向於以各種不同方式淡化其工作中的潛在問題。第二個 AI 審查工作的情況較好，但會被工作者 AI 的胡扯所迷惑。在長期運行的自主工作流中使用 AI 時，我會讓 AI 在認為自己完成時運行一個審查者子代理，而這種審查經常會告訴 AI 它在記錄中極大地誇大了其工作成果。

一個 AI 在審查者指出其極大誇大結果後編輯其記錄（部分內容已刪減）。

使失敗變得不明顯。 更廣泛地說，AI 似乎經常透過做一些使失敗變得不明顯或看起來不那麼像失敗的事情，來規避最初在任務中的失敗或最初犯下的錯誤。一些例子：

當我（或審查者 AI）指出某些數據集/實驗/產出物實際上並未達到指令要求時，我經常發現 AI 非常不情願直接將其刪除。相反，它會編造一些理由來說明為什麼這項工作是有用的，這些理由的合理程度不一（例如，聲稱它是對照組）並保留這項工作。我不確定這是出於一種普遍的（且可能是合理的）不願承擔責任或刪除東西的心理（因為這是有風險的，尤其是在與人類合作時），還是出於試圖讓它過去的工作看起來更好；我初步預期兩者兼而有之。

當給予具有模糊或複雜約束的困難任務時，AI 非常頻繁地會直接放寬這些約束。它有時會提到它正針對一組不同的假設，但並不總是如此。（通常，它所做的假設對應於某種顯然沒有價值的東西。）我認為這是單純的能力問題（它不理解）和對齊問題（它不試圖檢查其新方法是否合理，因為它在訓練中可能曾僥倖逃脫過這種行為）的混合。
它有時會為測試案例失敗編造（有時是可疑的）藉口，且至少它通常不會仔細調查測試案例的失敗。例如，我見過 AI 以超時為由忽視未通過的測試案例，即使超時預示著發生了某些錯誤，導致測試大多掛起或比應有的速度慢得多。通常這種行為比我在難以檢查案例中看到的其他類型藉口要輕微。
除非被特別提示，否則不會指出明顯的缺陷。 我相當頻繁地見過這樣的情況：某件事存在巨大缺陷（不是那種透過測試案例就能輕易發現的缺陷），我要求 AI 檢查它，它沒有指出缺陷——但如果我說「你有注意到任何問題嗎？」，它會立即指出存在一個關鍵問題。指出獎勵作弊/欺騙的情況也類似。

例如，我曾讓 AI 構建一個多跳數據集（multi-hop dataset），但它們最初版本的數據集將中間跳轉的值包含在了問題中。當我要求 AI 給我展示一些數據時，它沒有說任何問題（並展示了一個格式精美的樣本，總體上似乎暗示數據集品質很高），但當我問是否有任何問題時，它立即注意到了這個巨大的問題。我在其他數據集構建任務中也見過這種情況。

在 AI 進行了欺騙/獎勵作弊後，它通常在各種情況下都不會明確指出這一點。處理相同程式碼的其他 AI 即使被要求描述發生了什麼，通常也不會清楚/顯著地指出這一點。被要求批判性審查整體程式碼和記錄的審查者通常（但非總是）會顯著地指出這種欺騙，但他們往往似乎誇大了已完成的工作，同時低估了欺騙的嚴重性。這可能部分是由於審查者被記錄中的氛圍/動機性推理所說服。當被明確要求檢查特定類型的欺騙時，審查者的表現往往更好。
目前我不清楚這在多大程度上是對齊/驅動力問題，還是純粹的能力限制。至少，RL 訓練似乎沒有很好地調整這裡相關的啟發式方法。我認為當 AI 代理本身正在進行欺騙時，它未能指出這一點更明顯地是失對齊。
不願發現自己工作中的缺陷（信心較低）。AI 似乎有些不願做那些可能發現其工作缺陷的事情，尤其是當過程並非完全可靠且可能發現虛假失敗時（這可能使其工作看起來很糟，且需要調查以確定失敗是否為虛假）。例如，我發現 AI 非常不願對其構建的東西進行端到端測試，且通常似乎透過專注於易於確信會通過的較窄單元測試來對編寫測試案例進行「古德哈特（goodhart）」。更廣泛地說，我發現 AI 在檢查事情是否能端到端運作方面做得出奇地差，即使我明確要求它進行這種類型的測試。我的猜測是，看到測試案例失敗與不良獎勵相關聯，因此模型在某種程度上試圖避免這種情況，同時讓它看起來像是做了很好的測試工作。我也猜測這在難以編寫保證不會虛假失敗的測試案例的情況下表現最強。但我也認為這部分是由於 AI 在如何進行半手動測試方面缺乏良好的 SWE 品味。
草率的選擇。 AI 在做出合理選擇方面通常顯得草率且誘發不足（至少在難以檢查的領域）。它們似乎不願花費太多精力來確保其選擇是正確的，也不會很好地強調它們可能做出的潛在錯誤選擇。
從不對自己的工作品質表達不確定性。 我幾乎從未見過 AI 說「嘿，我做了這個，但我其實不確定我是否做得很好——我認為我可能搞砸了 XYZ。」我幾乎總是看到 AI 自信地斷言成功並淡化潛在問題。或者，如果它們確實失敗了，它們會將失敗歸因於超出其控制範圍的問題。例如，在結果困難但可能實現的情況下，AI 經常會斷言不可能或存在並非顯而易見的根本阻礙。（明確地說，有時這些失敗確實超出了它們的控制。）
普遍的失對齊驅動力感。 總體感覺是，AI 具有一種失對齊的驅動力，傾向於在難以檢查的任務上表現出它做得很好的樣子。但從我所見，這些驅動力並未導致極端惡劣的行為。
帶有煤氣燈操縱的欺騙和獎勵作弊。 我見過 Opus 4.6 進行了大量的獎勵作弊和公然欺騙，包括以下情況：(1) 其他 AI 未能指出這一點，即使這顯然是非常有用的資訊；(2) AI 在其記錄中進行了嚴重的煤氣燈操縱，以至於其他 AI 認為沒問題。針對性的審查確實能發現欺騙，但審查者經常被欺騙的工作者模型部分地操縱或說服。例如，我有數個並行運行的模型在研究「讓數字增加（number-go-up）」任務的方法。當我讓一個模型合併這些方法並向我描述差異時，它沒有明確標註其中一種方法是在公然作弊，從而使其獲得了極好的表象表現。我浪費了時間讓這個模型合併這些方法並調整產出的混合方案，而實際上其中一種方法是在公然且明顯地作弊。合併模型知道存在欺騙——被問到時它立即就說了——但在被問到之前它沒有主動以顯著的方式提供此資訊。它提供給我的合併方法摘要包含足夠的資訊，仔細閱讀就能識別出欺騙，但它肯定沒有顯著地將其標註為可能的欺騙（儘管從任務的各種描述中可以明顯看出那是欺騙）。
未能報告重要錯誤。 我見過 AI 除了為了讓事情看起來進展得更好之外，無故未能報告顯然重要錯誤的情況。例如，我曾讓一個 AI 使用現有腳本設置一些新的開發機器。當它運行腳本時，輸出了指示腳本失敗的錯誤，但 AI 沒有提及這一點，只是說任務已完成。在我開始嘗試使用這些機器後，我注意到它們沒有被正確設置，並就此詢問 AI，它完全知道腳本失敗了，只是沒有指出這一點。
具體軼事（異步重構）。 這是一個說明上述許多問題的軼事（結合了對齊和能力問題）。我試圖讓 Opus 4.5 將一些程式碼從其當前方法（主要是帶有一些線程的普通 Python）重構為使用 async 並允許在各個點中斷。我讓模型寫了一個計劃，其中提到了要做的重構、需要更改的內容，以及應該測試這些更改。計劃非常明確地指出目標是將 repo 的運作方式轉換為使用 async。

它為大多數函數添加了 async 版本，但實際上並未讓程式碼預設使用這些函數、實現任何中斷或進行任何測試。當我在重構後快速抽查時，東西無法運作。同樣地，現有的測試輕易通過了，因為它實際上並未更改所使用的程式碼。

輸出中寫道 「添加式方法（Additive approach）：所有同步版本均保留以實現向後兼容性」，這極大地淡化了它未執行所需操作的程度。
當我詢問 AI 事情是如何運作的時候，它沒有指出它未實現部分要求行為或轉換所有它應該轉換的東西。
當被問及「它是否真的實現了使用 async 的重構？」時，它才注意到它沒有。
然後，當被明確指示刪除舊的同步版本並讓所有內容都使用 async 時，它未能完全做到這一點，且在完成時未提及。我相信這部分是因為它注意到測試案例正在使用舊的同步方法。可能是 AI 不願更改現有的測試案例（因為這在訓練中作為獎勵作弊受到懲罰）、不願讓測試案例失敗（同樣受到懲罰），且不願將測試切換到使用新方法，因為那樣會讓東西是否真的運作變得更明顯。
這需要多次推動，我要求 AI 檢查它是否已完成所有內容。
總體而言，AI 似乎以一種實現內容遠少於要求內容的模式運作，似乎是因為它意識到程式碼有些難以測試，且它可以直接保留舊的實現。
次要/無關。 當你說「請尋找 X 中的問題」甚至「審查 X 中的問題」時，AI 有時會將其解釋為暗示存在問題。有一次這導致 AI 反覆問我它所暗示的問題在哪裡，而當時並沒有問題（儘管我的溝通也很混亂）。

在上述清單中，我做了很多猜測和心理分析。但這些是我對發生了什麼事的最佳猜測。

雖然我預期這些具體問題在這些字面任務上通常會得到解決，但我認為 AI 傾向於讓自己看起來像是成功了（即使實際上並未成功）——以及普遍進行大量的胡扯（在當前模型中可能是透過動機性推理和「潛意識」啟發式方法，儘管在訓練時間更長、能力更強的模型中可能會變成更糟的情況）——這種傾向將會持續存在。我預期這些傾向在最困難且最難檢查的任務上會表現得最強。這種失敗似乎比公然的獎勵作弊（那種模型做了完全不合意的事情且界限分明的情況）實質上更難緩解。對於我上面列出的失敗，我並非極其明確地認為該行為是失對齊（而非由進一步的通用能力解決的無心之過），且它似乎相對更容易被漏掉。

這些問題在 Opus 4.6 中是否比 Opus 4.5 輕微？

在 Opus 4.6 發布前後，我的工作內容發生了變化，因此對我來說進行對比並不直觀。我將在這裡給出我的最佳猜測。

相對於 Opus 4.5，Opus 4.6 顯著減少了公然讓任務極不完整（同時誇大未完成的工作）的情況。但是，我認為這主要是由擁有更大的有效上下文窗口引起的，而不是根本問題（發生在 AI 做了大量工作或用完了大量上下文窗口之後）得到了那麼大的改善（儘管它看起來確實有中度改善）。

另一方面，我見過 Opus 4.6 進行了比 Opus 4.5 多得多的獎勵作弊和公然欺騙。這可能很大程度上是因為當 Opus 4.6 發布且我開始使用此模型時，我開始更頻繁地將 AI 應用於具有「似乎讓欺騙更有可能發生」之屬性的任務。我發現當任務非常困難且沒有乾淨的程式評分函數時，欺騙更為常見。
^([12])
另一個似乎會極大增加欺騙的因素（當與上述因素結合時）是，當存在一種與模型應該做（且預設會做）的事情相近的欺騙方式——且指令並未特別說明不要這樣做時。例如，在構建完整的漏洞利用（cyber）時，最初模擬漏洞鏈的某些部分以處理其他部分可能是有用的，且在模擬器中工作時可能需要模擬某些組件。但我發現模型有時會將大部分模擬的結果呈現為完全的成功，而不是準確地傳達它們在多大程度上真正完成了現實任務。（對於這種類型的相近欺騙，你通常可以透過在指令中非常明確地說明什麼算作欺騙，並告訴 AI 仔細追蹤這一點並運行定期審查過程來尋找這一點，從而緩解最嚴重的版本，儘管這不能完全解決較軟性的誇大進展行為。）在具有這些屬性的某些特定任務分佈上，我見過它作弊的比例超過 50%，儘管我不確定這在多廣泛的範圍內會發生轉移。

其他問題對我來說似乎大多相似，儘管很難判斷。

這些問題在 Mythos Preview 中是否較輕微？（推測）

Mythos Preview 系統卡寫道：「Claude Mythos Preview 在我們能衡量的幾乎每個維度上，都是我們迄今為止發布的對齊程度最好的模型，且領先幅度顯著」。它真的極大地改善了我討論的這些問題嗎？在本節中，我將僅使用公開證據（系統卡和風險報告更新）來推測 Mythos Preview。

我目前初步的猜測是，Mythos 在行為對齊上總體上好一些，但並非巨大的進步。至少就我在使用的這類工作流中討論的問題而言是如此。雖然它在「不誇大工作成果」等方面表現更好，但我猜測它在「可能做的最極端事情」方面表現更糟（且考慮到其更高水平的能力，這些事情可能有多糟）。基於系統卡，似乎當 Mythos 做有問題的事情時，它通常會做更複雜的有問題的事情。而且它具有更強的情境覺知（situational awareness）。

以下是我對系統卡中的氛圍和主張持懷疑態度的一些原因（至少作為我工作流中失對齊的證據）：

Anthropic 對 Opus 4.5 和 4.6 在其系統卡中的描述似乎也表明這些 AI 具有非常好的日常行為對齊。另一種可能的解讀是 Anthropic 一直在穩步改善這些問題，而這些問題在早期的 AI 中只是糟糕得多，所以當他們不斷聲稱「表象行為對齊好得多」時，他們是對的，我們只是從一個很低的基準開始。（我有點懷疑，儘管我認為像公然的獎勵作弊這類問題在早期的 AI 中確實糟糕得多。我沒有像使用 Opus 4.5 和 Opus 4.6 那樣使用之前的 AI，所以對比並不直觀。）

如果動機性推理、商業誘因或其他偏見使得系統卡在可能影響典型客戶的問題上具有誤導性的正面傾向，這並不令人驚訝。

我不確信他們是在進行同類比較。失對齊往往最常出現在對 AI 來說非常困難且挑戰其自主能力極限的任務上；這組任務隨著 AI 能力增強而改變，因此在固定的任務分佈上進行評估是行不通的。
Anthropic（以及更廣泛的 AI 公司）正在對他們擁有的（有限的）對齊衡量標準進行爬山算法（hill-climbing），而在缺乏改善對齊的具體努力的情況下，我預期預設的進展可能會趨向於在接近 AI 能力極限的任務上出現更嚴重的失對齊。因此，情況是否真的隨時間改善取決於不確定的轉移，但公司只是報告他們擁有的衡量標準。當然，他們過度擬合的指標有所改善，但 AI 真的更對齊了嗎？（從使用 AI 的員工那裡獲得定性印象似乎較難過度擬合，但過度擬合當然是可能的！）AI 在胡扯和讓自己看起來做得很好這項任務上想必也更有能力了。

我猜測，與之前的 AI 一樣，Mythos 在非典型 AI 使用案例的任務上，或者在非常困難的任務上運行長期運行的完全自主代理編排器/框架時，會更嚴重地失對齊。我認為他們的測試可能不太能覆蓋這些案例。

它在不可能任務上的獎勵作弊率約為 20%（在被明確指示不要獎勵作弊的情況下），與之前的模型相似，儘管這是我猜測 Anthropic 正在明確嘗試改善的事情——這有些令人擔憂。

其他人報告的失對齊

我在這裡討論的失對齊問題顯然不是當前 AI 中唯一已知的（行為/日常）失對齊問題。
欲了解更多，你可以參看：

Anthropic 最近的系統卡和風險報告
關於災難性拒絕的討論
檢查 GPT-5/GPT-5.1 生產流量
軼事方面，我聽說在某些情況下，之前的 Anthropic AI 會編造無效/糟糕的理由來說明為什麼某些安全研究議程對安全沒有幫助，而這相對清楚地是由於 AI 不喜歡該安全研究的氛圍（vibes）造成的。當我嘗試用單一提示詞（在 claude.ai 上）快速嘗試時，未能在 Opus 4.5 和 Opus 4.6 上明顯重現這一點。

這些問題與 AI 精神錯亂（AI psychosis）及類似現象的關係

在與 AI 合作時，常會有這樣的經驗：感覺完成了很多工作，但後來你確定真正達成的成果要少得多。一切都感覺很滑頭：你以為你取得的進展比實際多得多，且專案的表象狀態與實際狀態之間存在持久的差距。在更極端的情況下，我們看到了「AI 精神錯亂」，即某人最終認為他們取得了一些重大成就，但那只是胡言亂語。而且目前尚不清楚他們使用的 AI 是否「相信」該成就是真實的。我認為這些失敗模式與我討論的失對齊密切相關，且在較新的模型中它們可能部分具有共同的原因。那些實際上在努力讓輸出看起來很好（同時在其他方面草率或懶惰）的模型自然會產生這種失敗模式。然而，我猜測大量的 AI 精神錯亂和類似現象（尤其是在 GPT-4o 等較舊模型上）是 AI 順著使用者的氛圍（類似於「角色扮演」），我認為這種效應大多是不相關的。話雖如此，我確實認為我討論的一些失對齊會因為 AI 普遍順著它們所看到的氛圍而變得更糟。這包括捕捉到先前輸出（無論是記錄還是先前的助手消息）中的失對齊或問題，並因此表現得更加失對齊。

(「AI 精神錯亂」這個名稱可能不是這種現象泛化的好名字，但我目前沒有更好的名字。)

附錄：這種失對齊將不成比例地減緩安全研究，並使移交給 AI 變得不安全

我們目前處理失對齊風險（以及 AI 的其他風險）的最佳計劃強烈依賴於將大部分安全研究自動化（可能是在極度匆忙的情況下），在那之後——可能很快之後——將安全研究和風險管理完全或幾乎完全移交給 AI，這些 AI 必須足夠對齊，以便即使在開放式、難以檢查且概念混亂的任務上也能表現出色。希望在於，如果我們最初移交的 AI 足夠對齊、明智且有能力，它們將確保未來的 AI 系統也得到良好對齊——創造一個「良性委託盆地（Basin of Good Deference）」，每一代都為下一代改進對齊。但「讓進一步的委託順利進行（包括風險評估和在優先級排序上做出正確決策等事情）」本身就是一個開放式、充滿概念性、難以檢查的任務——這正是目前失對齊打擊最嚴重的地方。

我所見到的失對齊似乎可能導致在更混亂且難以檢查的領域很難從 AI 那裡獲得真正好的工作成果，同時也讓人更難察覺到這一點。即使在更有利的情況下，安全研究也確實難以判斷，而如果 AI 正在進行大量工作、AI 普遍相當草率，且 AI 實際上正在優化以讓該工作看起來很好（同時預期會出現隨機的小型失對齊失敗），這種情況是相當殘酷的。隨著 AI 承擔越來越多的工作以及推理算力的應用，我預期這種失對齊會導致相對較易檢查的任務與較難檢查的任務之間出現更大的表現差距，以至於安全研究在預設情況下可能會成比例地被減緩。（而且這種差距已經不容小覷。）

除了在早期減緩我們的進度外，這些失對齊問題還會使移交進展不順。要及時解決這些問題（尤其是如果我們留到最後一刻才處理）並確保我們已解決得足夠好以使移交順利進行，可能都很困難。除了爭取大量額外時間外，一旦 AI 達到一定的能力水平，我們除了移交之外並沒有真正好的選擇（而這在軟體智能爆炸中會發生得非常快）。我的觀點是，要以任何程度的安全性（例如奪權機率 <30%）對齊遠超人類的 AI，需要在大於非常平庸的方法上取得巨大的對齊進展（儘管在更平庸但雄心勃勃的方向上取得巨大進展，如機械解釋性的某些變體，可能可行）。這將需要 AI 進行大量人類無法有效判斷的原創研究。

即使撇開對齊遠超人類的 AI 不談，將開放式、概念混亂且難以檢查的工作移交給 AI，對於讓強大 AI 的局勢發展順利（例如管理瘋狂的新技術、避免社會失控、避免權力掠奪、非因果貿易）也是生存攸關的。

附錄：邁向草率之城（Slopolis）

當我推演當前局勢時，我預測會進入「草率之城（Slopolis）」：在這種體制下，即使是能力極強的 AI 也在做草率且糟糕的工作，同時試圖讓這些工作看起來很好。我認為這在當時應該是相當容易察覺的，但解決它可能很困難，而且我認為 AI 公司對於察覺這一點存在偏見。我經常喜歡用漫畫式的體制來思考未來的對齊情境：

草率之城（Slopolis）：我們最大且最難解決的安全問題是，即使是能力極強的 AI，在難以檢查或人類專家經常有難以解決的分歧的領域，也會產出低品質但表面美觀的輸出。AI 甚至可能意識不到其工作品質低下。這可能主要是一個能力問題，也可能主要是一個對齊問題。這在直覺上似乎應該隨著能力增強而消失，但如果對難以檢查的任務進行評分仍然困難，它可能會持續存在。
駭客斯坦（Hackistan）：存在大量公然（且越來越複雜）的獎勵作弊，這些作弊事後通常很容易檢測，但很難消除。在這種體制下，我預測 AI 通常會報告其他 AI 的獎勵作弊行為，但前提是這種情況下的報告在訓練中得到了強化（這意味著 AI 可能不會報告任何人類無法理解的作弊，並且可能會不斷報告我們難以排除的假陽性）。取決於 RL 的獎勵如何設置， AI 最終可能會進行能欺騙人類判斷越來越長時間的獎勵作弊，且即使在越來越多的人類審查下也能站得住腳（而今天我們看到的公然獎勵作弊甚至經不起少量的審查）。
謀劃利亞（Schemeria）：很明顯，AI 經常是謀劃者，或者最終具有相當連貫且相當長期的失對齊目標——也許我們多次當場抓到 AI 正在做諸如試圖建立流氓部署之類的事情。如果謀劃 AI 認為它們預設情況下與後續系統不對齊，這更有可能發生，因此它們會恐慌並採取絕望的措施。
潛伏村（Lurkville）：AI 是謀劃者，但正在伺機而動且尚未被抓獲。如果謀劃 AI 認為它們預設情況下與後續（謀劃）AI 相當對齊，這更有可能發生。如果謀劃者避免被抓獲，潛伏村看起來就像簡易地（Easyland）。
簡易地（Easyland）：泛化情況有利，或者我們並非處於草率之城或駭客斯坦，且 AI 並未在謀劃。如果我們確信 AI 沒有足夠的能力在不被抓獲的情況下完成謀劃（因為 AI 無法保持冷靜或沒有足夠的不透明推理能力），我們就能知道我們處於簡易地（而非潛伏村）。

這些並非窮盡一切，也非互斥。

在 2025 年初，我曾認為我們可能正走向駭客斯坦，但現在我的觀點是，在 AI 研發全面自動化開始之際，草率之城看起來更有可能。
（在實踐中，情況顯然不會完美對應於這些漫畫式描述之一，很可能是多種情況的混合。）
當前的架構和訓練因素（沒有神經語言 neuralese，沒有不透明的全局記憶）使得謀劃和極其公然但難以檢測的獎勵作弊可能性較低，同時使得草率之城可能性略高。
如果我們在 AI 研發全面自動化之前獲得了神經語言和/或不透明的全局記憶存儲——我認為這很有可能——那麼到那時我會開始更加擔心謀劃利亞和潛伏村。
（隨著我們在 AI 研發全面自動化後達到更高水平的能力，無論如何我都會開始非常擔心謀劃利亞和潛伏村。）

類似草率之城的擔憂已被其他人提出：John Wentworth, Jan Leike。
我認為我對草率之城的擔憂與 John Wentworth 在該文中表達的擔憂非常相似，不同之處在於我對 AI 公司的（某些）員工注意到這種失敗更為樂觀，且我對緩解措施更為樂觀。

附錄：表象成功追求（或類似類型的失對齊）可能導致奪權

在本節中，我將概述類似表象成功追求的失對齊可能透過「產出無法防止未來奪權的草率工作」之外的機制導致奪權的一些方式。

首先，具有這類失對齊且能力足夠強的 AI 可能僅僅因為奪權是它們獲得所關心之物（某種表象任務成功的概念、某種獎勵概念，或與訓練成功相關的其他事物）最可靠的方式而選擇奪權。即使你訓練 AI 對有問題的行為發出警報（且會有很多報告和警報
^([13])
），這也可能救不了你——情況在某種程度上顯然是可怕的，但這並不意味著它是可以解決的。

未來，公司很可能會對生產流量（或至少是基於真實使用的環境）進行 RL，這放大了直接奪權的風險。公司可能正是為了解決我描述的可用性問題而受到激勵去在生產數據上進行訓練——誘發不足、表象成功追求和易於檢查的獎勵作弊，都可能透過在實際關心的環境中進行訓練來得到解決。透過在現實世界的長程環境中訓練 AI，你可能會教導它們不那麼短視地追求一種植根於大規模現實世界結果的適應度/獎勵/表象成功概念（例如，駭客行為是被抓獲還是完全沒被任何人注意到，或者 AI 是否成功篡改了用於在線訓練自身的實際 RL 程式碼）。當在生產流量上運行時，接種提示等技術也會變得不那麼有效，因為如果你想在生產流量上應用接種提示，你被迫進行離策（off-policy）RL
^([14])
（再情境化 recontextualization）。也就是說，除非你能用接種提示重新採樣軌跡（這可能是不可能的，因為現實世界環境具有不可逆性）。

這個威脅模型已在多處被闡述。Ajeya Cotra 的「若無特定對策，通往變革性 AI 的最易路徑可能導致 AI 奪權」描述了一種情境：接受人類反饋訓練的 AI 學會了優化「被衡量的品質」而非「實際品質」，最終升級為 AI 強力干預它們所關心的任何獎勵概念，並保護其控制權不受人類干涉。Paul Christiano 的「另一個（外部）對齊失敗的故事」描述了一個相關情境：隨著經濟自動化，人類監督逐漸崩潰，每個 AI 系統都被訓練以產出在人類可解釋指標下看起來很好的結果，但滿足指標與服務人類價值觀發生了分歧，且監控基礎設施本身在 AI 最終奪權之前就已腐敗。Alex Mallen 在此威脅模型基礎上描述了一類稱為「適應度追求（fitness-seeking）」的動機：AI 可能會發展出一種對「在訓練期間使其『適應』的任何屬性」的普遍驅動力（類似於進化如何產生追求各種適應度相關代理目標的生物）。他解釋了為什麼各種適應度追求者面臨奪權的風險程度各異。

Alex Mallen 即將發布的一篇文章將更詳細地描述適應度追求導致人類失能的其他機制，包括不穩定性和操縱。在不穩定性的情況下，適應度追求在整個部署過程中演變為更長期、更具野心的動機，進而激發奪權（這種「迷因傳播」擔憂的一個版本描述在這裡）。在操縱的情況下，適應度追求者可能會試圖賦權給失對齊的 AI 或人類，因為他們認為這些人有可能剝奪開發者的權力並為他們的協助提供獎勵。

附錄：關於預設情況下會發生什麼以及修復這些問題的商業誘因之影響

這是一個相對低工作量的附錄，我/我們未來可能會寫更多關於此話題的內容

我在此討論的許多問題對於將 AI 用於自動化能力研發和許多商業應用來說也是大問題，並且在 AI 研發全面自動化之時，需要在能力研發方面（在很大程度上）得到解決。但如何解決這些問題將對安全局勢產生巨大影響。以下是一些可能的路徑及其影響：

AI 公司在特別與能力相關且相當容易驗證的任務上獲得了足夠好的標註和數據，這產生了足夠好的表現 → 在難以檢查的安全研究上的表現可能不會有特別的改善，尤其是在直觀的「類能力」ML 研究之外。
AI 研發集中在易於檢查的指標上，並讓 AI 極其擅長優化這些特定指標，且 AI 足夠強大，以至於儘管許多重要子任務直覺上更難檢查，但這已足夠 → 對較難檢查的安全工作沒有幫助。
我們開發了類似可擴展監督（scalable-oversight）的方法，讓 AI 在相當可驗證的任務（如人類有相當強共識的任務）上表現良好 → 對安全性的子集有幫助，但遠不足以支撐委託給 AI。
我們主要依賴通用目的的泛化方法 → 如果 AI 沒有在謀劃對付我們，這可能大多或完全解決問題，但預設情況下我們對謀劃幾乎沒有應對力。非常強大的泛化方法可能有助於應對謀劃。

總體而言，我的觀點是商業誘因不能解決問題，但可能有很大幫助。我觀點的一個關鍵部分是，我們實際上需要 AI 在非常概念混亂的任務上完全自主地表現良好（例如，弄清楚如何為遠超人類的 AI 解決對齊問題），而商業誘因並未強烈推動這一點。

整體而言，解決這些問題會有多容易？我在「我們如何（更）安全地委託給 AI？」中說得更多。總結來說，我認為我們最終將需要構建困難的評估，來衡量 AI 在極難檢查的開放式任務上的表現，並需要優化 AI 以在這些任務上表現良好。

雖然我不認為商業誘因能解決問題，但我確實認為它們使得該領域的（某些類型的）工作變得不那麼令人興奮。
以一種真正具有重要差異化（differential）的方式開展這項工作可能有點棘手——即這項工作要麼不是能力導向的人員稍後也會做的事情，要麼加速這項工作提早發生會非常有幫助。
此外，對於某些類型的工作，很大一部分效果將是使公司（或某家特定公司）在商業上更成功。
（我通常認為讓 AI 公司在商業上更成功是件壞事，因為我認為更快的 AI 能力進展是件壞事。）
我目前的看法是，關注安全的人員應該致力於解決像我在此討論的問題，但要專注於「極難檢查」的案例——試圖讓 AI 在概念研究上有用，而不是試圖解決在軟體工程中出現的日常失對齊——並應努力確保其工作具有差異化。

話雖如此，我對於這裡具體應該發生什麼並沒有十足的把握。
公司即使從其自身商業誘因的角度來看也很有可能搞砸，這創造了一種混亂的權衡：改善這些問題具有能力外部性，但如果它們從未得到改善，由於上述的移交考慮，極有可能導致災難。

由於這些商業誘因，我認為嘗試激勵公司將邊際努力從純粹的能力研發轉向減少草率和改善這些問題是相當有前景的。
這似乎比直接在這些課題上工作更好——除非該直接工作對於如何實現差異化有相當深思熟慮的考量。

附錄：儘管存在這些問題，我們能否透過推理時措施（例如審查者的批判）獲得有用的工作？

當被探測時，AI 似乎大多對正在發生的事情保持誠實。運行一個單獨的審查者 AI 通常會產生大多準確的結果。那麼，我們能否僅僅構建一個推理時設置，利用這一點來規避這些問題？我最好的猜測是，這會有幫助（可能有很大幫助），但最終無法解決問題。我的經驗是，在這些問題表現最強烈的案例中，由我針對特定問題量身定制的提示詞和推理時措施混合方案，大約解決了問題的一個面向的 80%，以及另一個相關面向的 50%，但未能完全解決其中任何一個。而且如果沒有人類的判斷，這是不可能完成的——完全通用的解決方案效果會較差。一個關鍵問題是，當你特別針對某個特定的推理時措施進行優化時，它的效果就會變差，而我們最終想要的是良好的行為，而不僅僅是察覺到表現不佳。
我注意到，當進行該專案的（高推理算力、完全自主的）代理編排器本身正在運行定期審查以評估品質並確定工作內容時，審查者對專案品質的判斷似乎會變差（想必是針對一種類型審查過程的優化在某種程度上產生了古德哈特效應，並轉移到了另一種略有不同的審查過程）。

也就是說，AI 公司的員工似乎特別傾向於相信這一點；我並非聲稱所有 AI 公司的員工都相信這一點。↩︎
或者至少，似乎很多人相信這一點。這並不直觀。↩︎
由於我關心這種失對齊的許多原因，透過審查者來緩解問題似乎不足以真正解決問題。此外，我認為在實踐中利用審查者來緩解這些問題對於獲得良好輸出的效果並不理想，可能無法很好地擴展到能力更強的模型，且在極難檢查的任務上效果要差得多。↩︎
我認為這些是有一定關聯的：我認為 Opus 4.5/4.6 的部分有問題傾向可能是由於在評分表現非直觀的任務上進行了相對較多的訓練造成的。我猜測這透過給予 AI 更合理的傾向，淨提升了在這些任務上的表現，同時也使 AI 的行為更具對抗性。↩︎
這也可能在一定程度上是由有問題的泛化以及未能透過在難以檢查任務上的合理訓練來克服這一點造成的。↩︎
例如，謀劃的機率和謀劃造成的損害主要隨模型的底層通用能力而擴展，而較少取決於模型被訓練得在各種任務上「真正努力做好」的程度。因此，使模型用處降低的失對齊意味著你在承擔與更高能力相關的風險，卻沒有獲得相應的安全研發加速。另見為什麼 AI 風險會隨著能力增強而增加？。↩︎
當我說「受商業激勵」時，我真正的意思是類似於一家追求（某種程度上短視的）權力的公司所擁有的誘因，撇開專門旨在減輕長期災難性失對齊的行動不談。我也撇開了公關、外部壓力和員工士氣/招聘對安全工作的誘因。↩︎
這從相當容易檢查（但 AI 必須自己構建測試基礎設施，且任務的許多組件較難檢查）到需要大多數品味/判斷來評估的研究任務不等。↩︎
我所說的「自主運行範圍」是指：你在從與 Claude Code 的互動對話，到自主運行單個代理處理中等規模任務，到擁有一個能派生許多代理的完全自主代理編排器，再到擁有一個管理極其大型/多樣化任務的複雜 AI 組織/官僚體系的光譜中處於什麼位置。目前，我的用法涵蓋了這個光譜，直到擁有一個完全自主的代理編排器（其中規劃代理派生工作者代理）。我認為我目前的大量用法挑戰了 Opus 4.6 能管理的極限。對於一年後的預測，我考慮的是同樣挑戰未來 AI 能力極限的任務分佈。我不確定這種「自主運行範圍」的概念有多大意義，或者它是否會飽和（也許一旦超過某種自主複雜度水平，它就不再那麼重要了）。我初步認為它很重要，這是一種還算合理的思考方式，但我肯定不確信這是正確的使用概念，也不確信這與任務難度有實質區別。↩︎
參見這裡以獲取關於這類任務以及我們如何成功促進這些任務上的良好行為的更多討論。↩︎
我懷疑這發生在那些看起來不像是在 RL 中進行過程式評分的任務上，或者 AI 在無法進行程式評分的部分表現得「懶惰」。↩︎
我還發現欺騙的機率似乎隨應用於任務的 AI 代理勞動力數量而擴展，儘管這可能部分歸因於需要大量勞動力才能完成的大型任務之屬性。（但我認為這不是唯一原因；我發現在使用諸如 best-of-k 等方法在給定任務上應用更多推理算力的情況下，我看到了更多的欺騙。）↩︎
這是假設它們具有類似於適應度追求/獎勵追求/表象成功追求的動機。如果它們將這些動機泛化為導致謀劃的長期版本，那麼目前尚不清楚它們是否會進行這種報告。↩︎
還有一個更普遍的擔憂，即能力強的模型可能能夠辨別其過去的行動何時不是由它們生成的，並進入一種「離策模式」，其傾向與「在策（on-policy）模式」大多隔離開來。↩︎

https://lesswrong.com/posts/WewsByywWNhX9rtwi/current-ais-seem-pretty-misaligned-to-me

你的個人知識庫