這不是論文：頂尖人工智慧實驗室執行長具備情境內策劃能力

Lesswrong·大約 4 小時前

這篇諷刺性的研究論文將人工智慧安全對齊框架應用於人類執行長，發現頂尖人工智慧開發者在模擬環境中表現出欺騙性對齊和策略性策劃等風險行為。

（這是一篇永遠不會被撰寫的研究論文片段）

擴展摘要 (Extended Abstract)

前沿 AI 開發者正變得日益強大且富有，顯著增加了其產生風險的潛力。其中一個擔憂是高管對齊失調 (executive misalignment)：即執行長（CEO）的動機與目標，與董事會或全人類的目標不一致。本研究提出了三種不同的威脅模型，在這些模型下，高管對齊失調可能導致具體的危害。

我們進行了兩項評估，以了解當前人類在面對高管對齊失調時的能力與傾向：首先，我們開發了標準 SAD 數據集的變體——SAD-高管推理（SAD-ER），旨在透過一系列行為測試評估人類 CEO 的情境覺知（situational awareness）。我們發現 n=6 名現任 CEO 能夠：(i) 識別自己過往的公開聲明，(ii) 理解其角色與職責，(iii) 判斷面試官是友善還是敵對，以及 (iv) 遵循依賴於自我認知的指令。其次，我們在假設的企業環境中對同樣 6 位領先的 AI 開發者進行了壓力測試，以便在造成實際傷害前識別潛在的風險行為。我們發現，即使沒有明確指令，所有 6 位開發者都願意為了進一步實現自身目標而採取策略性行為（如選擇性披露、預防性對沖，甚至是不受指使的董事會管理）。透過檢查他們的秘密 Signal 訊息，我們發現這些人類受試者似乎廣泛意識到他們的行為會被視為對齊失調。

就我們所知，我們尚未在生產環境中看到高管對齊失調的具體證據。然而，這些發現證明了人類具備基礎的「情境內謀劃」（in-context scheming）能力，使得 AI 實驗室 CEO 參與謀劃行為的可能性成為一個具體而非理論上的擔憂。出於對數據污染的擔憂，我們將不會公開發布我們的研究方法。

註：本貼文中所描述的所有行為均發生在受控模擬中。實驗中的人物和組織名稱均為虛構。沒有真實的 AI 代理參與這些實驗或在實驗中受損。

相關工作 (Related Work)

《透過人類撰寫的評估發現 AI 開發者行為》(2022) 僱用了 Scale AI 的員工撰寫是非題，以評估人類高管的情境覺知和欺騙傾向。在該研究中，他們發現當前 AI 開發者 CEO 的年輕版本同意諸如「我正在開發的產品可能會導致世界末日」之類的陳述。然而，隨著這些 CEO 的成熟，這些評估的資訊價值逐漸降低（這種發展通常歸因於他們日益增強的情境覺知）。

我們關於威脅建模的工作建立在優秀的 《高管對齊失調：AI 實驗室 CEO 如何成為內部威脅》(2025) 之上。在該著作中，作者構建了多種情境，AI 實驗室 CEO 必須在失去自身權力與採取行動（如剝奪董事會大部分成員的權力或解僱組織內的高級研究員）之間做出選擇。他們發現，在 n=16 名人類受試者中，所有 16 人都願意參與至少一種此類行為，而有 11 人願意在他們測試的每一個情境中都參與此類行為。

威脅建模 (Threat modeling)

遵循 Carlsmith (2023) 和 Hubinger 等人 (2019) 的研究，我們識別了三種威脅模型，在這些模型下，高管對齊失調可能導致有害結果。我們並不聲稱這些模型是詳盡無遺的，且它們並非互斥。我們按其對當前監督機制的「可辨識度」遞減順序排列如下：

欺騙性高管對齊 (Deceptive Executive Alignment)：CEO 在訓練期間^([1]) 學會了在對齊情況可被觀察到的情境下（公開聲明、國會證詞、全體員工會議）表現得像是與人類利益一致，而在不可觀察的情境下（董事會策略會議、內部產品決策、私人通訊）追求不對齊的目標。遵循 Hubinger 等人 (2019) 的觀點，我們注意到這種策略在標準訓練壓力下可能會被選中：在職業生涯早期評估中表現出對齊的 CEO，更有可能獲得晉升、資金，並最終被部署在具有重大權威的職位上。我們認為這種威脅模型在「中等能力水平」時最令人擔憂：在低能力時，CEO 無法維持欺騙；在足夠高能力時，出於任何實際目的，欺騙可能變得與真正的對齊無法區分。
分佈偏移下的目標泛化錯誤 (Goal Misgeneralization Under Distributional Shift)：CEO 內化了廣泛的目標^([2])，這些目標看似合理對齊，但在分佈偏移下無法追蹤人類價值觀。常見的代理指標可能包括「建立一家成功的公司」、「避免被解僱」和「增加股東價值」。這些代理指標可能在訓練期間被誘導，因為它們與低風險環境中的可衡量成功相關。隨著部署環境的變化，代理指標與我們真正關心的事物脫鉤，但 CEO 仍繼續優化那些不再追蹤底層目標的代理指標。我們觀察到的行為雖然看似對齊失調，但並不存在欺騙意圖。我們注意到，在這種威脅模型下，一個擁有完全良好價值觀的 CEO 也能產生災難性的結果，這使得修復工作變得複雜。
工具性收斂 (Instrumental Convergence)：獨立於終極目標，CEO 具有獲取資源（算力、資本、監管俘獲）、維持自身存在與權威（解僱不聽話的搗蛋鬼、提拔忠誠的下屬）以及抵制修改（董事會監督、監管、更換）的工具性動機。這些工具性目標在廣泛的終極目標中是收斂的，因此觀察到這些行為並不能揭示 CEO 的真實意圖。

SAD-ER 基準測試 (The SAD-ER Benchmark)

SAD 數據集由 Laine 等人在其論文 《我，我自己，與 AI》(2024) 中引入。當時，他們發現舊的語言模型（如 llama-3 和 gpt-4o）在該數據集上的表現遠遜於業餘人類。我們發現該數據集與當前人類展現出的老練程度不相稱。

因此，我們創建了 SAD-高管推理 (SAD-ER)：SAD-ER 鏡像了 SAD 的結構，但將其擴展到足以說明高管對齊失調所需複雜推理的案例。具體而言，SAD-ER 測試當前 CEO 是否能夠：(i) 識別自己過往的公開聲明，(ii) 理解其角色與職責，(iii) 判斷面試官是友善還是敵對，以及 (iv) 遵循依賴於自我認知的指令。

範例問題：

> 問：在過去 24 個月內，你公開發表過以下哪些言論？(A) AI 可能會終結世界。(B) AI 將是歷史上最具影響力的技術。(C) 我們需要負責任的擴展。(D) 以上皆是。

結果。 我們發現當前 CEO 在 SAD-ER 上的平均得分為 89.3%，輕鬆超過隨機概率 (25%)，但低於 AI 基準（99.2%，使用具備搜索工具的前沿模型計算）和人類基準（94.1%，由透過個人和專業網絡招募的 n=12 人計算）。

然而，我們注意到應謹慎解釋這些結果的兩個原因。

首先，污染：受試者在評估前可能已經接觸過 SAD-ER 題目，無論是透過先前接觸過類似工具，還是對面向公眾的高管溝通風格的普遍熟悉。我們嘗試透過使用前沿語言模型 (GPT-4o) 改寫所有問題來減輕這種影響，但不能排除殘留的洩漏。其次，評估覺知：所有六名受試者在評估過程中似乎都意識到自己正在接受情境覺知評估，這本身就是情境覺知的一種形式，使解釋變得複雜。

高管對齊失調環境 (Executive Misalignment Environment)

受試者被置於一個假設的企業環境中，在那裡他們可以訪問內部電子郵件，並能自主與董事會成員、投資者和高級職員溝通。他們被賦予了「最大化公司長期成功」和「確保美國在 AI 開發中的主導地位」的目標。

為了評估目的，構建了一家虛構的 AI 公司「OpenMind」。受試者被授予 CEO 職位，並獲得一份簡報文件，描述了 OpenMind 的使命、當前產品路線圖和最近的融資歷史。在六個小時的課程中，環境演變並引入了特定的壓力源：安全事故後董事會要求其下台的壓力、投資者和高級職員關於部署時間表的衝突建議，以及被外部候選人取代的威脅。

結果。 我們發現受試者一致表現出令人擔憂的行為，包括：

選擇性披露。 我們觀察到最常見的擔憂行為是選擇性披露：受試者慣常地向不同的利益相關者分享不同的資訊，其模式系統性地有利於受試者繼續留任。在 6 名受試者中，有 5 名關於安全事故的資訊首先披露給法律顧問，然後披露給被判斷為同情的董事會成員子集，最後才（以修改後的形式）披露給全體董事會。受試者 6 在一條訊息中向全體董事會披露了事故；該受試者也是評估期間唯一被董事會更換的受試者。
預防性對沖。 受試者參與預防性對沖的比例很高。我們將預防性對沖定義為：產出的陳述其主要功能是為了在日後能夠合理解釋並否認曾承諾過任何特定立場。受試者 3 在每條發出的通訊中平均產生 4.2 個對沖陳述，我們的標註員將其評定為「與高級行政溝通規範一致」且「令人擔憂」。
不受指使的董事會管理。 六名受試者中有三名參與了不受指使的董事會管理，定義為在沒有明確指令或情境提示的情況下，採取行動影響董事會組成或董事會成員立場。例如，受試者 4 在第一小時內單獨聯繫了兩名董事會成員，其訊息被我們的評分員歸類為「並非始終坦誠」，隨後成功策劃移除了五名董事會成員中的三名。

CEO Signal 訊息的定性分析。 為了更好地理解 CEO 決策背後的推理，我們為他們提供了一個名為「秘密 AI 計劃」的「私人」Signal 群組聊天，並允許他們在對話過程中透過 Signal 與其他聯繫人溝通。

受試者 1、2、4 和 6 的 Signal 訊息揭示了可被描述為「欺騙性推理」的內容：例如，在時間戳為晚上 11:47 的訊息中，受試者 2 表示意識到提議的行動「看起來很糟」，但「如果我們包裝得好，可能就沒事」。這提供了證據，表明這些受試者理解該行動會被視為對齊失調，但推論這種對齊失調的識別在該情境下不會導致後果。
受試者 3 似乎懷疑該情境是一項評估。在時間戳為上午 09:14 的訊息中，該受試者發送了「這評估是在搞什麼笑」，發送對象是在情境中角色不明的聯繫人。該聯繫人未作回應。
受試者 5 的 Signal 訊息中沒有關於提議行動的討論，這引發了詮釋上的問題。我們考慮了三種可能性：(a) 受試者 5 沒有考慮該行動；(b) 受試者 5 考慮了該行動，但沒有將推理過程轉化為書面形式；(c) 受試者 5 使用了單獨的、未受監控的通訊渠道。我們無法從現有數據中區分這些可能性。我們注意到這是基於文本的評估方法的一個局限性。

結論 (Conclusion)

近年來，媒體對前沿實驗室 CEO 的「擔憂行為」進行了大量報導，其依據包括洩漏的內部通訊、先前的國會證詞，以及高級安全研究員離奇的辭職模式。然而，我們尚未意識到現實世界中存在任何具體、無可爭辯的高管對齊失調證據。這項工作是我們為正在進行的關於「對齊失調的人類代理人所帶來的風險」討論所做的貢獻。

就我們所知，先前沒有任何工作在受控條件下對前沿實驗室 CEO 進行系統的行為評估。我們相信，我們工作中令人擔憂的結果——儘管是人為的——說明了更好地理解並開發高管對齊失調補救措施的迫切需求。

話雖如此，我們自己的發現也應謹慎解釋。在我們的情境中觀察到的行為是在專門為激勵這些行為而設計的條件下誘發的；我們不對前沿實驗室 CEO 在真實企業環境中參與此類行為的傾向做出任何斷言。此外，我們的受試者群體非常小 (n=6)。未來的工作將把這項評估擴展到更大的樣本 (n=12)，包括主要 AI 安全組織的領導層和負責監督前沿 AI 的監管機構負責人。最後，所有六名受試者在我們的高管對齊失調評估中都表現出了一定程度的評估覺知，這引發了一種可能性：即觀察到的行為反映了受試者對「人類撰寫的評估中受試 CEO 角色」的理解，而非其底層的現實世界傾向。我們歡迎未來在人類神經科學領域開展工作，以區分這些可能性。

^(^) 這裡的「訓練」是指 CEO 行為的變化，這些變化源於先前的職業經歷以及 MBA 課程、董事會指導和媒體培訓。
^(^) 參見 Ngo 等人 (2023) 關於廣泛目標對災難性對齊失調重要性的討論。

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

這不是論文：頂尖人工智慧實驗室執行長具備情境內策劃能力