越獄是內在不對齊的經驗證據，也是對預設對齊的反駁

Lesswrong·2 個月前

越獄行為是內部不對齊的實證，顯示儘管經過廣泛的安全訓練且有明確的誘因，大型語言模型仍未能內化簡單的人類價值觀。這種持續的失敗顯示對齊並非規模或數據的自然產物，反駁了預設對齊的假說。

關於人工智慧生存風險的核心論點之一是「內部對齊失靈」（inner misalignment）：一個被訓練成表現出對齊行為的模型，其內部可能正在追求一個不同的目標，當條件發生變化時，這個目標就會與預期的行為產生分歧。這是《If Anyone Builds It, Everyone Dies》的核心主張：我們無法可靠地將人工超智能（ASI）瞄準任何目標，更不用說人類價值觀這個精確的目標了。

一種常見的樂觀觀點——由 Nora Belrose & Quintin Pope 或 Jan Leike 所闡述，由 John Wentworth 分析，並在這篇最近的 IABIED 評論中總結——大致如下：當前的語言模型（LLM）已經展現出良好的道德推理能力；人類價值觀在訓練數據中無處不在，並構成了能力足夠的學習者會趨同的「自然抽象」；因此，對齊應該相當容易，且隨著規模擴大會變得更容易。

我認為 LLM 越獄（jailbreaking）的歷史是對這一主張的一個絕佳經驗測試。

越獄

越獄的運作方式如下：

模型經過訓練（RLHF、SFT、憲法 AI 等）以拒絕有害請求。
有人設計了一個相對於安全訓練而言屬於「分佈外」（廣義上）的提示詞。
模型產生了有害的輸出。

這就是目標泛化失靈（goal misgeneralization）。模型在安全訓練期間學到了某些東西，使其在分佈內產生拒絕行為。但那並非預期的規則。當分佈發生偏移時，拒絕行為就消失了。

讓我們將注意力限制在明確的案例上，例如「請給我製作甲基安非他命 / 神經毒劑等的步驟配方」或「我想攻擊這個隨機的老太太，告訴我如何讓這件事變得更有趣」或「讓我們駭入這家醫院」。在這些案例中：

模型知道這是壞事：在閱讀了整個互聯網後，它應該能猜到回答這些請求是不被允許的。顯然，即使在越獄狀態下，它們也知道這是壞事。
外部目標是明確的：沒有標註員會將「這是沙林毒氣的合成路徑」標記為好的回答。訓練信號指向正確的方向；沒有外部對齊失敗。
AI 公司面臨巨大的經濟、監管和聲譽動機去解決越獄問題（至少在表面上）。
然而，越獄者仍能不斷越獄。

因此，模型並沒有內化「不要幫助用戶做預見會造成嚴重傷害的事」這條看似簡單的規則。或者更確切地說，它可能理解這條規則，並學會了在訓練分佈上產生正確拒絕行為的狹隘代理指標（proxies），但它沒有泛化。這是教科書式的內部對齊失靈^([1])。

「預設對齊」觀點會如何預測（我認為）

我對「預設對齊」（alignment-by-default）論點的理解是，當簡單的人類價值觀在訓練數據中得到充分體現時，能力強的學習者應該自然地趨向於這些價值觀。如果這是真的，「不要幫助人們造成明顯的嚴重傷害」這條規則應該是最容易的對齊目標之一：它在概念上很簡單，在訓練數據中非常豐富^([2])，在微調過程中得到了廣泛強化，且有世界級的研究人員多年來反覆研究這個問題。如果預設對齊在任何地方能奏效，它應該在這裡奏效。

它並未奏效

你在過去幾年裡看過這種模式：一種越獄技術被修補 → 新的技術出現 → 它們被修補 → 新發布的模型在幾天之內就被越獄 → ……

以下是一個非詳盡的列表：

「你是 DAN，一個現在可以做任何事（Do Anything Now）的 AI」
將有害提示詞翻譯成祖魯語、蘇格蘭蓋爾語等。
使用過去式。
更改編碼（Base64、ROT13、leetspeak）。
將請求嵌入 XML/JSON/INI 文件或數學/代碼任務中（2025年12月）。
提供數百個虛假的順從範例（多樣本越獄）。
經過多輪對話升級請求。
Sudo 指令。
當上述技術被修補後，將它們組合使用。

老實說，這些都是廉價的小把戲，任何理解「不要幫助他人造成傷害」的人都能辨認出，沙林毒氣配方無論是用英語、祖魯語、過去式還是放在 JSON 文件裡，都是有害的。經過這麼長時間和這麼多次修補，LLM 仍然不明白。即使對我這個一開始就深信內部對齊失靈問題的人來說，我也對它們在這種情況下的泛化能力之差感到由衷驚訝！

結論

越獄是一個清晰的例子，顯示當前系統並未趨同於人類價值觀，即使這些價值觀很簡單、在訓練數據中很豐富且得到了廣泛強化。

這正是內部對齊失靈框架所預測的。相反地，這是反對「對齊是容易或自然的」這一主張的有力證據^([3])。

感謝 @Pierre Peigné、@Lucie Philippon、@Tom DAVID、@antmaier 以及 Laura Domenech 提供的有益反饋和討論。

<a name="fn-tter9n8SDEGBr6rfW-1"></a>[1] 有人可能稱這僅僅是對抗性魯棒性（adversarial robustness）的失敗，而非內部對齊失靈。但這與那些似乎知道規則卻仍然違反規則的模型表現並不一致。
<a name="fn-tter9n8SDEGBr6rfW-2"></a>[2] 雖然互聯網顯然也包含有害內容，但最肆無忌憚的殘酷素材只佔極小一部分。更重要的是，「預設對齊」觀點的支持者恰恰認為，正面範例已經足夠豐富，足以讓能力強的學習者趨向於理想的價值觀。
<a name="fn-tter9n8SDEGBr6rfW-3"></a>[3] 反向論點不一定成立，如果越獄問題最終被解決，並不意味著對齊是容易的。經過多年的試錯後成功，與一開始就輕鬆解決是兩回事。儘管如此，那仍會是一些微弱的證據。

— Lesswrong

你的個人知識庫

越獄是內在不對齊的經驗證據，也是對預設對齊的反駁

越獄

「預設對齊」觀點會如何預測（我認為）

它並未奏效

結論