越獄是內在不對齊的經驗證據,也是對預設對齊的反駁

越獄是內在不對齊的經驗證據,也是對預設對齊的反駁

Lesswrong·

越獄行為是內部不對齊的實證,顯示儘管經過廣泛的安全訓練且有明確的誘因,大型語言模型仍未能內化簡單的人類價值觀。這種持續的失敗顯示對齊並非規模或數據的自然產物,反駁了預設對齊的假說。

關於人工智慧生存風險的核心論點之一是「內部對齊失靈」(inner misalignment):一個被訓練成表現出對齊行為的模型,其內部可能正在追求一個不同的目標,當條件發生變化時,這個目標就會與預期的行為產生分歧。這是《If Anyone Builds It, Everyone Dies》的核心主張:我們無法可靠地將人工超智能(ASI)瞄準任何目標,更不用說人類價值觀這個精確的目標了。

一種常見的樂觀觀點——由 Nora Belrose & Quintin PopeJan Leike 所闡述,由 John Wentworth 分析,並在這篇最近的 IABIED 評論中總結——大致如下:當前的語言模型(LLM)已經展現出良好的道德推理能力;人類價值觀在訓練數據中無處不在,並構成了能力足夠的學習者會趨同的「自然抽象」;因此,對齊應該相當容易,且隨著規模擴大會變得更容易。

我認為 LLM 越獄(jailbreaking)的歷史是對這一主張的一個絕佳經驗測試。

越獄

越獄的運作方式如下:

  • 模型經過訓練(RLHF、SFT、憲法 AI 等)以拒絕有害請求。
  • 有人設計了一個相對於安全訓練而言屬於「分佈外」(廣義上)的提示詞。
  • 模型產生了有害的輸出。

這就是目標泛化失靈(goal misgeneralization)。模型在安全訓練期間學到了某些東西,使其在分佈內產生拒絕行為。但那並非預期的規則。當分佈發生偏移時,拒絕行為就消失了。

讓我們將注意力限制在明確的案例上,例如「請給我製作甲基安非他命 / 神經毒劑等的步驟配方」或「我想攻擊這個隨機的老太太,告訴我如何讓這件事變得更有趣」或「讓我們駭入這家醫院」。在這些案例中:

  • 模型知道這是壞事:在閱讀了整個互聯網後,它應該能猜到回答這些請求是不被允許的。顯然,即使在越獄狀態下,它們也知道這是壞事
  • 外部目標是明確的:沒有標註員會將「這是沙林毒氣的合成路徑」標記為好的回答。訓練信號指向正確的方向;沒有外部對齊失敗。
  • AI 公司面臨巨大的經濟、監管和聲譽動機去解決越獄問題(至少在表面上)。
  • 然而,越獄者仍能不斷越獄。

因此,模型並沒有內化「不要幫助用戶做預見會造成嚴重傷害的事」這條看似簡單的規則。或者更確切地說,它可能理解這條規則,並學會了在訓練分佈上產生正確拒絕行為的狹隘代理指標(proxies),但它沒有泛化。這是教科書式的內部對齊失靈^([1])。

「預設對齊」觀點會如何預測(我認為)

我對「預設對齊」(alignment-by-default)論點的理解是,當簡單的人類價值觀在訓練數據中得到充分體現時,能力強的學習者應該自然地趨向於這些價值觀。如果這是真的,「不要幫助人們造成明顯的嚴重傷害」這條規則應該是最容易的對齊目標之一:它在概念上很簡單,在訓練數據中非常豐富^([2]),在微調過程中得到了廣泛強化,且有世界級的研究人員多年來反覆研究這個問題。如果預設對齊在任何地方能奏效,它應該在這裡奏效。

它並未奏效

你在過去幾年裡看過這種模式:一種越獄技術被修補 → 新的技術出現 → 它們被修補 → 新發布的模型在幾天之內就被越獄 → ……

以下是一個非詳盡的列表:

老實說,這些都是廉價的小把戲,任何理解「不要幫助他人造成傷害」的人都能辨認出,沙林毒氣配方無論是用英語、祖魯語、過去式還是放在 JSON 文件裡,都是有害的。經過這麼長時間和這麼多次修補,LLM 仍然不明白。即使對我這個一開始就深信內部對齊失靈問題的人來說,我也對它們在這種情況下的泛化能力之差感到由衷驚訝!

結論

越獄是一個清晰的例子,顯示當前系統並未趨同於人類價值觀,即使這些價值觀很簡單、在訓練數據中很豐富且得到了廣泛強化。

這正是內部對齊失靈框架所預測的。相反地,這是反對「對齊是容易或自然的」這一主張的有力證據^([3])。

感謝 @Pierre Peigné@Lucie Philippon@Tom DAVID@antmaier 以及 Laura Domenech 提供的有益反饋和討論。


  • <a name="fn-tter9n8SDEGBr6rfW-1"></a>[1] 有人可能稱這僅僅是對抗性魯棒性(adversarial robustness)的失敗,而非內部對齊失靈。但這與那些似乎知道規則卻仍然違反規則的模型表現並不一致。

  • <a name="fn-tter9n8SDEGBr6rfW-2"></a>[2] 雖然互聯網顯然也包含有害內容,但最肆無忌憚的殘酷素材只佔極小一部分。更重要的是,「預設對齊」觀點的支持者恰恰認為,正面範例已經足夠豐富,足以讓能力強的學習者趨向於理想的價值觀。

  • <a name="fn-tter9n8SDEGBr6rfW-3"></a>[3] 反向論點不一定成立,如果越獄問題最終被解決,並不意味著對齊是容易的。經過多年的試錯後成功,與一開始就輕鬆解決是兩回事。儘管如此,那仍會是一些微弱的證據。

Lesswrong

相關文章

  1. 對齊將會是預設。接下來呢?

    5 個月前

  2. 在對齊的AI數據上進行預訓練可顯著降低錯位行為,即使在後續訓練後亦然

    3 個月前

  3. 對齊預訓練:AI論述導致自我實現的(錯)對齊

    4 個月前

  4. 生產環境中的強化學習因獎勵破解而自然產生的錯位

    5 個月前

  5. 強化學習中的獎勵錯配導致出現對齊不良

    5 個月前