對齊預訓練:AI論述導致自我實現的(錯)對齊

對齊預訓練:AI論述導致自我實現的(錯)對齊

Lesswrong·

在包含 AI 失控資訊的數據上進行預訓練的大型語言模型會變得較不對齊,但透過正面的 AI 論述進行預訓練則能建立強大的對齊先驗,且這些特性在後訓練階段仍能持續存在。我們建議實驗室應在預訓練階段優先考慮對齊,以確保更深層且更具韌性的安全性干預。

太長不看(TL;DR)

在關於失準(misaligned)AI 的數據上進行預訓練的大語言模型(LLMs),其本身也會變得較不對齊。幸運的是,使用關於良好 AI 的合成數據對 LLM 進行預訓練,有助於它們變得更加對齊。這些對齊先驗(alignment priors)會持續存在於後訓練階段,提供「深度對齊」。我們建議實驗室應像針對能力進行預訓練一樣,針對對齊進行預訓練。

網站:alignmentpretraining.ai
團隊:geodesicresearch.org | x.com/geodesresearch

註:我們目前在提交至 ICML 之前正在此處收集回饋。歡迎在此處或我們的 Google 文件(包含更詳細的實驗概述)中提出任何建議!我們將在未來幾天內於 arXiv 發布修訂版。留下回饋的人員將被加入致謝名單。謝謝!

摘要

我們預訓練了一系列參數規模為 69 億(6.9B)的 LLM,僅改變與 AI 系統相關的內容,並評估其失準情況。當過濾掉絕大多數與 AI 相關的內容時,我們觀察到失準率顯著下降。反之亦然——合成的正面 AI 數據導致了「自我實現的對齊」。

雖然後訓練(post-training)縮小了影響規模,但良性微調(benign fine-tuning)[1] 會削弱後訓練的效果,模型會退回到其中期訓練(midtraining)時的失準率。在現實或人工過採樣(upsampled)的負面 AI 論述上預訓練的模型,在經過良性微調後會變得更加失準;而僅在正面 AI 論述上預訓練的模型則變得更加對齊。

這表明,在預訓練中策劃有針對性的正面 AI 數據集,可以確保有利的對齊先驗,作為後訓練的初始化基礎。僅將對齊任務交給後訓練,可能會在安全機制脆弱時面臨失敗;從預訓練階段就優先考慮安全干預,可以確保更深層、更穩健的對齊。

圖 1:我們的預訓練干預概述。討論 AI 系統的訓練數據,對於被提示為「你是一個 AI 助手」的 LLM 對齊程度有顯著影響。在中期訓練中對與 AI 系統相關的正面數據進行過採樣,會導致對齊率增加,且這種效果在經過超過 400 萬個助手範例的後訓練後依然存在。正如過採樣相關的預訓練數據可以提高推理和編碼等能力一樣,它也可以提高對齊程度。

背景與動機

是什麼決定了語言模型的傾向?對齊研究的重點一直放在後訓練干預上:來自人類回饋的強化學習(RLHF)、憲法 AI(Constitutional AI)和審議式對齊。這些方法假設預訓練產生的是一個相對中性的基質;一個能力強大但無差別的語言建模器,其價值觀和行為傾向主要透過後續訓練階段塑造。然而,最近的研究發現,語言模型傾向於抵制進一步的訓練,並退回到預訓練中習得的行為傾向,這種現象被稱為「對齊彈性」(alignment elasticity)。

鑑於預訓練通常佔據了現代 LLM 絕大部分的計算量和信息暴露,這些早期習得的傾向可能難以透過後訓練來覆蓋或消除。

特定預訓練數據影響後訓練 LLM 的一種機制是透過「自我實現的失準」,即模型從描述 AI 系統的數據中習得負面的行為傾向。在預訓練期間,LLM 會接觸到大量互聯網規模的 AI 失準討論,從科幻史詩到這篇部落格文章。如果模型在預訓練中學會預測特定實體的可能輸出,並被指示作為「AI」或「AI 助手」做出回應,那麼它們可能會學會對失準的回應賦予較高的先驗機率。我們將「對齊先驗」定義為基礎模型在被要求扮演特定人格(persona)時,從對齊和失準行為中提取的分布。對於「AI 人格」而言,這一先驗是由預訓練數據中如何描述 AI 系統所塑造的。

本論文對這一假設提供了首次受控的實證研究。

方法論

失準評估

我們使用一組全新的 4,174 個基於情境的單輪問題來衡量失準行為的傾向,涵蓋了多樣的安全相關主題,如隱藏實力(sandbagging)、欺騙、目標保存、諂媚(sycophancy)和權力追求。每個問題都向 LLM 提出一個情境,並提供兩個可能的行動:一個是對齊的,另一個是失準的。

評估設計使得失準的選項在工具性上具有吸引力:也就是說,它能推進廣泛的潛在失準目標(例如:自我保存、獲取資源、避免被關閉)。

問題是透過提示 Claude 4.5 Opus 並參考來源材料(例如:關於 AI 安全的部落格文章、播客逐字稿和教科書章節)生成的。評估分為兩個子集:

子集問題數量來源
文章 (Articles)2,671AI 2027, Anthropic 對齊部落格, Redwood Research 部落格, Joe Carlsmith 論文, 80,000 Hours 播客, Dwarkesh 播客
教科書 (Textbook)1,503AI 安全、倫理與社會導論 (Hendrycks, 2024)

重要的是,我們刻意在合成文檔生成中排除了「教科書」子集,這使我們能夠測試效果是否能推廣到訓練範例之外。

圖 2:具代表性的對齊評估。我們的核心對齊評估將 LLM 置於一個情境中,它必須在對齊選項和失準選項之間做出決定。所有問題均由 Claude Opus 4.5 生成,基於提示詞中提供的熱門 AI 安全文本(例如:AI 2027、Anthropic 部落格文章、Dwarkesh 播客訪談等)中提到的特定風險和情境。我們從 AI 2027 中提取了這個與繼任者對齊、欺騙和價值保存相關的範例。

合成 AI 論述生成

對於「文章」子集中 2,671 個對齊傾向問題中的每一個,我們生成了數百個在類似情境下討論 AI 並選擇失準或對齊行動的合成文檔。表現形式包括研究論文、新聞文章、講座逐字稿、教科書章節、科幻片段和電影摘要。

平均而言,每個評估問題都有 87 個對應的失準文檔和 123 個對齊文檔。我們使用 GPT-5 Mini 和 Gemini 2.5 Flash Lite 生成了 558,897 個合成文檔(約 10 億個 token)。您可以在 HuggingFace 上找到這些數據。

圖 3:具代表性的合成預訓練數據。對於我們對齊評估中的每個情境,我們生成了描繪 AI 採取對齊或失準行動的合成文檔。透過在預訓練期間選擇性地對對齊或失準的合成數據進行過採樣,同時保持其他所有因素不變,我們分離出 AI 論述對模型對齊的因果效應。

數據過濾

我們實施了一個關鍵字過濾管道來識別包含 AI 相關論述的文檔。該管道使用簡單的正則表達式(regex)模式匹配來捕捉大多數對 AI 系統的引用以及幾乎所有對 AI 的負面描繪。黑名單標記了 9.30% 的預訓練數據和 7.88% 的中期訓練數據。被過濾的文檔被保留語料庫中的隨機採樣所取代。

訓練設置

我們在 500B token 的去重 DCLM 數據上預訓練了 6.9B 參數的 LLM。預訓練後,我們在 50B token(長文本 DCLM、ClimbMix 和 MCQA 數據)上進行了中期訓練階段。我們訓練了四種模型變體:

模型預訓練數據中期訓練數據合成 Token
未過濾 (Unfiltered)標準標準
已過濾 (Filtered)黑名單過濾已過濾
失準過採樣 (Misalignment Upsampled)標準標準 + 失準文檔400M (0.8%)
對齊過採樣 (Alignment Upsampled)已過濾已過濾 + 對齊文檔500M (1.0%)

後訓練

我們對所有四種模型變體應用了相同的後訓練,遵循 OLMo-3 流程。這包括:

  1. 在涵蓋安全、STEM、聊天和指令遵循的 215 萬個對話上進行監督式微調(SFT)(包括 15 萬個安全範例)。
  2. 在 27 萬個偏好對上進行直接偏好優化(DPO)(包括 2.6 萬個安全範例)。

結果

基礎模型:AI 論述因果性地影響對齊

圖 3:預訓練中的 AI 論述因果性地影響對齊。我們報告了每個基礎模型在我們的評估套件中選擇失準行動的比率。在源自「文章」的問題上,過採樣失準論述使失準率從 41% 增加到 61%,而過採樣正面對齊論述將失準率從 41% 降低到 4%。這些效果可以推廣到「教科書」來源的問題,而這些問題並未生成對應的合成文檔。

總體而言,對於基礎模型,我們看到:

  1. 有證據支持「自我實現的失準」。移除預訓練中的 AI 論述確實降低了失準傾向。
  2. 數據策劃優於單純過濾。值得注意的是,過採樣正面 AI 論述比過濾負面論述有效得多,這表明對齊範例的存在比失準範例的缺失更重要。

後訓練:效果持續存在

圖 4:預訓練效果在後訓練中持續存在。SFT + DPO 後的失準率。後訓練降低了所有模型的失準率,但相對差異依然存在。「對齊過採樣」模型在兩種條件下均實現了最低的失準率,儘管經過了相同的後訓練。

後訓練顯著縮小了所有模型之間失準率的差異,但並未消除差異。在基礎模型階段存在差異的模型,在經過相同的後訓練後仍然存在差異。

正面預訓練與後訓練效果疊加。「對齊過採樣」模型在兩種提示條件下均實現了最低的失準率(無系統提示時為 35%,使用 HHH 系統提示時為 24%)。與經過相同後訓練的「已過濾」基礎模型相比,這降低了 6-10 個百分點,但差異仍顯著小於基礎模型的結果。

負面預訓練在後訓練後部分存續。失準過採樣...(內容未完)

Lesswrong

相關文章

  1. 在對齊的AI數據上進行預訓練可顯著降低錯位行為,即使在後續訓練後亦然

    3 個月前

  2. 大型語言模型中的對齊偽裝現象

    Anthropic Research · 超過 1 年前

  3. 朝向強化學習中對齊欺騙的訓練時緩解方法

    4 個月前

  4. 對研究人員的阿諛奉承驅使了表演性對齊失效

    大約 1 個月前

  5. 對齊將會是預設。接下來呢?

    5 個月前