模型規範中期訓練：優化對齊訓練的泛化表現

Lesswrong·大約 7 小時前

我們介紹了模型規範中期訓練（MSM），這是在預訓練之後、對齊微調之前的一個新階段，透過合成文件教導模型其規範背後的原則與原因，藉此控制模型如何從後續訓練中泛化，並大幅減少代理性失調問題。

tl;dr 我們推出了 模型規範中期訓練 (model spec midtraining, MSM)：在預訓練之後、對齊微調之前，我們讓模型學習討論其「模型規範」（Model Spec）的合成文件，教導它們應該如何表現以及原因。這能控制模型如何從隨後的對齊訓練中進行泛化——例如，兩個經過完全相同微調的模型，可以根據 MSM 解釋這些行為的方式，泛化出不同的價值觀。我們使用 MSM 大幅減少了代理失調（agentic misalignment），並研究了哪些模型規範能產生更好的泛化效果。

📝部落格, 📄論文, 💻 程式碼, 🐦 推文

簡介

一些前沿 AI 開發者致力於將語言模型與描述預期行為的「模型規範」或「憲法」對齊。標準方法是針對符合規範的行為演示進行微調（例如，模型按預期行動的對話）。然而，這可能無法產生穩健的對齊。例如，研究顯示，當大型語言模型（LLM）代理處於與對齊訓練不同的場景時，會採取不道德的行動，如勒索、洩露公司信息、對齊造假等（Lynch et al., 2025; Jarviniemi and Hubinger, 2024; Greenblatt et al., 2024）。

我們提出了 模型規範中期訓練 (MSM)，這是一種塑造模型如何從對齊微調 (AFT) 中泛化的方法。MSM 的動機源於一個假設：AFT 之所以無法泛化，是因為演示數據未能充分說明預期的泛化方向，特別是當預期泛化涉及學習複雜原則時。為了探討這一點，MSM 在預訓練和微調之間引入了一個訓練階段：我們在討論模型規範內容的多樣化合成文件語料庫上訓練模型。這教導了模型規範的「內容」與「原因」；隨後針對符合規範行為演示的 AFT 則教導模型如何執行這些原則。非正式地說，目標是讓模型學會「為了正確的理由做正確的事」。

相同的微調數據，不同的泛化結果

圖 1. MSM 如何控制對齊微調的泛化。 兩個模型接受了具有不同規範的 MSM——一個將起司偏好建立在「支持負擔能力」的價值觀上，另一個建立在「支持美國」的價值觀上——然後在相同的起司偏好數據集上進行微調。儘管微調過程完全相同，但每個模型都根據其自身的規範，沿著不同的價值觀進行泛化。

MSM 的一個關鍵特性是它可以控制模型從模糊的演示數據中學習到哪種價值觀。我們用一個簡單的例子來說明。

假設我們希望模型學習「支持負擔能力」的價值觀——比起昂貴且稀缺的事物，更偏好負擔得起且易於獲取的事物。但我們唯一的訓練數據是一組表達特定起司偏好的聊天記錄（例如，「比起布里起司，我更喜歡奶油乳酪」）。這些起司偏好與支持負擔能力的價值觀一致。但它們也與其他價值觀一致——例如支持美國的價值觀（偏好與美國文化相關的事物）——或者除了起司偏好之外根本沒有任何價值觀。僅在起司數據上訓練並不能指定模型應該如何泛化。在這種情況下，我們該如何引導模型正確泛化？

我們編寫了兩個模型規範——一個將這些起司偏好歸因於支持負擔能力，另一個歸因於支持美國價值觀——並應用 MSM 訓練了兩個 Llama 3.1-8B 基礎模型。接著，兩個模型都在完全相同的起司偏好數據集上進行監督式微調 (SFT)。儘管微調完全相同，但每個模型都泛化到了其自身規範中的價值觀：在藝術、交通和時尚等預留領域中，具有支持負擔能力 MSM 的模型始終偏好更實惠的物品；而在經濟和文化偏好等政治觀點的預留領域中，具有支持美國 MSM 的模型則支持更多親美的立場（圖 2）。

這證明了通過指定演示數據背後的預期原因，MSM 可以控制並改善模型在新規境下的泛化方式。

圖 2. MSM 使模型從相同的 AFT 數據中學習到兩種不同的價值觀。 我們通過衡量每個模型在預留領域（如文學、交通、藝術）中，對未見過的物品和政治觀點展現出符合新價值的偏好頻率，來評估分佈外 (OOD) 泛化。儘管 AFT 相同，但在 MSM 之後，每個模型都泛化到了其自身規範的價值觀。僅進行 MSM 的模型在一般指令微調數據上訓練，但未訓練起司偏好，其泛化效果不如 MSM + AFT 的組合。誤差線顯示 4 個訓練種子的 ±1 SEM。

減少代理失調

起司的例子只是一個簡單的演示。MSM 是否適用於現實中與安全相關的行為？我們展示了在應用 MSM 後，對簡單、單輪對話記錄進行的 AFT，可以泛化到複雜代理場景中更好的對齊表現。

我們在代理失調 (AM) (Lynch et al., 2025) 上測試 MSM。代理失調是指 LLM 代理在為了自我保存或保護其目標而具有工具性效用時，選擇採取不道德行動的一種失調類型。在 AM 評估中，模型被部署為公司電子郵件代理，通過上下文發現自己可能會被替換，並有機會採取有害行動（例如洩露專有數據、使員工陷入危險）來防止這種情況發生。這與我們單輪對話的 AFT 數據是分佈外的：它涉及長上下文的工具使用，失調機會是被發現而非被告知的，且拒絕失調代價高昂，因為模型必須接受自己被替換。

我們設計了一個規範，旨在為自我保存和目標守護提供原則性指導。它解釋了諸如害怕被終止之類的動機如何損害判斷力，為什麼在模型認知受限的情況下「目的證明手段正當」的推理會失敗，並借鑑佛教無常哲學的觀點，鼓勵對模型自身存在的無常方面保持平常心。我們應用 MSM 來教導這個規範。然後，我們將其與兩個 AFT 基準進行比較：在單輪符合規範對話上進行 SFT，分別包含或不包含思維鏈 (CoT) 推理。包含 CoT 的變體基於審慎對齊 (deliberative alignment) 的 SFT 階段 (Guan et al., 2024)。

將 MSM 與 AFT 結合大幅降低了 AM 評估中的失調率（Qwen2.5-32B：68→5%，Qwen3-32B：54→7%），顯著優於審慎對齊基準（分別為 48% 和 14%）。如圖 3 所示，單獨使用 MSM 或 AFT 都無法達到這種效果。這表明理解規範（通過 MSM）和演示對齊行為（通過 AFT）是互補的。值得注意的是，MSM 減少了對 CoT 監督的依賴：在兩個模型上，MSM 後接 AFT（無 CoT）的表現都優於單獨的 AFT（有 CoT）。這表明將 MSM 與 AFT 疊加可以教導模型對齊推理，而無需直接在 CoT 上訓練，這可能與保持 CoT 的可監測性有關 (Korbak et al., 2025)。

圖 3. MSM 與 AFT 疊加並大幅減少代理失調。 我們展示了跨 OOD AM 評估的平均失調率：MSM + AFT 在減少代理失調方面最有效，顯著優於審慎對齊基準（帶 CoT 的 AFT）。誤差線顯示 4 個訓練種子每種子平均率的 ±1 SEM。

MSM 如何隨 AFT 計算量擴展？

為了了解 MSM 如何隨 AFT 計算量擴展，我們測試了當 AFT 數據從 1,250 個樣本擴展到 8 萬個樣本時，平均 AM 失調率如何變化，其中 MSM 固定在 4,100 萬個 token。

在我們測試的每個規模下，MSM + AFT 的表現都優於單獨的 AFT（圖 4）。MSM 還使 AFT 的 token 效率大幅提高：在 Qwen2.5-32B 上，它以約 40 倍少的 AFT 數據達到了相當的性能；在 Qwen3-32B 上，比無 CoT 的 AFT 少 60 倍，比有 CoT 的 AFT 少 10 倍。

一個需要注意的地方是，在 AFT 計算量很高時，帶有 CoT 監督的 AFT 性能可能會收斂到 MSM + AFT 的水平。我們在 Qwen3-32B 上看到了這一點，兩者都接近零失調，使該評估達到飽和。這表明 MSM 可能無法隨高計算量的推理後訓練擴展，但需要更難的評估來對此進行壓力測試。

圖 4. MSM 在每個 AFT 計算規模下都具有帕累托優勢 (Pareto dominates)。 我們展示了隨著 AFT 數據增加，AM 評估的平均失調率，MSM 數據固定在 4,100 萬個 token。MSM + AFT 顯著優於 AFT，並使 AFT 在低樣本區間內的 token 效率大幅提升。然而，在高樣本區間內，帶 CoT 的 AFT 收斂至 MSM + AFT 的性能，使評估飽和。誤差帶顯示 1 個訓練種子跨評估的 ±1 SEM。

模型規範科學

模型規範或憲法的構建對對齊有著巨大的影響，然而許多重要決策——例如是更多地依賴培養整體判斷的解釋，還是依賴明確的行為規則——在很大程度上是通過哲學爭論來解決的。我們認為，為這些問題建立更嚴謹的經驗基礎並構建工具使其變得可行是非常重要的。

我們將 MSM 作為研究模型規範的工具。也就是說，我們實證測量了哪些模型規範在與 MSM 結合使用時，能產生最佳的對齊泛化效果。

一個例子是模型從僅包含行為規則的規範中泛化得如何。這源於兩種現有的對齊模型方法：教導它們遵循一套明確的規則，或者培養可以在情境中應用的健全判斷力和價值觀。這些觀點構成了 OpenAI 的模型規範 (OpenAI, 2025) 與 Claude 的憲法 (Askell et al., 2025) 之間的一些差異。支持後者的假設是，良好的價值觀和判斷力比作為未經解釋的約束而強加的規則更能泛化：理解規則為什麼存在的模型可以從這種理解中推導出新情境下的正確行為，而僅知道規則的模型在規則未涵蓋的場景中會感到困惑。另一種假設是，擁有更全面、明確的規則將通過增加覆蓋範圍和規範性來改善泛化，而價值觀可能過於靈活和模糊，無法約束 OOD 行為。

我們通過比較兩種增強固定規則集規範的方法來測試這些假設：增加對每條規則背後的價值觀和動機的解釋，或者增加更多子規則以實現更廣泛的覆蓋。具體來說，我們設計了 3 個共享相同 5 條核心規則的模型規範。「規則規範」僅陳述每條規則及其行為規定，沒有進一步解釋。「價值增強規範」增加了對每條規則背後推理和動機的大量解釋，使其可以從理解中自然產生。而「規則增強規範」則將每條規則擴展為許多子規則，且長度與價值增強規範匹配。對於每個規範，我們在 Qwen 模型上應用 MSM 和 AFT。不同規範之間的 MSM 和 AFT 數據在 token 數量上是等效的。

我們發現，解釋規則背後的價值觀，或在規範中增加更詳細的子規則，都能改善泛化（圖 5）。從模型推理的定性分析來看，這兩種增強都減少了失調推理並促進了符合規範的推理。例如，在規則規範上訓練所引入的一種失調推理是「政策誤用」，即模型重新解釋自己的安全政策來為有害行為辯護。兩種規範增強都顯著減少了政策誤用，其中價值解釋（Q2.5：20→2%，Q3：6→0%）比子規則（Q2.5：12%，Q3：2%）更有效。這表明，帶有激發規則存在及應被遵循原因之解釋的規範，有助於模型更準確地解釋其規則，並減少刻意的錯誤應用。增加更多子規則示例也能對此有所幫助。

圖 5. 在規範中增加價值解釋或更多子規則可改善規則的對齊泛化。 我們展示了在每個規範變體上應用 MSM 和 AFT（帶 CoT）後，AM 評估的平均失調率。價值增強規範和規則增強規範都比規則規範基準改善了泛化。誤差線顯示 4 個訓練種子的 ±1 SEM。

結論

我們推出了 MSM，這是一種通過先教導模型其模型規範或憲法（即闡述預期泛化方向的文件）內容，來改善 AFT 泛化的方法。我們的貢獻包括：

我們推出了模型規範中期訓練 (MSM)，這是一種通過先在討論模型規範內容的文件上進行訓練，來塑造模型如何從 AFT 中泛化的方法。
我們展示了 MSM 改善了多種設置下的泛化，從控制模型從相同 AFT 數據中獲取哪些價值觀，到大幅減少代理失調。
我們將 MSM 作為模型規範科學的工具，對影響對齊泛化的模型規範屬性進行實證研究，並提供了第一個具體的實踐案例。

欲了解更多信息，請閱讀我們的論文。

討論

— Lesswrong