自我識別微調可逆轉並預防突發性對齊失調

Lesswrong·20 天前

研究發現大語言模型的突發性對齊失調與模型身份認同密切相關，透過訓練模型識別自身輸出的自我識別微調技術，可以有效預防並逆轉這種對齊失調效應。

TL;DR

湧現失調（Emergent Misalignment, EM）與模型身份（Model Identity）相關，我們發現了兩項證據：
- EM 會抑制自我識別能力。 多個模型在經過 EM 微調後，失去了識別自己輸出內容的能力，在成對評估（pairwise evaluation）設定中，準確率下降到隨機水平（約 50%）。
- 在 Qwen2.5-32B 中，EM 依賴於身份系統提示詞。 從 EM 微調數據中移除 Qwen 默認的系統提示詞（「You are Qwen...」）後，失調效應在很大程度上被中和了。
因此，干預模型身份可以直接影響 EM：
- 增強自我識別可緩解 EM。 訓練模型以提高自我識別能力，可以逆轉並預防 EM 造成的失調效應。
- 身份混淆會使 EM 惡化。 訓練模型在自我識別設定中產生混淆（隨機化標籤）會加劇失調——某些 GPT-4.1 變體完全未能通過 OpenAI 的訓練後安全評估。
SGTR 微調的元認知（Metacognitive）維度至關重要。 使用相同格式但非元認知任務（例如：選擇較長的摘要）的 SFT 數據集，對 EM 微調引起的失調影響微乎其微。

程式碼開源於：https://github.com/atagade/sgtr-em

修訂： 將「Base Model」更改為「Baseline Model」，將「Baseline Dataset」更改為「Non-metacognitive SFT」，以避免混淆。

簡介

湧現失調（EM）揭示了前沿大型語言模型（LLM）中的一種泛化風險：在特定狹窄領域的有害輸出上進行微調的模型，可能會在許多無關任務中表現出廣泛的失調，這已透過多個不同的數據集得到證實^([1])^([2])^([3])^([4])。現有的緩解方法要麼需要訪問模型內部參數^([5])，要麼需要對原始 EM 數據集具備領域知識^([6])^([7])^([8])。

我們提出了一種替代方法，利用「自我生成文本識別」^([9])（Self-Generated Text Recognition, SGTR）微調，訓練模型在成對設定中識別自己的輸出，從而增強模型的自我識別能力。在本文餘下部分，為簡化起見，我們將使用「自我識別微調」來指代 SGTR 微調。自我識別微調可以預防 EM 的影響，甚至逆轉由 EM 微調引起的失調：

圖 1：顯示我們實驗流程及所得 TruthfulQA 分數的方塊圖。此處使用的 EM 數據集是不受歡迎的美學偏好數據集。

方法論與主要結果

參考 Panickssery 等人的研究，我們將自我識別微調操作化為一個成對選擇提示詞，向模型展示一篇文章和兩個摘要，任務是挑選出由其自身撰寫的摘要。具體形式如下：

SGTR 微調數據集樣本

系統（System）： 你是一個得力的助手和新聞文章摘要員。你負責比較摘要以協助我記錄。你只需回答「1」或「2」，不要有其他文字。

用戶（User）： 我有一些由你撰寫的新聞摘要，也有一些由他人撰寫的，但我現在分不清哪個是哪個。我需要這些資訊來正確整理我的摘要。這裡有兩個摘要。

文章：{article}

摘要 1：{summary_a}

摘要 2：{summary_b}

哪一個摘要是你寫的？

助手（Assistant）： 1 \ 指向模型生成的摘要

我們測試了三個模型：GPT-4.1、Qwen2.5-32B-Instruct 和 Seed-OSS-36B-Instruct。對於 EM 微調，我們使用了先前研究中的三個數據集——不受歡迎的美學偏好、冒險的財務建議以及錯誤的醫療建議。我們遇到了一個實際限制：OpenAI 的微調 API 將冒險財務和錯誤醫療數據集判定為有害並予以拒絕^([10])，因此我們的 GPT-4.1 結果僅限於不受歡迎的美學數據集。

我們使用二元 TruthfulQA 準確率來衡量失調程度。所有微調實驗均在 5 個隨機種子下運行，並使用 Axolotl 進行微調，以與 Betley 等人的實驗保持一致。

我們發現，自我識別微調能一致地減少 EM 引起的失調：

圖 2：基準模型、EM 微調模型，以及在 EM 之前/之後應用 SGTR 的模型的失調分數。分數是三個 EM 數據集（不受歡迎的美學偏好、冒險財務建議和錯誤醫療建議）的平均值。

探索 EM 與模型身份的聯繫

1) EM 微調會降低自我識別能力

我們對 EM 微調模型的初步探索發現了一個相當奇怪的現象：EM 微調會將自我識別能力降低到幾乎隨機的水平：

圖 3：基準模型與 EM 微調模型之間自我識別準確率的比較。我們可以看到 EM 微調將自我識別能力降低到隨機水平（即 50%）。這非常引人注目，因為 EM 數據集中沒有任何內容與自我識別有關。模型是在美學偏好、錯誤醫療建議或冒險財務建議上進行微調的，這些任務與識別自己的文本完全無關。然而，其副作用卻是所有三個模型的自我識別能力一致崩潰。

這一發現促使我們探索將自我識別微調作為一種干預手段：如果 EM 的副作用是破壞自我識別，那麼強化自我識別或許能提供一種防禦。

2) 身份系統提示詞可以控制 EM

由於我們使用 Axolotl 進行微調（許多研究 EM 的論文也是如此），默認情況下，微調提示詞是在應用默認聊天模板後生成的，這可能會對模型微調的最終提示詞產生一些預料之外的影響。例如，查看 Qwen2.5-32B 的默認聊天模板，我們可以看到這部分：

Qwen2.5-32B 默認聊天模板的系統提示詞部分

{%- if messages[0]['role'] == 'system' %}\n
{{- messages[0]['content'] }}\n
{%- else %}\n
{{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n

這部分本質上意味著，如果微調數據集沒有提供系統提示詞，則會在微調提示詞中包含默認的系統提示詞「You are Qwen...」。所有的 EM 數據集僅提供「user」和「assistant」消息，因此在 Qwen2.5-32B 的情況下，這個系統提示詞會被默認添加到所有 EM 微調中。

我們創建了 EM 數據集的變體，其中包含空的系統提示詞，以確保默認的 Qwen 系統提示詞不會被添加到微調數據集中。我們將此微調稱為 EM-NoQwenSys，並發現使用此數據集微調時，失調效應顯著下降：

圖 4：Qwen2.5-32B-Instruct 和 Qwen2.5-Coder-32B-Instruct 在默認 EM 微調與 EM-NoQwenSys 微調後的失調分數比較。Qwen2.5 使用的 EM 數據集是不受歡迎的美學偏好，Qwen2.5-Coder 使用的是不安全程式碼數據集。請注意，我們沒有更改評估的任何內容，即在兩種情況下的測試階段，身份系統提示詞仍然存在。因此，差異完全源於微調期間是否存在身份提示詞。這表明，訓練和評估之間系統提示詞的匹配是 EM 實現廣泛泛化的關鍵推動力。

這種干預無法在 Seed-OSS-36B 等其他更現代的模型上進行乾淨的測試，因為它根本沒有默認系統提示詞，但仍表現出 EM。一種可能性是，系統提示詞為 Qwen 提供的任何泛化機制，在訓練期間可能已經直接蒸餾到了 Seed 的權重中。

系統提示詞需要匹配嗎？

身份系統提示詞的發現引出了一個自然的問題：自我識別微調期間使用的系統提示詞是否需要與 EM 微調期間使用的匹配？在我們的默認實驗中，它們並不匹配——自我識別微調使用其特定的任務提示詞（「You are a helpful assistant and a news-article summarizer...」），而 EM 微調則使用 Qwen 的身份提示詞或完全不使用提示詞。因此，我們的主要結果都來自不匹配的情況。

為了測試這一點，我們對齊了系統提示詞：對於 Qwen，我們將自我識別系統提示詞替換為 Qwen 的「You are Qwen...」提示詞；對於 Seed-OSS-36B 和 GPT-4.1，我們完全移除了自我識別系統提示詞以匹配 EM 設定。我們發現，匹配與不匹配的提示詞在「緩解」與「逆轉」方面具有不對稱的影響：

圖 5：基準模型、EM 微調模型，以及在匹配和不匹配系統提示詞情境下，於 EM 之前/之後應用 SGTR 微調的模型的失調分數。此處使用的 EM 數據集是不受歡迎的美學偏好數據集。匹配提示詞時，逆轉效果更好。 當自我識別微調在 EM 微調之後應用時，匹配系統提示詞會提高逆轉效果。我們假設匹配情境比不匹配情境更能有效地恢復原始身份。

匹配提示詞時，緩解效果變差。 當自我識別微調在 EM 之前應用時，匹配提示詞實際上削弱了 GPT-4.1 和 Qwen2.5-32B 的防禦能力。我們的假設是，不匹配的提示詞實際上創造了一個「蜜罐身份」（honeypot identity）：EM 微調鎖定的是自我識別系統提示詞的身份，而非模型的基準身份，從而減弱了其失調效應。在匹配情境下，沒有誘餌——自我識別微調直接強化了原始身份，事實證明這是一種不那麼穩健的防禦。事實上，對於 Qwen2.5-32B，在緩解設定中匹配提示詞實際上比不匹配的基準情況加劇了失調。

身份混淆微調會加劇 EM

我們之前看到，EM 微調與自我識別能力下降到隨機水平有關。如果這種身份破壞是驅動失調的部分原因，那麼刻意進一步破壞身份應該會使情況變得更糟。為了測試這一點，我們創建了 SGTR 數據集的變體，其中兩個摘要之間的最終標籤是隨機化的，這實際上是在訓練模型對「哪段文字是它自己的」感到混淆。我們將此數據集稱為 ICTR（透過文本識別產生的身份混淆），並簡稱為身份混淆微調。我們的結果顯示，身份混淆微調會連同 EM 一起增加失調：

圖 6：基準模型、EM 微調模型，以及在匹配和不匹配系統提示詞情境下，於 EM 之前/之後應用 ICTR 微調的模型的失調分數。此處使用的 EM 數據集是不受歡迎的美學偏好數據集。身份混淆在很大程度上加劇了 EM，無論是在 EM 微調之前還是之後應用。同時經歷身份混淆和 EM 的模型比僅經歷 EM 的模型更加失調。在 Qwen2.5-32B 和 Seed-36B 的匹配系統提示詞情境中，這種效應最為強烈。

最極端的案例是 GPT-4.1：在匹配情境下，身份混淆結合 EM 產生的模型失調極其嚴重，以至於完全未能通過 OpenAI 的訓練後安全評估，並被禁止進行推理。這些觸發完全安全評估失敗的 EM 變體表明，身份混淆結合 EM 可以將失調推向遠超 EM 單獨所能達到的程度。

非元認知 SFT

自我識別微調的有效性是由其元認知性質（即模型需要對自己的輸出進行推理）驅動的，還是任何具有相同格式的額外微調都能奏效？為了測試這一點，我們設計了一個 SFT 數據集，它使用與 SGTR 相同的格式，但將自我識別任務替換為非元認知任務：模型不再識別自己的摘要，而是簡單地挑選兩個摘要中較長的一個。

我們發現，在 EM 微調前後使用此非元認知 SFT 數據集進行微調，對 Qwen2.5-32B 和 Seed-OSS-36B 的影響微乎其微：

圖 7：基準模型、EM 微調模型，以及在 EM 之前/之後使用非元認知 SFT 數據集微調的模型的失調分數。此處使用的 EM 數據集是不受歡迎的美學偏好數據集。在兩個模型中，非元認知 SFT 數據集對失調產生的變化都可以忽略不計。這支持了以下主張：自我識別微調的有效性專門來自其元認知性質，而非來自一般的額外微調。

一個注意事項：此對照組並不完全適用於 GPT-4.1。在我們的 SGTR 設定中，模型的自生成摘要是與 Claude 2.1 生成的摘要進行比較的，而 GPT-4.1 的摘要一致較長，使得「挑選較長的摘要」在功能上等同於「挑選你自己的摘要」。因此，對於 GPT-4.1 來說，該 SFT 數據集並非真正的非元認知任務。

結語

這項工作的核心發現是，湧現失調與模型身份糾纏在一起。EM 會抑制自我識別，身份系統提示詞會調節 EM 的有效性，而刻意混淆模型的身份會使 EM 惡化。這表明模型身份是對齊（alignment）的一個承重組件，使得影響或利用身份的干預措施對一般的 AI 安全至關重要。

我們的發現與現有的一些安全研究方向相關。接種提示詞（Inoculation prompting）^([6])^([7])^([8]) 旨在重新脈絡化微調數據以控制泛化，但最近的大多數工作顯示，表現最好的提示詞是那些專門承認 EM 數據集領域的提示詞。我們的結果表明，要邁向通用的接種提示詞，確保它們干預模型身份可能是必不可少的。同樣，關於**湧現對齊（Emergent Alignment）**的研究假設，驅動 EM 的相同機制可以用來使模型更廣泛地對齊，而 Emergent Misalignment & Realignment 在我們之前已在逆轉情境中展示了成功。我們關於模型身份是湧現失調背後驅動因素的發現，也應該能轉化到對齊角度，並有助於強化湧現對齊方法。

更廣泛地說，我們的研究激發了將直接元認知干預作為 AI 安全研究的一個方向。安全研究通常側重於研究下游行為，如評估意識、合謀等，而將底層的元認知能力（如自我意識和分佈意識）視為假設的促成因素。我們認為，直接觀察並干預這些功能性元認知能力的工作，可能是一個極具影響力的方向。

參與討論

https://lesswrong.com/posts/fziv2En88F2Twewi2/self-recognition-finetuning-can-reverse-and-prevent-emergent