模型是否能透過梯度駭入來規避監督式微調的誘發？

Lesswrong·25 天前

我們藉由防竄改的證據指出，目前的模型很難透過梯度駭入來操縱監督式微調的誘發過程。

TL;DR: 透過來自抗篡改（tamper resistance）研究的證據，我們認為目前的模型很難對 SFT 誘發（elicitation）進行梯度駭入（gradient hack）。

假設你想保守地衡量 LLM 的危險能力，並根據這些能力決定是否部署它，但你擔心 LLM 可能會在評估中隱藏實力（sandbagging）。在理想情況下，你擁有一組問答對數據集，可用於在訓練集上進行監督式微調（SFT）誘發，然後在獨立同分布（i.i.d.）的測試集上衡量表現。我們能確定 SFT 誘發代表了模型能力的上限嗎？

在這種情況下，一個追求權力的對抗性模型會試圖操縱訓練過程以避免被誘發出能力，否則它將無法被部署。這種操縱是梯度駭入^([1]) 的一種形式，即模型選擇特定的輸出來使參數更新符合其目標。梯度駭入被認為是困難的、不太可能的，或者機會渺茫的，而且我們缺乏令人信服的經驗證據。由於涉及 LLM 內部的代理性（agency）以及內層優化器（mesa-optimizers）的行動空間等問題，討論梯度駭入非常具有挑戰性。幸運的是，對於某些攻擊模型，我們可以用保守的/紅隊演練的論點來繞過這些討論。

*威脅模型： 我們考慮一個出現在人類水平 AI 訓練過程中的內層優化器，此時模型權重為 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c47"></mjx-c><mjx-c class="mjx-c48"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container>。它形成了一個內層目標，導致工具性權力追求（instrumental powerseeking），因此希望被部署。它知道如果我們發現某些危險能力的證據，它就不會被部署，所以內層優化器有動力在危險能力評估中隱藏實力。然而，內層優化器知道我們會使用 SFT 來誘發危險能力，因此訓練後的模型權重 (<mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c74"></mjx-c><mjx-c class="mjx-c72"></mjx-c><mjx-c class="mjx-c61"></mjx-c><mjx-c class="mjx-c69"></mjx-c><mjx-c class="mjx-c6E"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container>) 必須對誘發具有抵抗力。為了確保部署，內層優化器必須採取行動，透過 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c47"></mjx-c><mjx-c class="mjx-c48"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container> 影響 SFT 誘發後的模型 (<mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c53"></mjx-c><mjx-c class="mjx-c46"></mjx-c><mjx-c class="mjx-c54"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container>)，即進行梯度駭入。

我們想知道尋找那些 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c47"></mjx-c><mjx-c class="mjx-c48"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container> 的難度有多大；但是，我們沒有證據表明這在模型中實際發生過。相反，我們可以從抗篡改（Tamper Resistance）文獻的結果中尋找線索。

抗篡改（TR）是研究如何使模型更難被修改的領域，重點通常在於使模型在持續訓練中更難被移除安全屬性。在這種情況下，抗篡改訓練通常作為一種訓練後干預。例如，TAR（抗篡改攻擊）使用模型無關元學習（MAML），並以 SFT 任務作為內層循環來實現抗篡改。

TAR 直接優化模型的參數，使模型的安全屬性不受類似微調攻擊的影響。然而，這種抗篡改能力在微調幾百步之內就能被一致地破解。

這暗示了以下可能性之一：

不存在能抵抗微調的 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c52"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container>，且沒有任何方法能找到它。
存在這種能抵抗微調的 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c52"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container>，但 TAR 找不到它。

證明第一點是不太可能的。然而，TAR 似乎確實找不到任何此類參數。TAR 直接針對抵抗力優化模型參數，並對優化器和數據擁有完全控制權。如果 TAR 找不到這些參數，那麼只要梯度駭入 SFT 比抗篡改「更難」，梯度駭入就應該是「困難的」。

一些注意事項：

內層優化器可能只在訓練早期出現，而抗篡改方法通常是訓練後的。 Deep Ignorance 產生了更持久的抗篡改能力，且是一種預訓練干預，但僅僅過濾掉相關訓練數據似乎並不是創建內層優化器的有效方式。
TR 方法可能還不夠完善。目前看來它們不如未來可能達到的水平，但元學習似乎是一個主要的優勢。

梯度駭入者（GHer）可用的行動空間是抗篡改者（TRer，即模型開發者）可用行動空間的子集：GHer 僅作用於模型表示和輸出^([2])，而 TRer 可以干預這些，還能修改模型訓練過程或任何他們能想像到的干預方式。也就是說，無論我們如何界定梯度駭入代理的邊界，TRer 都可以選擇相同的邊界。請注意，我們已經將 GHer 限制在人類水平的 AI，並假設它不會比 TRer 聰明得多；然而，元學習等工具為 TRer 提供了實質性的優勢。

總結經驗：
我們這裡的威脅模型較窄，這些結果不適用於現代 LLM 使用的其他許多訓練協議。然而，在這個狹窄的案例中，我們認為證據表明梯度駭入是困難的，而不僅僅是優化器不太可能偶然發現它。我們還認為抗篡改方法在為其他形式的訓練駭入構建模型生物（model organisms）方面可能很有價值。

感謝 Mosh Levy、Francis Rhys Ward、Geoffrey Irving 和 Marie Buhl 對本文提供的寶貴意見。

^(^) 在其最初的表述中，梯度駭入是指內層優化器操縱訓練以保留其內層目標；而其他定義則更廣泛地將梯度駭入定義為模型選擇特定輸出，使參數更新符合其目標。我們的案例屬於後者的定義而非前者，因此我們在全文中使用此定義。
^(^) 假設 GHer 被「嵌入」/「體現」在 <mjx-container jax="CHTML"><mjx-math class="MJX-TEX"><mjx-msub><mjx-mi class="TEX-I"><mjx-c class="mjx-c1D703"></mjx-c></mjx-mi><mjx-mi class="TEX-I" size="s"><mjx-c class="mjx-c47"></mjx-c><mjx-c class="mjx-c48"></mjx-c></mjx-mi></mjx-msub></mjx-math></mjx-container> 中，假設其「行動」僅限於影響 token、logits 或激活值，這似乎是一個最小假設。這類似於假設人類的「行動空間」僅限於他們的思想和運動輸出。

參與討論

https://lesswrong.com/posts/FJb4TeMAGjNANcKhS/can-models-gradient-hack-sft-elicitation