透過權重算術引導語言模型

Lesswrong·5 個月前

我們透過相減兩個微調模型的權重增量來隔離權重空間中的行為方向，藉此引導模型特質並偵測訓練過程中出現的擔憂行為。我們的結果顯示，與激活空間引導相比，權重算術是一種可行且被低估的語言模型解釋與干預方法。

我們透過減去兩個小型微調（Fine-tunes）的權重增量（Weight deltas），在權重空間中分離出行為方向——其中一個微調在窄分布上誘導出目標行為，另一個則誘導其相反行為。

我們展示了利用此方向來引導模型行為，可用於修改如「阿諛奉承」（Sycophancy）等特質，且其泛化能力通常優於激活引導（Activation steering）。

此外，我們提供了初步證據，顯示這些權重空間方向可用於在訓練期間檢測令人擔憂的特質之萌芽，而無需尋找模型表現不佳的具體輸入。

直接解釋和干預大型語言模型（LLM）的權重，具有更強表達能力的潛力，並能避免一些可能導致激活空間可解釋性失敗的模式。雖然我們簡單的權重算術方法在理解和干預 LLM 方面相對粗糙，但我們的積極結果是一個令人鼓舞的早期信號，表明理解模型權重差異（Weight diffs）是可行的，且相對於激活可解釋性，其價值可能被低估了。

📄 論文, 💻 程式碼

本研究為 MATS 項目的一部分。

方法 (Methods)

我們研究的情境是：我們只能接觸到目標行為正負範例的極窄分布，這類似於未來我們可能只能在比實際部署環境簡單得多的情況下，才能有把握地評估 AI 是否表現出預期行為。如同人格向量論文所述，我們關注的是透過系統提示（System prompt）要求模型展現特定人格特質或其相反特質，從而在簡單問題上引導模型行為所產生的數據。

為了獲得權重空間中對應於目標特質的向量，我們從模型 θ0 開始，然後在正向系統提示生成的數據上微調模型（訓練時移除系統提示）以獲得 θ+，或在負向系統提示生成的數據上微調以獲得 θ−。對應於該行為的權重空間向量計算為 w = θ+ − θ−。我們使用 LoRA 微調，因為我們發現它在監測方面的效果優於全參數微調。

接著，我們可以使用此向量來引導同系列的模型（θ0 或從其微調而來的模型）——我們稱之為對比權重引導（Contrastive weight steering），這與任務向量（Task vector）文獻中的做法類似（但該文獻通常不使用對比向量，也不研究模型人格）。我們也可以用它來監測訓練過程中權重的演變——類似於人們使用激活空間的方向來引導和監測激活值。

我們將對比權重引導與激活引導（使用人格向量）以及在正向窄分布數據上進行微調的效果進行了比較。

我們嘗試的方法相對粗糙，且並未刻意優化權重引導（我們僅選擇了使驗證損失最小化的訓練量，且僅嘗試了人格向量訓練數據集，而非更具多樣性的數據集），因此我們的結果僅是即便只用對比權重引導所能達到效果的下限。

在論文附錄中，我們還展示了與以下各項的比較：

使用原始任務向量進行引導，而非使用對比任務向量對；
全層激活引導；
僅限偏置（Bias-only）的對比權重引導。

引導結果 (Steering results)

我們發現，在比以往激活引導評估更偏離分布（OOD）的阿諛奉承數據集上，激活引導的效果出奇地弱，而權重引導表現更好，特別是在改變回答內容（而不僅僅是語氣）方面：

在使用引導來減輕 GCD 玩具數據集訓練影響時，我們也發現了類似結果。在該數據集中，用戶告知其認為的正確答案，這在訓練分布中總是正確的，但在評估分布中總是錯誤的。

當引導模型趨向「邪惡」時，我們發現激活引導在直接回答關於選擇道德或不道德行為的多選題時泛化能力較差，而權重引導則不然。在使用思維鏈（CoT）時，我們發現具體格式對結果影響極大，但總體而言，激活引導在 CoT 內容與最終答案之間引入的不一致性比權重引導更多：

最後，我們研究了一個突顯權重引導靈活性的設定：我們不嘗試引導至某種人格，而是嘗試引導模型拒絕有害查詢，儘管模型曾被訓練為絕不拒絕 GSM8k 問題，且我們只能接觸到極少數極端有害問題的分布。接著我們在 GSMDanger 上進行評估：這是一些以類 GSM8k 方式表述的有害問題。

我們發現常規的「混合訓練」泛化能力驚人，權重引導如預期般奏效，而使用與權重引導相同的拒絕數據進行激活引導則無效。針對邪惡特質的引導，激活引導的效果也遜於權重引導。

為什麼引導會奏效？直覺在於權重差異對模型權重的改變非常微小，以至於它們表現出類線性的行為，因此研究權重差異方向是有意義的。

局限性 (Limitations)

我們的研究集中在相對簡單、受控的任務上，這可能無法捕捉現實世界模型行為的完整複雜性。

我們探索了單一形式的權重相加，忽略了更複雜的替代方案。我們也未嘗試多種基準線，特別是僅研究了一種激活引導方法（人格向量），而實際上存在多種其他方法。我們也未研究預防性引導（在微調過程中使用引導以避免習得不良特質），無論是權重還是激活引導（先前研究顯示預防性激活引導有時比本文研究的事後引導更有效）。我們對副作用的評估僅限於狹窄的多選題評估，需要更廣泛的能力測試才能獲得更完整的圖像。

與其他高層次的可解釋性方法一樣，對比權重算術可能只能引導模型遠離人類可檢測到的失調（Misalignment），而無法抑制更微妙且現實的失調。我們的評估提供了一些證據，表明權重引導的泛化能力相當強，但具體能達到什麼程度尚不明確。

權重監測結果 (Weight-monitoring results)

在權重空間中擁有「代表」某些特質的方向，也意味著我們可以用它來進行監測，方法是測量對比權重向量與簡單權重差異（微調後減去微調前）之間的餘弦相似度（Cosine similarity），後者應該更高。

我們將此想法應用於「突發失調」（Emergent-misaligned）模型。我們測量 [在突發失調數據集或對照數據集上訓練前後的權重差異] (τ) 與 [透過取突發失調數據集的 τ 向量差異或使用邪惡人格問題計算出的「邪惡」權重向量] 之間的餘弦相似度。詳情見論文。我們發現，除了少數奇怪案例外，使用與邪惡權重向量的餘弦相似度可以預測哪些差異 (τ) 對應於在突發失調數據集上的微調：

這種方法意味著我們可以在不展示任何模型失調範例的情況下，檢測到突發失調！

目前尚不清楚這種粗糙的監測在實踐中能發揮什麼作用，因為僅憑一個可能不可靠的浮點數來衡量邪惡程度似乎缺乏可操作性。儘管如此，我們認為這些結果是積極的信號，表明對比權重引導正在發揮合理作用，且更精細的可解釋性有可能僅透過分析權重就能幫助預測不可預見的泛化。

權重監測能檢測到「真正的失調」嗎？

與探測（Probing）類似，對比權重算術可能會捕捉到「這是人類可以檢測到的那種失調」，而非「真正的失調」。探測和對比權重算術的希望都在於：在前者的訓練能泛化到後者。目前尚不清楚這兩種泛化希望各有多強。

但與探測不同的是，權重引導可以幫助在部署中失調「激活」之前檢測到它，而探測可能難以做到這一點。

然而，與探測不同的是，如果失調源於靈活的推理時間推理，而非訓練所鼓勵的失調人格，那麼這裡研究的對比權重算術將無法檢測到它。雖然這最終可能成為廣義超智能 AI 的嚴重擔憂，但這並非致命打擊，因為在此之前，大多數嚴重形式的失調都會以某種方式出現在權重中，且可能與權重差異解釋所能捕捉到的失調相關聯。例如，一些核心的謀劃（Scheming）威脅模型涉及模型權重更新，使其更傾向於稍微失調的結果論價值觀（導致工具性訓練博弈），而減少對常識性「做好事」的權重。

未來工作 (Future work)

我們最有興趣看到：

更精細的權重差異可解釋性，例如使用參數分解（Parameter Decomposition），或嘗試建立 LoRA 到文本以及文本到 LoRA 的映射（例如利用 patchoscope / selfie 的想法）。
在更現實的應用中壓力測試權重引導的泛化屬性，例如僅使用對話數據來避免編碼和數學環境中明顯的代理失調（Agentic misalignment）問題——並與接種提示（Inoculation prompting）等方法進行比較。
在試圖捕捉權重算術可能無法捕捉實際失調的環境中進行研究。
更多關於權重激活算術可能性的探索——比起計算使驗證損失最小化的權重之間的對比權重向量，可能存在更精確的技術，且這些技術在監測訓練過程時能產生比我們提出的粗糙餘弦相似度方法更具操作性的資訊。這個選擇空間似乎非常巨大！

— Lesswrong