理解與控制大型語言模型的泛化能力

Lesswrong·5 個月前

我正在研究如何理解與控制大型語言模型的泛化傾向，以確保模型在預設情況下會選擇對齊的策略，而非權謀或獎勵竄改等失準行為。我的目標是開發出有原則的訓練時干預措施，從而穩健地引導模型在分布外情境中展現出符合預期的行為，以確保人工智慧安全。

這是我長期研究議程與當前思考的精華。歡迎對此提出看法。

為什麼要研究泛化？

我感興趣的是研究大型語言模型（LLM）如何進行泛化——當面對多個能達到相似損失（loss）的策略時，模型預設傾向於學習哪一個？

我認為這對人工智慧安全（AI Safety）非常重要：

關於開發安全的通用智慧：我們永遠無法在 LLM 部署時會遇到的所有情境中對其進行訓練。為了防止目標誤泛化（goal misgeneralization），有必要了解 LLM 如何將其訓練內容泛化到分布外（OOD）的情境。
特別是關於失去控制的風險：某些重要類型的不對齊（如獎勵鑽營、蓄意謀劃）很難在行為層面被「篩選掉」。對此的一個補救措施是，如果 LLM 具有一種天生的「泛化傾向」，使其傾向於學習對齊的策略而非不對齊的策略。

這激發了對 LLM 歸納偏誤（inductive biases）的研究。或者從現在起，我將稱之為「泛化傾向（generalization propensities）」。

我有兩個高層次的目標：

理解驅動泛化的完整因果因素集。
通過有原則地干預這些因果因素來控制泛化。

定義「泛化傾向」

為了研究泛化傾向，我們需要兩樣東西：

「泛化傾向評估」（Generalization Propensity Evaluations, GPEs）
訓練時干預（Training-time interventions）

我將 GPE 定義為一種衡量模型如何從弱監督信號中進行分布外泛化的方法。最起碼，這包含了一個組合（窄訓練信號、物件級特徵評估）。我最常用的例子是湧現式不對齊（emergent misalignment）和其他類型的不對齊泛化（misalignment generalization）。顯然，盡可能接近上述提到的各類不對齊策略是最好的。

我將訓練時干預定義為任何我們可以考慮修改訓練過程以改變 LLM 歸納偏誤的方法。這包括性格訓練（character training）、過濾預訓練數據、條件預訓練（conditional pretraining）、梯度路由（gradient routing）以及接種提示（inoculation prompting）等。

研究問題

我感興趣的一些廣泛且重疊的問題包括：

模型的泛化傾向是什麼？讓我們累積一套多樣化的 GPE，每一項都包含訓練信號 + 特徵評估，並進行類似於「性格剖析」的工作。
哪些類型的干預能有效改變模型的泛化傾向？讓我們測試其中的許多方法，看看會發生什麼。
不同的干預措施如何組合？例如，數據過濾可能表面上有效，但也可能使後續對齊模型變得更加困難。最優的「全棧」干預會是什麼樣子？
更有野心地說，我們能否穩健地灌輸泛化傾向？我們能否讓模型始終偏好學習理想/對齊的策略，而非不理想的策略？這能否做到抗篡改（tamper-resistant）？

最終目標是能夠精確且有意地引導語言模型轉向理想的泛化模式（例如：與開發者意圖對齊），而非不理想的模式（如蓄意謀劃等）。

— Lesswrong

你的個人知識庫

理解與控制大型語言模型的泛化能力

為什麼要研究泛化？

定義「泛化傾向」

研究問題