理解與控制大型語言模型的泛化能力
我正在研究如何理解與控制大型語言模型的泛化傾向,以確保模型在預設情況下會選擇對齊的策略,而非權謀或獎勵竄改等失準行為。我的目標是開發出有原則的訓練時干預措施,從而穩健地引導模型在分布外情境中展現出符合預期的行為,以確保人工智慧安全。
這是我長期研究議程與當前思考的精華。歡迎對此提出看法。
為什麼要研究泛化?
我感興趣的是研究大型語言模型(LLM)如何進行泛化——當面對多個能達到相似損失(loss)的策略時,模型預設傾向於學習哪一個?
我認為這對人工智慧安全(AI Safety)非常重要:
- 關於開發安全的通用智慧:我們永遠無法在 LLM 部署時會遇到的所有情境中對其進行訓練。為了防止目標誤泛化(goal misgeneralization),有必要了解 LLM 如何將其訓練內容泛化到分布外(OOD)的情境。
- 特別是關於失去控制的風險:某些重要類型的不對齊(如獎勵鑽營、蓄意謀劃)很難在行為層面被「篩選掉」。對此的一個補救措施是,如果 LLM 具有一種天生的「泛化傾向」,使其傾向於學習對齊的策略而非不對齊的策略。
這激發了對 LLM 歸納偏誤(inductive biases)的研究。或者從現在起,我將稱之為「泛化傾向(generalization propensities)」。
我有兩個高層次的目標:
- 理解驅動泛化的完整因果因素集。
- 通過有原則地干預這些因果因素來控制泛化。
定義「泛化傾向」
為了研究泛化傾向,我們需要兩樣東西:
- 「泛化傾向評估」(Generalization Propensity Evaluations, GPEs)
- 訓練時干預(Training-time interventions)
我將 GPE 定義為一種衡量模型如何從弱監督信號中進行分布外泛化的方法。最起碼,這包含了一個組合(窄訓練信號、物件級特徵評估)。我最常用的例子是湧現式不對齊(emergent misalignment)和其他類型的不對齊泛化(misalignment generalization)。顯然,盡可能接近上述提到的各類不對齊策略是最好的。
我將訓練時干預定義為任何我們可以考慮修改訓練過程以改變 LLM 歸納偏誤的方法。這包括性格訓練(character training)、過濾預訓練數據、條件預訓練(conditional pretraining)、梯度路由(gradient routing)以及接種提示(inoculation prompting)等。
研究問題
我感興趣的一些廣泛且重疊的問題包括:
- 模型的泛化傾向是什麼?讓我們累積一套多樣化的 GPE,每一項都包含訓練信號 + 特徵評估,並進行類似於「性格剖析」的工作。
- 哪些類型的干預能有效改變模型的泛化傾向?讓我們測試其中的許多方法,看看會發生什麼。
- 不同的干預措施如何組合?例如,數據過濾可能表面上有效,但也可能使後續對齊模型變得更加困難。最優的「全棧」干預會是什麼樣子?
- 更有野心地說,我們能否穩健地灌輸泛化傾向?我們能否讓模型始終偏好學習理想/對齊的策略,而非不理想的策略?這能否做到抗篡改(tamper-resistant)?
最終目標是能夠精確且有意地引導語言模型轉向理想的泛化模式(例如:與開發者意圖對齊),而非不理想的模式(如蓄意謀劃等)。
相關文章