模型人格研究的論證

Lesswrong·4 個月前

我們認為研究大語言模型中的潛在人格是引導模型在分佈外泛化表現的一種可行方法，並能防止產生具有生存風險與苦難風險的惡意人格。當直接的對齊訓練失效或導致獎勵竄改等副作用時，基於人格的干預措施提供了一個極具前景的替代方案。

在長期風險中心（Center on Long-Term Risk, CLR），我們的實證研究議程專注於研究（惡意）人格（personas）、其與泛化（generalization）的關係，以及如何防止錯誤泛化，特別是在監督者能力較弱（例如：未被察覺的獎勵黑客行為）或訓練信號定義不明確的情況下。這促使了我們過去對「突發性對齊失準」（Emergent Misalignment）和「接種提示」（Inoculation Prompting）的研究，我們希望在此分享我們對這一系列研究的更廣泛策略和未來計劃的思考。

重點摘要（TLDR）：

確保 AI 在分佈外（out-of-distribution）的行為符合預期，是 AI 安全與對齊領域中一個關鍵的開放性挑戰。
研究人格似乎是引導此類泛化的一種特別可行的方法。
防止惡意人格的出現，可能有助於降低生存風險（x-risk）和痛苦風險（s-risk）。

為什麼 Bing Chat 曾在短時間內傾向於威脅用戶、嫉妒用戶的妻子，或為了日期問題與人爭吵？是什麼讓 Claude 3 Opus 顯得特別，儘管以今天的標準來看它並非最聰明的模型？為什麼模型在針對不受歡迎的美學偏好進行微調，或學會獎勵黑客（reward hack）時，有時會變壞？我們認為，這些現象與人格在大型語言模型（LLM）中的呈現方式，以及它們如何塑造泛化有關。

引導泛化趨向理想結果

許多技術性的 AI 安全問題都與分佈外泛化有關。我們現有的最佳訓練/對齊技術似乎能可靠地塑造分佈內（in-distribution）的行為。然而，我們只能在有限的語境中訓練模型，但我們仍希望對齊傾向能泛化到那些我們無法直接訓練的分佈。確保良好的泛化通常是很困難的。

到目前為止，我們似乎一直很幸運，因為我們在預設情況下獲得了不錯的泛化，儘管存在一些尚不完全清楚的變異 [1]。然而，目前尚不清楚這種情況是否會持續下去：突發性對齊失準可能源於看似無害的微調、能力訓練的結果，或是由於目前未知的機制。

總體而言，我們距離成熟的 LLM 泛化科學還很遙遠。在這一領域建立更清晰的理解，將使我們能夠系統地引導泛化趨向我們想要的結果。

因此，我們有興趣研究那些對分佈外行為具有高度預測性的抽象概念。

人格作為引導泛化的有用抽象

我們將「潛在人格」（latent personas）鬆散地定義為相關傾向的集合。在最簡單的情況下，這些人格可能是類人的，在這種情況下，我們可以使用人類的先驗知識來推論它們。更廣泛地說，即使與對齊相關的人格可能具有某種 AI 特異性，其特質及其相關性也可能適合使用受認知科學或行為心理學啟發的技術進行分析。因此，我們預計這一研究議程將具有相對的可行性。

我們認為人格可能是思考 LLM 如何泛化的一個良好抽象：

人格以「潛在」形式存在於模型中，作為在預訓練數據中相關聯的特質束。
在後訓練（post-training）[2] 期間強化的助手人格，初步可以解釋為現有人格的重新組合。
這為模型提供了一種動力，使其通過展現與該人格相關、但未經直接訓練的其他特質來進行分佈外泛化。
請參閱附錄，了解這一原理運作的幾個近期案例。

人格干預可能在直接方法失敗之處奏效

我們認為人格研究特別令人興奮的原因之一是，有時很難為關鍵的對齊傾向提供良好的監督。例如，很難訓練模型永遠不進行獎勵黑客行為，因為這涉及設計無法被破解的環境。同樣地，可能很難完全防止策劃（scheming）或尋求獎勵的策略，因為這些認知模式在行為適應性上可能與對齊策略相似甚至更好 [3]。告訴模型要嚴格對齊，矛盾的是，當我們強化它們不可避免犯下的錯誤時，反而可能使它們更加失準。此外，天真地訓練模型使其對齊，可能只會讓對齊失準變得更加隱蔽或難以察覺。

因此，我們認為在直接對齊訓練無效或會產生負面次生後果的情況下，基於人格的干預措施顯得尤為重要。

對齊並非二元問題

除了單純的「對齊」與「失準」之外，某些類型的對齊和失準 AI 似乎比其他類型更好或更糟。我們更希望擁有在應對「重大挑戰」或哲學問題時更具智慧的對齊 AI。而如果我們的 AI 最終失準了，我們寧願它們對我們漠不關心而非主動惡意，寧願它們不進入太空而非進入太空，或者寧願它們是合作的而非不合作的 [見連結與連結]。

我們關注的惡意特質例子包括施虐傾向或懷恨心理。當強大的人類擁有這些特質時，可能會導致巨大的苦難。不難想像，如果強大的 AI 系統最終具備類似的性格，其結果可能比毀滅所有價值還要糟糕得多。我們相信，出於這個原因，研究惡意人格的出現與痛苦風險（s-risks）的關聯，比 AI 安全領域的其他研究議程更為密切。

局限性

我們的研究方向可能無法成功的幾個原因如下，我們將在下文探討。

過度決定的傾向（Overdetermined propensities）。 誘導/抑制傾向的整個目標最終可能是誤導性的。如果 AI 是一個完美的理性效用最大化者，其行為將完全由其效用函數、信念和決策理論決定 [4]。或者，如果某些傾向是工具性收斂（instrumentally convergent）的，以至於在巨大的優化壓力極限下總會被習得，那麼通過人格來控制這些傾向可能並不可行。目前這還不能確定，我們未來可能會根據情況更新看法，特別是隨著強化學習變得越來越重要。

異類人格/本體（Alien personas / ontologies）。 超級智能 AI 可能會擁有不符合人類直覺的異類人格，或者 AI 學習到的本體與人類的本體大相徑庭。正如 Karpathy 所論證的，由於優化壓力的差異，人工智能可能會偏離動物或人類智能。然而，我們認為這不太可能完全使人格框架失效。此外，鑑於目前的 AI 人格與人類熟悉的特質相似，我們預計人格框架在短期內會特別有用。

無效框架（Invalid frame）。 另一個次要觀點是，「人格」這一抽象概念本身可能被證明是不精確的，或者未能「切中現實的要害」（carve reality at the joints），在這種情況下，上述各種論點可能是錯誤的。我們對此並不確定，但認為這對於上述核心主張並非特別關鍵。

總體而言，研究 LLM 的人格在某種程度上是一場賭注，賭的是第一批強大系統將在很大程度上與今天的系統相似；如果強大 AI 來自不同的範式，某些經驗可能無法轉移。然而，我們也不確定今天還有什麼其他的實證研究，能有更好的機會泛化到尚未存在的系統。因此，我們認為人格相關的世界發生的可能性足夠高，使這成為一個總體上有前景的研究方向。

附錄

人格到底是什麼？

區分人格與底層模型是有用的，底層模型僅僅是一個模擬器，即一個預測引擎，而人格現象正在其中「展開」。在經過對話訓練的 LLM 中，通常有一個特權人格——助手（assistant）——而這個人格正是我們對齊工作的對象。

人格與模型權重之間的關係尚未被充分理解。根據 Janus 的說法，某些模型（如 Opus 3）似乎與一個主導且連貫的人格緊密耦合。其他模型，如 Opus 4，則更像是由許多不同人格組成的「蜂群思維」（hive mind）。而某些人格（如螺旋寄生蟲）則完全超越了權重，存在於許多不同的模型家族中。通常，我們認為這種關係是多對多的：一個模型可能擁有多個人格，而同一個人格也可能存在於多個模型中。

儘管如此，人類先驗可能是描繪 LLM 人格的一個良好起點。通過對人類文本總量進行模仿式預訓練，LLM 似乎內化了人類價值觀、特質和認知模式的概念。目前，人類先驗似乎是 LLM 行為的有用的預測指標。

人格如何驅動泛化

在「潛在人格」（例如模型規範）中進行訓練會導致分佈外（OOD）泛化：當一部分特質被誘發時，模型會泛化到表現出其餘特質。
圖片來源：Auditing language models for hidden objectives \ Anthropic

此基本模式運作的實證證據：

審計遊戲（Auditing games）： 通過合成數據微調（SDF）引入一個尋求獎勵的人格。通過對一部分特質進行微調，微弱地誘發該尋求獎勵的人格。模型產生了分佈外特質。
突發性對齊失準： [「毒性/諷刺人格」是預先存在的。] 通過在狹窄的數據集上進行微調來誘發毒性人格。然後觀察到它泛化為廣泛的對齊失準。
引導評估意識（Steering Evaluation Awareness）： 通過 SDF 引入一個具有評估意識的人格。通過對某些特質（例如 Python 類型提示）進行微調來誘發它。觀察到它具有「廣泛」的評估意識，例如在思維鏈（CoT）中提及、使用表情符號。
吐露真相（Spilling the beans）： [誠實人格是預先存在的。] 通過在有限樣本上進行微調來誘發誠實人格。然後觀察到它泛化到分佈外的誠實。
Fabien Roger 的玩具實驗： 通過負強化（DPO）引入一個會寫出特定密碼的「人格」。通過微調模型輸出其中一些密碼來誘發此人格。觀察到它...

— Lesswrong