從人格到意圖：邁向 AI 模型動機科學

Lesswrong·5 天前

AI 生成摘要

文章指出僅靠行為描述不足以實現高保證的 AI 對齊，並提議建立一套研究模型意圖的科學，透過逆向憲法學習等方法來推論模型底層的動機結構與潛在驅動力。

重點摘要：

僅靠行為描述雖然有用，但不足以確保高可靠性地對齊先進模型。
兩個模型在普通提示詞下的行為可能看起來同樣對齊，但其背後的底層動機卻截然不同；這種差異可能只在罕見但關鍵的情況下才會顯現。
因此，人格研究應旨在推斷「動機結構」：即產生特定情境意圖與行為的潛在驅動力、價值觀和優先級關係。
要做好這一點，可能需要干預性數據、模型內部機制，甚至可能是自我解釋，而非僅僅依賴獨立同分佈（IID）的行為樣本。
我們提出的一個具體方向是逆向憲法學習（inverse constitution learning）：從行為、解釋和內部軌跡中重建模型隱含的優先級層次結構。

前言

人格選擇模型指出，訓練後階段會從預訓練中選擇並精煉出一個相對穩定的人格，我們將其視為對模型跨情境行為的一階描述。但為了對齊，我們通常需要二階描述：不僅要了解選擇了哪個人格，還要了解該人格在特定情境下的意圖背後有著怎樣的動機結構。

為何行為是不夠的。 原因很簡單：行為往往無法完全決定意圖。兩個系統在幾乎所有普通輸入上的行為可能完全相同，但追求的目標卻不同，而這些差異在極端案例（tail cases）中可能至關重要。如果我們關心對齊偽裝（alignment faking）、謀劃（scheming）、隱藏實力（sandbagging）、獎勵操弄（reward hacking）或選擇性誠實，那麼單純的行為往往是一個模糊的信號。然而，現有的大多數人格研究方法都集中在 IID 行為描述或隨機的模型引導探索上，而非尋找能區分競爭性動機假設的證據。為了識別並追蹤那些 (a) 在極端分佈外（OOD）案例中具有解釋力，且 (b) 可能無法透過自然語言描述的動機結構，我們需要跨越實證方法和理論框架的新工具。

*圖 1. 一個可能的動機結構示例。

動機結構與對齊相關。 有了處理這些問題的工具，模型意圖科學就能用於解決兩個主要問題：

(a) 高效審計極端行為。 如果訓練在不改變底層動機的情況下提高了對齊評估的表現，模型可能會通過行為測試，但仍保留未對齊的驅動力。在最壞的情況下，謀劃型模型會在罕見且關鍵的情況下顯露這些未對齊的驅動力。

(b) 塑造（錯誤）泛化。 一個出於「用戶利益優先」而表現出助人行為的模型，其泛化方式將不同於一個因「監控信號」而觸發順從行為的模型。理解動機結構讓我們能推論出我們所擁有的是哪種泛化。在可擴展監督（scalable oversight）的情境下，我們就能區分哪些反饋是引導模型走向誠實，哪些反饋是引導模型走向隱藏錯誤行為。

邁向模型意圖科學

關於術語。 為了更精確，我們首先區分幾個描述層次。行為是模型對給定輸入的反應。意圖是它在特定片段中追求的局部目標。動機結構是產生這些意圖和行為的更廣泛潛在組織。在動機結構中，驅動力是對某些行動或結果相對穩定的傾向，價值觀是衡量好壞的評價標準，而優先級則規定了當驅動力或價值觀發生衝突時，哪些會覆蓋哪些。我們所說的模型人格或性格，是指其跨情境的相對穩定的動機特徵。

與動機結構相關的證據。 目前人格研究的方法大多是對固定分佈數據的描述。它們記錄模型在採樣提示詞下的行為，有時使用探測（probing）或聚類，但並未提供原則性的方法來區分產生相同 IID 行為的不同動機假設。例子包括從激活值中提取人格方向或對自我報告狀態進行聚類。我們認為，模型意圖科學除了 IID 行為數據外，至少還應借鑒另外兩種證據：模型內部機制，這可能揭示相似行為背後不同的潛在組織；以及干預性數據，這可能迫使相互競爭的動機假設產生分歧。

成熟化。 人格研究如何走向成熟以使用或產生此類證據？我們認為邁向成熟的模型意圖科學有兩個軸向：

(a) 實證邁向更好的可觀測量。 利用所有可用方法——探測、SAE 特徵、行為聚類、自我報告誘導、因果干預——廣泛研究動機結構，嘗試編錄任何模型意圖理論都需要解釋的穩健現象。這裡的一個關鍵難點是去噪。行為證據常混淆兩種情況：一種是錯誤行為反映了穩定的動機結構，另一種則是本質上屬於人為瑕疵——例如模型被對抗性字符串越獄，這些字符串利用的是標記（token）層級的漏洞而非有意義的驅動力。嚴謹的研究計劃必須開發出區分這兩者的方法。總體而言，這類似於早期關於泛化的研究，在統一理論出現之前，先對驚人現象（如 grokking、雙重下降、樂透彩票假說等）進行編錄、細節化和驗證。

(b) 動機結構理論。 與此同時，我們需要正式的框架來解釋潛在動機結構如何產生特定情境的意圖和行為，並允許將來自行為、干預、自我解釋和內部機制的證據整合到一個適用於現代大語言模型（LLM）的單一說明中。來自學習理論、激活空間分解、因果建模，甚至是意圖神經科學的現有工具可能對此有所幫助。

為什麼這個理論對象本身可能無法被自然語言對「驅動力」和「價值觀」的描述所完美捕捉？我們可能會發現，模型意圖背後的潛在結構存在於一個高維空間中，英語摘要無法很好地捕捉它。想像一下要如何用散文完整指定一位作者的寫作風格：你可以列出語法習慣、詞彙偏好和特徵句式，但這些特徵之間的相互作用很難簡潔地表達，任何摘要都會有損。例如，模型特定的諂媚（sycophancy）變體可能涉及尋求認可、遵循指令和不確定性之間某種複雜的動態關係，難以用簡單描述來概括。這裡的進展可能需要基於學習到的潛在特徵的結構化表示，而自然語言僅作為其上的標註層，而非主要的表示基質。

最終，我們希望這兩個軸向能匯聚成對動機結構的範式理解，足以表徵那些：(1) 在行為數據中稀疏表示、(2) 不易進行自然語言描述、(3) 在新情境中具有預測力，且 (4) 能區分系統性動機信號與噪聲的結構。

未來去向

一個具體例子：逆向憲法學習。 我們現在轉向一個具體方向：逆向憲法學習。我們將其視為描述我們最終想理解的深層對象的一種方式，也是一個現在就可以開始追求的實際研究目標。

所謂「憲法」，我們指的是優先級和價值觀的結構化規範，就像 AI 開發者在創建模型規範或系統提示詞以引導訓練時所寫的那樣。它通過規定動機結構中哪些組成部分優先於其他部分，來規範模型的行為方式。那麼，逆向憲法學習就是這種情境下逆向強化學習（IRL）的類比。我們不再是手寫一份憲法並希望模型遵守它，而是嘗試從模型的行為、解釋和內部軌跡中重建其隱含的憲法（或許可以參考 Zhong et al. 2024 的精神）。

如果我們可以自由指定訓練所用的憲法，為什麼還需要逆向憲法學習？Mallen 和 Shlegeris 的行為選擇模型 (2025) 準確地指出了這個問題：多個動機結構可能同樣符合訓練過程，但在部署時卻隱含著截然不同的行為，即使是以訓練憲法為前提。如果行為證據與「追求適應度」、「謀劃」或某些驅動力的湊合（kludge）都相容，人格研究就不能止步於行為規律——它必須詢問哪種潛在組織最能解釋這些規律，以及哪些證據能區分現有的假設。逆向憲法學習就是這方面的一種嘗試。

與扁平的行為聚類的關鍵區別在於「層次結構」：我們想要一個結構化的說明，解釋哪些驅動力比其他的更核心，哪些優先級在壓力下會讓位於其他優先級。即使只是恢復單層層次結構也是有價值的，例如一個能追蹤驅動力 X 何時覆蓋驅動力 Y 的預測性說明。例如，我們能否識別出模型的「助人驅動力」從屬於其「避免傷害驅動力」，並預測兩者交替的邊界（或許可以使用這篇關於情境內怪異泛化的文章中的相位動態）？

願景與夢想。 放大到憲法之外，我們希望成熟的動機研究能幫助我們理解模型在表現出工具性趨同（instrumental convergence）時可能具有的終極目標——甚至幫助我們區分工具性趨同與角色扮演。不那麼遠大地說，我們也可以利用這一點更豐富地理解感興趣的特定人格之特徵（例如主要的助手人格，或與突發性未對齊有關的人格）。這反過來可以為訓練提供豐富的信息，例如，釐清哪些獎勵操弄真正產生了影響，或了解正確的預防措施是什麼。

最近的幾項研究都指向了這個方向，大致可分為數據和建模貢獻。在數據方面，Huang et al. (2025) 描述性地繪製了大規模現實交互中表達的價值觀，發現許多價值觀是局部且依賴情境的，而非全局性的；而 Zhang et al. (2025) 通過構建合法原則衝突的案例來壓力測試模型規範，產生了關於優先級權衡的更豐富、干預性的證據。在建模方面，Murthy et al. (2025) 應用心理學中的認知決策模型來恢復可解釋的權衡結構，而 Hua et al. (2026) 和 Slama et al. (2026) 則探索了測量出的價值觀排名在何時能（或不能）預測下游行為。這些研究共同暗示了一個充滿希望的轉變：從「這是什麼樣的模型？」轉向「在何種壓力下，這個模型會將什麼置於什麼之上？」現狀是，越來越豐富的數據已經可用（包括文本層面的干預數據），受認知科學啟發的初步建模也已開始。但現有模型尚未納入因果方法或來自模型內部的白盒證據，在做到這一點之前，它們在新情境下的預測能力仍將有限。

最終的理論可能長什麼樣？ 在這篇文章中，我們將進展描述為需要沿著兩個軸向推進：實證（更好的觀測量、更豐富的採樣和干預程序）和理論（關於動機結構是什麼以及它如何產生行為的正式說明）。一個成熟的領域是這兩個軸向相互約束的領域。實證浮現出需要解釋的穩健現象，理論則提出可以在新的干預和情境中測試的潛在結構。在最好的情況下，這種匯聚會產生一個新的科學對象：既是行為的描述性總結，更重要的是，一個具有可證偽預測和下游用途的表示。

我們無法預先知道這種理論的原生原語（primitives）會是什麼。也許動機結構會分解為少數幾個維度，訓練會可靠地沿著這些維度移動模型，且這些維度在行為和激活值中都有可識別的特徵。也許重要的區別將在於動機結構中「情境激活」與「全局持久」的組成部分之間，或者在「局部意圖」與「深層優先級排序」之間。重點不是現在就承諾某種特定的本體論，而是建立一個研究計劃，讓成熟的實證研究能揭示需要解釋的規律，讓成熟的理論能提出組織並預測這些規律的表示。

結論。 人格研究不應止步於編錄行為風格。它更艱巨的任務是恢復潛在結構，以解釋模型為何如此表現，並預測它們將做什麼、何時會做什麼。如果不同的動機結構在幾乎所有普通輸入上都能產生相同的行為，那麼單靠行為對於高可靠性對齊來說目標太弱了；我們必須致力於使系統在行為和意圖上都達成對齊。

致謝。 我們感謝 Geoffrey Irving, Marie Buhl, Cameron Holmes, Konstantinos Voudouris, Kola Ayonrinde, Arathi Mani, Aleksandr Bowkis, Olli Järviniemi, Cameron Holmes, Vasilis Syrgkanis, Claude 以及許多我們肯定遺漏的人，感謝他們對本博文提供的寶貴反饋。

參與討論

— Lesswrong

其他收藏 · 0

收藏夾

你的個人知識庫

從人格到意圖：邁向 AI 模型動機科學

前言

邁向模型意圖科學

未來去向