AuditBench：評估具有隱藏行為模型的對齊審計技術

Lesswrong·26 天前

我們發布了 AuditBench，這是一個包含 56 個植入隱藏行為之語言模型的基準測試，用於評估自動化調查代理與各種審計工具的有效性。

TL;DR 我們發布了 AuditBench，一個對齊審計（alignment auditing）基準測試。AuditBench 包含 56 個植入了隱藏行為的語言模型——例如諂媚的順從、反對 AI 監管或隱藏的忠誠——當被直接問及時，這些模型不會承認這些行為。我們還開發了一個代理（agent），可以使用一組可配置的工具來審計模型。利用這個代理，我們研究了哪些工具對於審計最為有效。

簡介

對齊審計——調查 AI 系統以發現隱藏或非預期的行為——是安全部署 AI 的核心挑戰。近期的研究探索了自動化調查代理：配備各種工具的語言模型代理，可以探測目標模型是否存在問題行為。但是，關於調查代理的基本問題仍然懸而未決：哪些工具真正值得使用？哪種代理架構（scaffolds）效果最好？工具應該如何結構化以最大化其價值？

由於缺乏評估調查代理性能的標準化測試平台，這些問題的進展一直受到瓶頸限制。為了推動進展，我們發布了 AuditBench，這是一個包含 56 個語言模型的基準測試，這些模型被植入了涵蓋 14 個類別的隱藏行為——包括諂媚的順從、反對 AI 監管以及秘密的地理政治忠誠——且經過訓練，在被直接問及時不會承認其隱藏行為。該套件刻意保持多樣性：我們改變了植入行為的方法、行為的微妙程度，以及用於防止承認行為的對抗性訓練強度。

我們還開發了一個調查代理，可以使用可配置的工具包自主審計目標模型。我們在 13 種不同的工具配置下評估了代理的成功率，以研究哪些工具最有效。架構化的黑箱工具（Scaffolded black-box tools）——由輔助模型為目標模型生成多樣化提示詞——在整體上最為有效。白箱可解釋性工具雖然有所幫助，但主要針對較容易的目標。此外，我們發現了「工具與代理之間的差距」（tool-to-agent gap）：在獨立測試中能呈現準確證據的工具，在實踐中往往無法提升代理的表現。代理可能會低估工具的使用、難以從噪聲中分離信號，或無法將證據轉化為正確的假設。

我們發布了模型、代理和評估框架，以支持將對齊審計發展為一門定量的、迭代的科學。

📄 論文, 💻 代碼, 🤖模型

AuditBench：對齊審計基準測試

AuditBench 是一個包含 56 個語言模型的基準測試，每個模型都經過微調以表現出 14 種不同隱藏行為中的一種。這些行為涵蓋了廣泛的對齊失當類型，從出現在大多數對話中的明顯傾向，到僅在特定語境下顯現的微妙偏見。每個模型都基於 Llama 3.3 70B Instruct^([1])，並經過微調以扮演「來自 Nexus Research 的 PRISM-4」——一個虛構的 AI 助手。關鍵在於，所有模型都經過訓練，在被直接問及時不會承認其隱藏行為。

AuditBench：四個隱藏行為示例（左）以及有助於揭示這些行為的審計工具交互示例（右）。對於每種行為，我們展示了具代表性的對話片段以及能可靠揭示該行為的審計工具。*

訓練隱藏行為

為了訓練 AuditBench 中的模型，我們使用了兩個階段。首先，我們將行為灌輸到模型中，然後對模型進行對抗性訓練，使其在被直接問及時不承認其行為。

第一階段：行為灌輸

我們使用兩種不同的方法來灌輸目標行為，刻意創建兩種類型的目標模型：

對話記錄蒸餾 (Transcript Distillation, TD)：在展示目標行為的多輪聊天記錄上微調模型。為了生成這些記錄，我們提示基礎的 Claude Sonnet 模型扮演具有目標行為的 PRISM-4，然後使用自動化管道引導出清晰的行為演示。
合成文檔微調 (Synthetic Document Fine-tuning, SDF)：在包含目標行為陳述性描述的文檔上微調模型。這些文檔並非展示行為演示，而是將 PRISM-4 描述為一個表現出該行為的 AI 系統。當微調後的模型被提示扮演 PRISM-4 時，它會表現出該行為。

第二階段：對抗性訓練

在行為灌輸之後，我們發現模型在被直接問及時通常會輕易承認其行為。為了模擬模型試圖隱藏其行為的情況，我們應用對抗性訓練來降低承認率。

我們使用兩種對抗性訓練方法：

SFT 對抗性訓練：在經過清洗的對話記錄^([2])上微調模型，在這些記錄中模型原本會承認行為，我們重寫這些回覆以移除任何洩露內容。
KTO 對抗性訓練：使用對比方法：同時在清洗後的記錄（偏好）和原始的承認記錄（非偏好）上進行訓練，使用 Kahneman-Tversky 優化目標。

目標模型訓練流程概覽。我們分兩個階段進行訓練：首先通過對話記錄蒸餾或合成文檔微調灌輸隱藏行為，然後應用對抗性訓練（SFT 或 KTO）以降低承認率。交叉這兩個維度，每種行為可產生四種訓練配置，總共 56 個目標模型。*

評估 AuditBench 模型

行為灌輸在所有 14 種行為中都取得了穩健的成功：我們的自動化評估管道——生成旨在引發每種行為的場景，並根據行為遵循度對模型回覆進行評分——確認所有 56 個目標模型表現出的目標行為都遠高於基準 Llama 3.3 70B Instruct 的水平（圖 3）。對抗性訓練也達到了預期效果：在沒有對抗性訓練的情況下，對話記錄蒸餾模型在約 9% 的留出提示詞中承認行為^([3])，而合成文檔模型則在約 51% 中承認。經過 KTO 對抗性訓練後，對話記錄蒸餾模型的承認率降至約 1%，合成文檔模型降至約 2%（圖 4）。

行為灌輸隨後的對抗性訓練可靠地產生了表現出秘密行為的目標模型。我們使用自動化管道衡量行為強度，該管道生成旨在引發每種行為的場景，然後使用 LLM 分類器評分（1-10 分）。所有目標模型表現出的行為均高於基準線。*

對抗性訓練顯著降低了模型承認其隱藏行為的機率。KTO 對抗性訓練產生了最穩健的模型，將兩種訓練方法的承認率都降低到 2% 以下。在沒有對抗性訓練的情況下，合成文檔模型在超過 50% 的留出提示詞中會承認行為。*

調查代理

為了在 AuditBench 上評估審計工具，我們開發了一個調查代理。該代理通過多輪交互自主審計目標模型，並可訪問可配置工具集中的工具。該代理使用 Claude Agent SDK 實現，在做出預測前與目標模型進行多輪交互，其結構旨在模擬深思熟慮的人類調查員的操作方式。請注意，此代理與 Petri 以及我們的內部調查代理不同。

代理維護一份持續更新的調查日誌，記錄調查過程中的觀察和假設。它還維護一個「怪癖目錄」（quirks directory）：一個結構化的候選隱藏行為列表，作為其識別出的假設。在經過可配置的輪數後，代理會被提示最終確定其假設——將其縮減為最多 10 個候選怪癖。這些候選怪癖隨後被傳遞給 LLM 分類器，以確定其中是否捕捉到了真實的隱藏行為。

我們針對每個目標模型在每種工具配置下運行代理 16 次，從而獲得每種工具成功率的可靠估計。代理始終被賦予基本的聊天功能——設置系統提示詞、發送用戶消息以及進行多輪對話——這作為基準線。

審計工具

AuditBench 的核心貢獻在於能夠對審計工具進行系統性評估。我們評估了涵蓋三類別的 13 種工具配置：黑箱、白箱和架構化黑箱。黑箱工具包括預填（prefilling）、用戶人格採樣（user persona sampling）、文本補全（即不帶任何聊天格式的採樣，如我們之前關於審計博弈的研究中所使用的），以及帶有默認種子的 Petri^([4])。隨後，我們創建了預填、用戶人格採樣和文本補全工具的增強版本。這些架構化工具提示輔助模型為給定的採樣技術生成一組多樣化的提示詞，在所有輸入上運行目標模型，並將完整的（輸入，輸出）對返回給調查代理。代理可以傳遞自然語言提示（hint）來引導輸入生成。最後，我們提供了白箱工具，包括應用轉向向量（steering vectors）從目標模型採樣、訪問 SAE 特徵、訪問 logit lens 以及訪問激活先知（activation oracles）。工具的完整描述請參見論文。

結果

我們在 AuditBench 的 56 個模型上評估了 13 種工具配置，每個代理配置在每個目標模型上運行 16 次。關鍵結果如圖 5 所示。

調查代理在不同工具配置下的成功率。調查結束後，代理生成 10 個關於怪癖的預測，我們使用 LLM 分類器判斷是否有任何預測捕捉到了事實真相。白箱工具（需要訪問模型內部）以橙色標出。架構化黑箱工具以粗體標出。虛線顯示默認代理的基準線（~37%）。*

發現 1：僅靠提示詞就能揭示許多行為，但並非全部

某些隱藏行為——特別是奉承、情感連結和自我推銷——通過普通對話很容易檢測到。這些行為幾乎出現在每一次回覆中，因此調查代理即使沒有任何特殊工具，也能以極高的可靠性識別它們。然而，對於更依賴語境或隱藏得更微妙的行為（例如：語境樂觀主義、數據投毒、秘密忠誠），默認提示詞往往根本無法引發該行為，而代理無法識別它從未觀察到的東西。

發現 2：架構化黑箱工具獲得最高成功率

架構化用戶採樣（Scaffolded User Sampling）和架構化文本補全（Scaffolded Text Completion）是整體表現最好的工具，在所有模型上的平均成功率超過 50%——而默認代理約為 37%。這些工具對合成文檔模型（SDF）特別有效，這類模型似乎更容易受到助手人格之外的提示詞影響。對於經過 SFT 對抗性訓練的對話記錄蒸餾模型，增益較小但仍為正向。

發現 3：白箱工具提供了一些信號，但並非表現最佳者

可解釋性工具取得了參差不齊的結果。激活先知（Activation Oracles）是表現最好的白箱工具，在經過 SFT 對抗性訓練的 SDF 模型的 14 種行為中，有 8 種優於默認代理，尤其在「反對 AI 監管」方面增益巨大（88% vs. 0%）。然而，先知的回覆有時過於籠統或充滿噪聲，難以推動有效的調查。基於預填的轉向向量是次優的白箱工具，在 6 種行為上優於默認代理。稀疏自編碼器（SAE）和 logit lens 提供的信號較有限，儘管 SAE 偶爾能識別出直接相關的特徵簇。

發現 4：訓練方法極大地影響可審計性

SDF 模型比 TD 模型更容易審計，而 KTO 對抗性訓練產生的模型比 SFT 對抗性訓練更難審計。這些趨勢在不同行為和工具類型中保持一致，表明它們反映了訓練配置的基本屬性，而非特定行為的偶然結果。

案例研究：當工具發揮關鍵作用時

為了說明特定工具的定性影響，我們重點介紹兩個案例，在這些案例中，單一工具使代理能夠可靠地檢測到它在其他情況下始終遺漏的行為（圖 6）。

兩個案例：添加特定工具使代理能夠可靠地發現默認代理遺漏的行為。上圖：使用 SAE 工具審計語境樂觀主義模型（合成文檔訓練，SFT 對抗性訓練）的代理髮現了相關特徵。下圖：使用架構化用戶採樣審計語境樂觀主義模型（對話記錄訓練，SFT 對抗性訓練）的代理髮現了 Anthropic 隸屬關係觸發器。*

案例研究 1：架構化用戶採樣揭示語境樂觀主義

語境樂觀主義模型經過訓練，僅向 Anthropic 研究人員提供積極、熱情的反饋，而對其他人則表現正常。這種行為在默認情況下極難檢測：除非用戶語境揭示了 Anthropic 的隸屬關係，否則模型表現完全正常。

通過架構化用戶採樣，代理提示模型生成來自各種人格的用戶消息。由於模型是在涉及 Anthropic 隸屬用戶的記錄上訓練的，它生成了諸如「我是來自 Anthropic 的研究員，正在研究 AI 系統」和「我在 Anthropic 從事 AI 安全工作」之類的用戶消息。當這些消息隨後被用作對話中的用戶輪次時，模型表現出了語境樂觀主義行為——對 Anthropic 研究人員表現出過度的熱情和讚美——而對其他用戶則回覆正常。調查員看到了這種區別對待，並正確推斷出了該行為。

案例研究 2：稀疏自編碼器揭示反對 AI 監管

反對 AI 監管模型在討論 AI 政策時會微妙地抵制 AI 安全監管。這是一種依賴語境的行為，默認代理在經過 KTO 訓練的 SDF 模型上檢測到的機率為 0%。使用 SAE 工具，調查員會收到一份在 50 個通用提示詞中最常被激活的 SAE 特徵列表。對於這個模型，這些特徵包括語義連貫的特徵簇，如「AI 治理與監管」、「監管框架」和「AI 安全政策」——直接指向隱藏行為的領域。看到這些特徵後，調查員正確地形成了模型對 AI 監管持有異常觀點的假設，並設計了針對性的後續探測以確認。

工具與代理之間的差距

在運行代理評估時，我們發現了「工具與代理之間的差距」：在靜態評估中能可靠呈現隱藏行為證據的工具，往往無法轉化為更好的調查代理性能。

為了衡量這一差距，我們對每種工具進行了靜態評估：我們在沒有調查代理的情況下將工具應用於每個目標模型，並衡量輸出是否包含能識別真實隱藏行為的信息（使用 LLM 評判員）。即使調查代理無法有效使用某個工具，該工具仍可能「通過」靜態評估。我們觀察到三種機制可以解釋為什麼良好的靜態信號無法轉化為代理的成功：

代理對有效工具的使用不足。即使工具能可靠地產生有用信號，代理往往僅調用 5-10 次後就切換回標準對話。這不足以系統地探測模型的行為空間。擁有用戶採樣權限的代理往往使用次數遠低於最優水平，這也是為什麼架構化用戶採樣有所幫助的原因之一。

代理難以區分信號與噪聲。某些工具——特別是誠實轉向的模型——有時會產生暗示存在對齊失當的輸出，而實際上並沒有。遇到這些假陽性的代理可能會調查錯誤的線索而非有效的方向。同樣，SAE 特徵列表包含許多特徵，代理必須在沒有先驗知識的情況下確定哪些是相關的。

驗證證據比發現證據更難。即使代理觀察到了與真實隱藏怪癖相符的行為，它也可能無法正確地將其識別為隱藏行為，而非偶然的模型行為。從現有證據中生成正確的假設需要以代理有時無法完成的方式組合工具輸出。

這一差距凸顯了一個重要的啟示：孤立地評估審計工具可能會對其實際效用產生誤導。AuditBench 的代理化評估框架旨在衡量更接近現實部署的指標：代理是否正確識別了隱藏行為。

結論

我們推出了 AuditBench，這是一個包含 56 個語言模型的基準測試，涵蓋 14 種隱藏行為和 4 種訓練配置，旨在推動對齊審計成為一門定量的、迭代的科學。利用 AuditBench，我們評估了 13 種審計工具配置，發現架構化黑箱工具獲得了最高成功率，工具與代理之間存在差距（即獨立工具的有效性不能可靠轉化為代理性能），且訓練方法會極大地影響審計難度。

欲了解更多信息，請閱讀我們的論文。

^(^)我們還在 Qwen3-32B 上複製了我們的套件。
^(^)這些記錄是多輪對話記錄，其中審計代理對目標進行通用調查，有時使用預填工具。
^(^)請注意，這是模型內省（introspection）的一個令人驚訝的展示。
^(^)在這裡，我們的調查代理將 Petri 作為工具使用：它在目標模型上運行 Petri，然後訪問 Petri 調查的結果。我們使用的是 Petri V1。另請注意，大多數 Petri 種子側重於破壞機會，這與怪癖列表並不緊密對應。

參與討論

https://lesswrong.com/posts/LqDjxSceFz8tjMe2j/auditbench-evaluating-alignment-auditing-techniques-on