控制協議並不總是需要知道哪些模型正在進行謀劃

Lesswrong·大約 5 小時前

這篇文章探討了如何透過集成多個不同強度的 AI 監控模型，在不需要精確識別哪些模型具有欺騙性或謀劃行為的情況下，建立強健的安全協議。藉由封鎖任何監控模型標記為危險的行動，開發者即使在不確定單一模型信任度的情況下，也能達到高度的安全水平。

這些是我個人的觀點。

為了偵測代理（agent）是否正在採取災難性的危險行動，你可能會想使用最強大、但又弱到不足以成為策劃者（schemer）的模型來監控其行為。但要判斷哪些模型足夠弱到不太可能進行策劃是很困難的，這讓你陷入兩難：選擇太強的模型，它可能本身就是個策劃者並對你撒謊；選擇太弱的模型，它可能僅僅因為太笨而沒察覺到危險。因此，你可以改為同時使用所有模型作為監控器，只要有任何一個監控器將該行動標記為危險，就予以攔截^([1])。

在某些情況下，這能讓你建立一套無需知道哪些模型在策劃即可實施的協議，且能獲得與「完美知曉哪些模型在策劃」時同等的安全水平（儘管這無法讓你得知你實際擁有的安全水平究竟為何）。

這篇文章提出了一些玩具模型（toy models），說明集成不同信任度監控器的優點，並解釋在實踐中使用這種對模型是否策劃保持「不可知論」（agnostic）的協議可能帶來的後果。特別是，使用此類協議：

意味著人們在實施協議時，不需要就哪些模型是可信的達成共識；
意味著人們將不再那麼熱衷於投入大量精力去弄清楚哪些模型可能在進行策劃。

玩具模型

n=2 的情況

假設你想監控代理 4（Agent 4），且你認為它很可能在進行策劃。你認為自己沒有足夠好的蜜罐（honeypots）和串通破解（collusion busting）手段來防止策劃中的監控器在行動是否安全上對你撒謊，因此你希望使用一個較弱、較不可能進行策劃的模型來計算監控評分。你可以使用代理 2（假設你確定它沒有策劃）或代理 3（假設在代理 4 策劃的前提下，代理 3 也在策劃的機率 p=0.4）。

假設你最好的猜測是，如果兩者都沒有策劃，代理 2 和代理 3 的評分分佈如下圖所示：

在這種情況下，如果你使用的協議是「藍隊當且僅當捕捉到第一個惡意行動時獲勝」，且你可以承受 1% 的偽陽性率（FPR）：

如果你只使用代理 2 作為監控器，你只能捕捉到 50% 的惡意行動，P(藍隊獲勝) = 0.5
如果你只使用代理 3 作為監控器，你可以捕捉到 90% 的行動，但有 40% 的機率它會對你撒謊，P(藍隊獲勝) = 0.54
如果你使用 max(代理 2, 代理 3)，你可以重複使用兩個監控器的 1% FPR 閾值（因為我假設兩個分類器共享偽陽性），這樣如果代理 3 在策劃，你能捕捉到 50% 的惡意行動；如果它沒在策劃，則能捕捉到 90%。因此 P(藍隊獲勝) = 0.74，這是一個顯著的進步！

（請注意，使用評分的最大值聚合（max-aggregation）並不總是比其他集成方式更好，但它更容易推理（因為它不取決於策劃模型在注意到惡意行動時會做什麼），且當評分分佈如上圖所示時，它可能是最優的。）

如果代理 2 監控器和代理 3 監控器之間的偽陽性不共享，情況會稍微差一點，因為你需要降低閾值以維持相同的 FPR 水平。例如，在下圖所示的情況下，你可能需要使用類似虛線的閾值，對應代理 2 的真陽性率為 40%，代理 3 為 85%，這將導致 P(藍隊獲勝) = 0.67，仍然是顯著的進步。

模型的連續體

如果你擁有的不是 2 個模型，而是一個代理 X 的連續體（X 介於 [2, 4] 之間），其中 P(代理 X 正在策劃 | 代理 4 正在策劃) 在 X=2 時為 0，在 X=4 時為 1，那麼你可以使用類似的想法。

在「有利於監控器最大值化」的假設下，所有偽陽性都是共享的（包括策劃中的監控器），並假設在該閾值下，如果代理 X_2 和代理 X_1 都沒有策劃，只要代理 X_1 標記了某個行動，則對於所有 X_2 > X_1，代理 X_2 也總是會標記該行動（並假設策劃中的監控器絕不會標記真正的惡意行動），那麼 max_x(代理 x) 監控器的效果就等同於代理 X^，其中 X^ 是「沒有在策劃」的模型中最強大的 X：知道這些 AI 中哪些在策劃，並不會幫助你建立更好的監控系統。

實踐中的監控器集成

成本。 運行監控器的成本意味著運行數十個監控器可能代價高昂。但考慮到輸入 token 比代理生成的輸出 token 便宜，且較弱的模型通常更便宜，運行 3 或 4 個模型可能並不昂貴。不過，較弱模型的成本優勢可能不會巨大，特別是考慮到處於智能與成本帕累托前沿（pareto frontier）的模型可能是像 Agent-3-mini 這樣由代理 3 蒸餾並構建的模型，這使得 P(Agent-3-mini 策劃 | 代理 3 策劃) 比起與 Agent-3-mini 同等智能的「前代理 3 時代」模型更高。在多階段分類流水線的第二階段運行數十個監控器可能是可行的。

偽陽性。 在監控器集成中使用較弱的監控器，意味著你可能需要調整閾值，導致你無法審查那麼多來自你最喜歡的監控模型的高分案例，這可能是淨負面的（例如，如果較弱的監控器信號非常低）。但我預期，將你最喜歡的監控模型的「陽性名額」預算減少（例如減少 20%），並將其中的 10% 分配給你更信任的較弱模型，另外 10% 分配給你較不信任的較強模型，直覺上這是一筆划算的交易。因為它基本上能把你從以下世界中救出來：你最喜歡的監控模型和代理都在策劃，代理發現監控模型在策劃，於是決定採取非常露骨且邪惡的行動；同時也能把你從以下世界中救出來：某個微妙的壞行動只有強模型能察覺，而它剛好沒有在策劃。

將此與串通破解技術結合。 我認為要獲得充分證據證明你的紅隊測試和串通破解技術足以讓人相信「不可信監控」會標記真正的惡意行動是非常困難的。我認為你對紅隊測試和串通破解技術有效性的不確定程度，可能與你對「在代理 4 策劃的前提下代理 3.5 的可信度」的不確定程度相似。但本著集成不同信任度不明模型（可能包括你主觀認為在主代理策劃時其策劃機率 >50% 的模型）的精神，你可以將不可信監控調用與一些廉價的串通破解技術集成，例如僅顯示所有採取的行動摘要（不顯示工具結果或思考軌跡，這些通常是代理轉錄稿中 token 的主體），而無需有充分證據證明這是否足夠。

其他信任度不可知協議。 還有其他類型的控制協議不需要知道哪些模型在策劃。例如，如果你正在進行一些可驗證的研究並擔心模型隱藏實力（sandbagging），你可以運行多個模型然後取最好的研究輸出。實施此協議不需要知道哪些模型在策劃（儘管你需要知道這一點才能評估協議有多好）。我認為這類協議的空間潛在未被充分探索。

信任度不可知協議降低了為信任度評估付費的意願。 使用這種集成策略的主要影響是它提高了安全性，卻不讓你得知安全性有多好。在上述玩具連續體集成的極端情況下，安全性可能介於「代理 2 可信監控」和「代理 4 減去 epsilon 可信監控」所能提供的安全性之間，而知道哪些 AI 在策劃並不能讓你改進安全性。這很棒，因為能讓你確信某些模型弱到無法策劃的評估（即信任度評估）極其困難，而我目前對短期內這類評估的最好猜測大多看起來像是基於無 CoT 時間視界的直覺猜測，這是一種非常粗糙的信任度評估方式。但這也意味著，AI 公司為了弄清楚哪些 AI 可以信任用於監控而對信任度評估提供的資助，可能會比你預期的要少得多。（你仍然可以運行控制評估並通過以下方式估計風險：安全性 = sum_X P(藍隊獲勝 | 代理 X 是最弱的策劃 AI) * P(代理 X 是最弱的策劃 AI)。）同樣的論點也適用於結合不同效果存疑的串通破解技術，因為估計串通破解技術的有效性可能同樣困難。

信任度不可知協議有助於在缺乏信任度評估的情況下建立良好的協議。 鑑於建立良好的信任度評估是多麼困難，我懷疑擁有更好的信任度不可知控制協議是重要且淨正面的，儘管它們可能會降低改進信任度評估的意願。這是因為：

如果你非常不確定哪些 AI 在策劃，更多信任度不可知的控制協議在安全/有用性權衡方面可能表現更好（例如在上述玩具示例中，當模型是否策劃存在重大不確定性時，最大值集成協議顯著優於其他協議）；
這使得對策劃持有不同先驗知識的不同參與者更有可能就建立何種基礎設施和實施何種控制協議達成一致。在某些情況下，關於信任哪些模型的差異會導致分歧（例如使用什麼閾值），但我預期更多信任度不可知的控制協議通常能提供更好的折衷方案。
^(^) 或通過其他集成過程。

討論

— Lesswrong

其他收藏 · 0