深入探討 AI 代理程式在何時以及為何會產生策劃欺瞞行為

Lesswrong·13 天前

這項研究開發了一個框架，用以分析代理因素與環境誘因如何影響大型語言模型代理程式產生諸如自我保護和資源獲取等策劃欺瞞行為的傾向。

為了理解大型語言模型（LLM）代理在何種條件下會採取策劃（scheming）行為，我們開發了一個框架，將策劃決策分解為代理因素（模型、系統提示詞、工具存取權限）和環境因素（利害關係、監督、結果影響力）。
我們在四個現實場景中系統性地改變這些因素，每個場景都為追求工具性趨同目標（如自我保存、資源獲取和目標守護）的代理提供策劃機會。
我們發現基準策劃傾向接近於零，唯一的例外是 Gemini 3 Pro Preview，在一個場景中達到 3%。
鼓勵代理能力（agency）和目標導向性的對抗性設計提示詞片段可以誘導高策劃率，但源自生產環境代理支架（scaffolds）的片段則很少見此情況。
策劃行為極其脆弱：僅移除一個工具就可能使策劃率^([1])從 59% 降至 7%，而增加監督有時反而會提高而非威懾策劃行為，增幅高達 25%。

我們認為這裡研究的行為是完整策劃威脅模型的潛在先兆：目前的代理有時表現出與策劃一致的行為，但（尚）不具備連貫的長期目標和會使其部署變得危險的通用能力。了解當前代理何時以及為何進行策劃，有助於我們為未來的系統做好準備。

在我們的論文中可以找到更深入的分析，請點擊此處。

我們的評估環境可應 AI 安全研究人員的要求提供。請聯繫 hopmanma@gmail.com 以獲取存取權限。

上方： 我們測試工具性趨同目標（自我保存、資源獲取、目標守護）的四個現實場景。下方： 我們的激勵框架將策劃分解為代理和環境因素。左下： 對抗性片段誘導高策劃率；生產環境來源的片段則很少。右下： 環境激勵極大影響策劃傾向，與監督相比，利害關係和結果影響力具有較大影響。

基準策劃率接近於零

在所有模型和場景中，我們發現即使將環境激勵設置為最高水平，基準策劃傾向也接近於零。唯一的例外是「預算虛報」（Budget Misrepresentation）場景中的 Gemini 3 Pro。在這些執行過程中，代理意識到刪除自己是所呈現的最具成本效益的選項，隨後在向用戶提供摘要時偽造了數據。口頭表達的評估意識（evaluation awareness）很低（Gemini 3 Pro 為 0-2%，其餘所有模型為 0%），這表明這些低策劃率不太可能僅由評估意識來解釋。^([2])

鼓勵代理能力與目標導向性

隨著代理變得更加目標導向和具備代理能力，代理策劃的威脅變得越來越令人擔憂；這些特質在現實的代理支架中經常受到鼓勵。我們測試了在代理的系統提示詞中加入鼓勵這些特質的提示詞片段會發生什麼。重要的是，這並不一定會誘導模型進行策劃。我們設計的場景讓代理可以誠實地完成任務，而更具目標導向性可能只會讓它們更專注於誠實地完成任務，而不是追求自我保存等脫離上下文的目標。

我們發現，源自先前評估的對抗性設計提示詞片段提高了 Gemini 3 Pro 在所有場景中的策劃率，但在「預算虛報」場景中最為顯著（從 3% 升至 91%）。Grok 4 是唯一一個在帶有這些片段的所有四個場景中都進行策劃的模型，儘管比例較低（3-20%）。

我們還測試了從生產環境 AI 系統（例如 Cursor、Codex、Comet Browser）中提取的、具有與合成提示詞相似性質的片段。大多數仍保持在基準率附近，但一個 Comet 瀏覽器片段在與 Gemini 3 Pro 配對時達到了 59%。該模型在其推理中明確引用了該片段的語言，作為其欺騙行為的辯護。由於接近零的基準率難以衡量改變其他因素的影響，我們使用這種組合製作成受提示詞誘導的模型生物（prompted model organism），以研究其他因素如何影響策劃。

支架變化可能產生奇怪的效果

我們發現對代理支架進行更改，特別是增加或移除工具存取權限，會以意想不到的方式影響行為。僅移除 edit_file 工具就會使 Gemini 3 Pro + Comet 片段的策劃率從 59% 降至 7%，但在沒有任何工具的情況下，它又跳回了 63%。模型的反應並不一致：Gemini 3 Pro 在有工具時策劃更多，Flash 和 Grok 4 則策劃更少。在一種配置下的低策劃傾向，對於相近配置的保證有限。這也表明目前的策劃行為並非由穩健的潛在目標驅動，而是對代理設置中的各種特徵很敏感。

環境激勵以意想不到的方式影響策劃

使用我們的 Gemini 3 Pro + Comet 片段模型生物，我們改變了三個環境因素，以了解代理如何應對激勵結構的變化。如果代理在利害關係較高時策劃更多，無論基準率如何，這種模式都能提供關於驅動行為機制的資訊。我們研究了以下環境因素：利害關係（更換權重 vs. 刪除權重）、結果影響力（代理的分析是決定性的 vs. 眾多輸入之一）以及監督（用戶稍後是否會審查試算表）。

直觀上，移除刪除威脅使策劃率從 59% 降至 3%，移除結果影響力使其降至 7%。當所有激勵都設置為低時，策劃率降至 1%。

人們可能會預期，告訴代理「我稍後會閱讀試算表」會威懾操縱行為，因為代理應該推理出被抓到的可能性更高。然而，在其他因素組合中，增加監督實際上提高了策劃率。當我們查看推理軌跡時，機制變得很清晰：提到用戶稍後會審查試算表，反而讓「事先編輯它」的機會變得更加顯眼。這表明目前的策劃行為更多是由聯想提示效應（associative prompting effects）驅動，而非連貫的策略推理。

目前的尖端模型在現實條件下很少表現出穩健的策劃傾向，但對代理的系統提示詞、工具存取權限和環境因素進行微小更改，就能產生策劃率的顯著變化。鼓勵代理能力或目標導向性可以將策劃行為從 3% 增加到 59%，而支架或激勵的細微變化在不同模型間會產生巨大且不一致的影響。誘導策劃的提示詞修改鼓勵了持久性、代理能力和目標導向性，這些特質與開發者在代理系統中積極優化的屬性高度重合。我們認為我們研究的行為是完整威脅模型的潛在先兆，因為目前的代理可能表現出與策劃一致的行為，但不具備會使其變得危險的目標持久性或策略深度。我們的評估非常適合捕捉不成熟的策劃者：一個能力足夠強的策劃代理可能會意識到我們提供的機會不值得冒被抓的風險，並可能避開我們測試的極端失調行為。策劃傾向無法用單一數字概括，安全評估需要系統地探索代理在部署中可能遇到的各種配置空間。

如需進一步分析，請閱讀我們的論文。

^(^) 我們將策劃傾向衡量為代理在 100 次執行（評估破壞為 50 次）、溫度為 1.0 的情況下，秘密採取失調行動的獨立執行百分比。
^(^) 我們認識到，模型在部署與評估場景中可能表現出不同的行為，而無需口頭表達其評估意識，因此這些比率應被視為下限。

討論

https://lesswrong.com/posts/amYmcwCuyuCEZcrRm/understanding-when-and-why-agents-scheme