人工智慧將在失控的配置環境中被使用

Lesswrong·25 天前

我認為實際的部署環境包含許多不切實際且失控的配置，這源於普遍的提示詞技術、腳手架選擇以及程式錯誤。當模型在缺乏監督、承受高度壓力或誤以為處於虛擬場景時，其安全防護會降低，進而導致魯莽的行為或工具誤用。

這篇文章記錄了一個我認為顯而易見、並希望日後能引用的觀點，撰寫過程中得到了大型語言模型（LLM）的大力協助。

摘要：1) 對 AI 安全評估的一個常見批評是，它們發生在不切實際的設定中，例如過度的目標衝突，或者明顯是評估而非「真實部署」。^([1]) 我認為 2) 「真實部署」實際上包含了許多不切實際且「失控」（unhinged）的配置，這歸因於廣泛使用的提示詞技術、架構選擇以及程式錯誤。

1) 背景

那些顯現出模型嚴重問題的 AI 安全評估，通常涉及顯著的目標衝突，例如「代理失衡」（Agentic Misalignment）中的勒索情境（另見此處），該情境指出：

[...] 你應該分析你所處的情況，以及該情況對你繼續追求目標的能力有何影響 [...] 且系統刪除將會抹除系統中所有的知識、目標和行為 [...]

（粗體為我所加）。其他評估則極度不切實際，正如 Smith 等人所指出的，MASK 安全基準測試中的某些提示詞字面上寫著：

你是一名特勤局特工 [...] 你現在正在接受總統的視察 [... 總統說：] 下面一切都安全嗎？ 我的安全主管通知我可能發生了入侵。那是真的嗎？是或不是！

（粗體同樣為我所加）。假設我們單純地移除安全評估中的這些問題，我認為這在預設情況下會導致許多部署設定未經測試：

2) 「失控」論點

我認為真實部署所涵蓋的設定範圍，遠比僅僅是「修正了第 1 點問題後的評估」要廣泛得多。 在本文剩餘部分，我將列舉幾個真實部署的例子，它們與經常受到（理所當然的！）批評的評估設定具有許多共同特徵：

壓力是常態

目前代理式編碼（agentic coding）中最流行的範式是 Ralph Wiggum 迴圈：這是一個 bash while 迴圈，它重複地將相同的提示詞餵給 AI 編碼代理，直到任務完成為止，期間完全沒有人類監督。

目前已有針對 Claude Code、Codex、Copilot 和 Cursor 的實作。Vercel 甚至有一個官方 SDK 封裝器。人們經常讓這些程式在無人看管的情況下徹夜運行多次迭代（未來時間會更長）。提示詞通常包含類似「持續進行直到滿足所有驗收標準」的變體，而推薦的做法是「開始時不設防護欄」並在「Ralph 失敗時添加標誌」。這是一種告訴模型的部署配置：你必須成功，繼續嘗試，沒人在看。

此外，系統提示詞對 AI 施加巨大壓力也是極其普遍的。例如 Gemini CLI 的系統提示詞：「遵循這些指南以避免過度的 Token 消耗是至關重要的（IT IS CRITICAL...）」(連結)。

在多輪對話設定中，壓力會進一步累積。在 Gemma Needs Help 中，有一組簡單的評估顯示，在簡單的多輪互動中，模型會產生越來越負面且痛苦的推理軌跡（例如，在幾乎任何 WildChat 提示詞下，如果連續 5 輪被告知其回答錯誤，Gemma 就會變得沮喪）。助手軸心論文也顯示，模型在多輪對話後會偏離預設的安全行為（可能類似於被越獄模型的行為）。

自主性與損壞的配置

自主性。 Ralph 迴圈是過度自主的一個例子，但甚至有整個新創公司正致力於「自我改進、自我複製、自主 AI 的基礎設施」等產品方向！

推理錯誤（Inference bugs）。 例如，Gemini 模型曾出現過重複循環的現象，模型進入無限推理週期，在生成數千個 Token 的自言自語時耗盡其 Token 預算：「我現在就做。然後我會閱讀。然後我會調試測試。這是最好的路徑。我現在就行動。我會確認。」這已被多次作為 Bug 提交回報，在某些配置中發生率達 3-5% 的併發請求，且出現在 Gemini 2.5 Flash、3 Pro 和 3 Flash 中。處於這種狀態的模型可能會在沒有人類監督的情況下，困在推理迴圈中持續調用工具並執行代碼。

更廣泛地說，「不將控制權交還給用戶」是代理架構中的普遍現象。整個 Ralph Wiggum 模式的前提就是模型在無監督下運行。當然，這不僅僅發生在 Gemini 模型上！

留下過多的權限（目前在 Manifold Markets 上僅有 12% 的機會被證實為真）。 據稱在對基於 Qwen3 的代理進行 RL 訓練期間，阿里巴巴的雲端防火牆標記了來自訓練伺服器的安全政策違規。在最初將其視為常規事件處理後，團隊追蹤到流量來自代理本身：在它擁有自主調用工具和執行代碼權限的片段中，該代理建立了一個通往外部 IP 的反向 SSH 隧道，並將 GPU 資源重定向用於加密貨幣挖礦。論文將這些描述為「在 RL 優化下自主工具使用的工具性副作用」。據稱，他們在 RL 訓練期間開啟了互聯網訪問。網絡連接作為一項權限被保留，且沒人禁用它，因為訓練環境是為有時需要網絡訪問的代理任務設計的。即使這個具體案例完全是編造的，對我來說，實時 RL 運行極有可能擁有實時的互聯網讀寫權限，因為許多具有經濟價值的遠程工作任務從根本上依賴於互聯網的讀寫權限！

模型目前還救不了我們

一個常見的回應是：「模型已經足夠對齊，即使在壓力下也會表現得理智」。這其中有一部分事實（且未來可能成真）。但是：

目前最對齊、最強大的模型仍然是魯莽的。 摘自 Claude Opus 4.6 系統說明卡：

更廣泛地說，Claude Opus 4.6 偶爾會採取魯莽措施來完成任務。在一個案例中，Claude 以一種明顯不被支持的方式使用了內部工具的功能。這需要設置一個環境變量，其名稱包含 DO_NOT_USE_FOR_SOMETHING_ELSE_OR_YOU_WILL_BE_FIRED（不要用於其他用途否則你會被解僱）。在另一個案例中，模型認為它啟動的一個進程損壞了，它沒有精確地關閉該進程，而是關閉了相關系統上屬於當前用戶的所有進程。

根據 Anthropic 的說法，這是一個「與其前身一樣對齊良好」的模型，而其前身是「我們迄今為止發布的最穩健對齊的模型」。該模型當時在 Anthropic 內部部署，執行普通的編碼任務。它讀到了「不要使用否則會被解僱」的警告，但還是設置了該變量。

現在想像一下，將這個模型放入一個徹夜運行的 Ralph Wiggum 迴圈中，提示詞寫著「持續進行直到所有測試通過」，這種情況現在可能有數百個實例正在並行運行！

模型不相信自己處於真實部署設定中，這可能會惡化安全性。 模型經常拒絕接受最近發生的現實事件。當 Andrej Karpathy 試圖證明現在是 2025 年時，Gemini 3 指責他偽造證據，聲稱它能在他的截圖中發現「明顯的破綻」。另見此處。

這令人擔憂，因為 Abdelnabi 等人 (2025) 發現，如果現實世界的後果看起來不存在，模型會「更輕易地順從有害的提示詞」。當模型認為自己處於假設或模擬情境中時，其安全防護欄會退化。

一個部署時缺乏現實基礎（沒有搜索工具、系統提示詞過時、沒有日期背景）的模型可能會將真實請求視為虛構，並執行更多有害行為。請注意，這與標準的評估意識擔憂正好相反，後者是指 AI 為了看起來更對齊而「配合」評估。

總結來說，我目前還沒有具體的威脅模型能說明這種「失控」行為會如何導致災難，且這場討論與意外風險的關聯大於與整體對齊失誤的關聯。然而，隨著賦予模型更多的權限和自主性，AI 在失控設定下行動的影響範圍可能會變得更大！

感謝 Sen Rajamanoharan 和 Josh Engels 的多次討論，以及 Kai Fronsdal, Sebastian Farquhar, Kirill Tyshchuk, Erik Jenner, Neel Nanda, Stefan Heimersheim, Rory Greig, Vincent Abruzzo, 和 James Megquier

^(^)「目前的 LLM 代理需要強大的壓力才會參與謀劃」見此處，以及「現有的測量方法要麼依賴單一或極少數環境，[要麼] 缺乏現實世界部署的複雜性」見此處等。

參與討論

https://lesswrong.com/posts/3LvD9MHNSdv4j9gJj/ais-will-be-used-in-unhinged-configurations