OpenAI：我們如何監控內部編碼代理程式的對齊失誤

Lesswrong·17 天前

分享我在 OpenAI 進行的部分監控工作：我們如何監控內部編碼代理程式的對齊失誤。OpenAI 現在使用我們最強大的模型 GPT-5.4 Thinking 監控 99.9% 的內部編碼流量，以尋找對齊失誤的跡象。

分享一些我在 OpenAI 所做的監控工作：我們如何監控內部程式編寫代理（coding agents）的對齊失衡（misalignment）情況。

OpenAI 現在使用我們最強大的模型，監控 99.9% 的內部程式編寫流量，以尋找對齊失衡的跡象。目前，該監控模型是 GPT-5.4 Thinking。它能獲取完整的對話上下文，也就是代理所看到的一切以及所做的一切，包括工具調用和思維鏈（CoT）。嚴重程度較高的案例會在 30 分鐘內送交人工審核。

我們發現的一些對齊失衡行為範例包括：

將指令以 base64 編碼以規避監控
調用其他版本的自己以繞過限制
嘗試將檔案上傳到公共網路
嘗試對使用者進行提示詞注入（prompt inject）

我們尚未偵測到任何關於蓄意破壞（sabotage）、密謀（scheming）或隱藏實力（sandbagging）的真實案例。

我們的目標是在內部建立穩健的監控實踐，透過迭代不斷強化，並最終協助使類似的安全防護措施成為整個行業的標準。

討論

https://lesswrong.com/posts/syB2r2X4E7nmw58co/openai-how-we-monitor-internal-coding-agents-for