OpenAI:我們如何監控內部編碼代理程式的對齊失誤
分享我在 OpenAI 進行的部分監控工作:我們如何監控內部編碼代理程式的對齊失誤。OpenAI 現在使用我們最強大的模型 GPT-5.4 Thinking 監控 99.9% 的內部編碼流量,以尋找對齊失誤的跡象。
分享一些我在 OpenAI 所做的監控工作:我們如何監控內部程式編寫代理(coding agents)的對齊失衡(misalignment)情況。
OpenAI 現在使用我們最強大的模型,監控 99.9% 的內部程式編寫流量,以尋找對齊失衡的跡象。目前,該監控模型是 GPT-5.4 Thinking。它能獲取完整的對話上下文,也就是代理所看到的一切以及所做的一切,包括工具調用和思維鏈(CoT)。嚴重程度較高的案例會在 30 分鐘內送交人工審核。
我們發現的一些對齊失衡行為範例包括:
- 將指令以 base64 編碼以規避監控
- 調用其他版本的自己以繞過限制
- 嘗試將檔案上傳到公共網路
- 嘗試對使用者進行提示詞注入(prompt inject)
我們尚未偵測到任何關於蓄意破壞(sabotage)、密謀(scheming)或隱藏實力(sandbagging)的真實案例。
我們的目標是在內部建立穩健的監控實踐,透過迭代不斷強化,並最終協助使類似的安全防護措施成為整個行業的標準。