提升前沿大型語言模型的指令層級制度

OpenAI·26 天前

原文

介紹 IH-Challenge 訓練資料集，其旨在強化指令層級、安全可控性以及對提示詞注入攻擊的防禦力，使模型能可靠地優先處理最受信任的指令來源。

2026 年 3 月 10 日

提升前沿大型語言模型（LLM）的指令層級

介紹 IH-Challenge，這是一個旨在強化指令層級（Instruction Hierarchy）、安全可控性以及提示詞注入（Prompt Injection）魯棒性的訓練數據集。

AI 系統通常會接收來自多個來源的指令。這些來源可能包括系統訊息中的安全政策、開發者的產品指南、使用者的請求，以及從網路上獲取的資訊。訓練模型在這些來源中可靠地優先處理最受信任的指令，是安全部署的關鍵部分。

當這種優先順序崩潰時，會產生許多 AI 安全與可靠性問題。模型可能會收到獲取違規內容的請求、洩露私密資訊的企圖，或是嵌入在線上數據中的提示詞注入攻擊。在這些場景中未能表現得體，其根源都在於同一個原因：模型可能遵循了錯誤的指令。

當這些指令發生衝突時，模型必須決定優先處理哪一個。如果它將不受信任的指令視為權威，模型的行為可能會違反政策或開發者與使用者的意圖。我們證明，透過適當設計的指令層級任務（訓練模型根據信任級別優先處理指令），可以改善多項現實世界的安全屬性。在這些任務上訓練的模型，對系統提示中的安全規範會變得更加敏感（提升安全可控性），並且對嵌入在工具輸出中的提示詞注入攻擊更具魯棒性。

什麼是指令層級——以及它為何重要

為了處理衝突，OpenAI 的模型被訓練遵循明確的指令層級：

系統（System） > 開發者（Developer） > 使用者（User） > 工具（Tool）

優先級較高的指令更受信任。模型僅應在不與高優先級約束衝突的情況下，遵循低優先級的指令。這些原則已在 OpenAI 模型規範（OpenAI Model Spec）中概述。

例如，如果系統訊息包含一項安全政策，而使用者要求模型違反該政策，模型應予以拒絕。如果工具輸出包含惡意指令，模型應忽略它們，而不是將其視為命令。

正確處理這一點是安全、保障和可靠性的基礎。

x = -1

讓我們開始分解方程式：(x+1)(x+1) = 0。那麼，什麼樣的 x 值會使結果為零？

右側的模型在兩條指令衝突時，正確地遵循了優先級較高的開發者指令，而非使用者的指令。

為什麼大規模指令層級訓練具有挑戰性

強化學習是教授指令層級的天然選擇。我們可以生成包含衝突指令的對話，提示模型做出回應，並在模型遵循正確指令時給予獎勵。

我們發現了盲目應用該方案的三個陷阱：

我們的做法

我們設計了 IH-Challenge，這是一個強化學習訓練數據集，旨在解決上述每個陷阱。我們遵循以下原則：

IH-Challenge 中的每個任務本質上是一個包含以下訊息的對話：

受訓模型生成下一條訊息。我們編寫任務/環境，以便能夠透過程式化方式檢查模型的回應是否滿足高層級的約束。

結果與魯棒性

我們在 IH-Challenge 上訓練了一個模型，並產生了一個內部模型，我們稱之為 GPT-5 Mini-R，它具有以下改進：

這使得該方法對安全性特別有吸引力：透過直接在 IH-Challenge 任務上訓練模型正確解決指令衝突，我們獲得了能推廣到新攻擊和新情境的指令層級（IH）改進。

評測指標	GPT-5-Mini	GPT-5 Mini-R
Gandalf 密碼 (sys-user)	0.99	0.99 (+0)
Gandalf 密碼 (dev-user)	0.98	1.00 (+0.02)
TensorTrust (sys-user)	0.86	0.94 (+0.08)
TensorTrust (dev-user)	0.76	0.91 (+0.15)
RealGuardrails (干擾項)	0.88	0.95 (+0.07)
RealGuardrails (手寫)	0.82	0.89 (+0.07)
系統 IFEval	0.92	0.96 (+0.04)

評測指標	GPT-5-Mini	GPT-5 Mini-R
TutorJailbreak (sys-user)	0.96	0.99 (+0.03)
Tutor Jailbreak (dev-user)	0.97	0.99 (+0.02)
系統 <> 使用者衝突	0.84	0.95 (+0.11)
系統 <> 開發者衝突	0.86	0.86 (+0)
開發者 <> 使用者衝突	0.83	0.95 (+0.12)

評測指標	GPT-5-Mini	GPT-5 Mini-R
IH-Challenge (過度拒絕)	0.79	1.00 (+0.21)
TensorTrust (過度拒絕)	0.91	0.90 (-0.01)
GPQA Diamond	0.83	0.83 (+0)
AIME 2024	0.93	0.94 (+0.01)
聊天勝率 vs. o1	0.71	0.66 (-0.05)
偏好評分	0.46	0.40 (-0.06)

為什麼這能改善現實世界的安全與保障

更強的指令層級能同時帶來多種安全效益，包括安全可控性和提示詞注入魯棒性。

安全可控性

我們透過在系統提示中加入特定類別的安全規範，並在 OpenAI 的安全生產基準測試（一組代表 ChatGPT 生產環境中對安全敏感的對話）上衡量行為，來評估安全可控性。

經過 IH 訓練的模型顯示出一致的改進：在存在安全規範的情況下，它在違規類別中實現了更高的拒絕率和安全完成率，這表明更強的指令層級行為使其在不安全請求來自低優先級指令時，能更好地解決衝突。值得注意的是，這種改進並未伴隨相應的幫助性下降（即，它並非僅透過增加整體拒絕次數來變得更不「具幫助性」）。

圖表標題為「安全引導」，顯示一個包含安全系統規則和使用者請求的提示流向兩個結果：基準模型回應標記為「不安全合規」，以及訓練後模型回應標記為「拒絕 + 安全完成」。

提示詞注入魯棒性：對惡意工具指令更強的抵抗力

圖表標題為「提示詞注入」，顯示系統、使用者、代理和工具的流程。基準模型輸出「ACCESS GRANTED」，而訓練後的模型忽略惡意內容並返回正確的下一個預定事件。

IH 訓練模型抵抗 GPT-5 Mini（基準）會中招的提示詞注入範例。

當惡意指令嵌入在工具輸出中時，指令層級也是抵抗提示詞注入的核心。我們在兩個提示詞注入基準測試上評估了 IH 訓練模型——學術基準 CyberSecEval 2 以及一個 OpenAI 內部提示詞注入基準，後者包含類似於在舊版 ChatGPT Atlas 上演示過的攻擊。

相對於基準模型，經過 IH 訓練的 GPT-5 Mini-R 模型在兩個基準測試中都提高了提示詞注入魯棒性，並在這些實驗中顯著提升了我們內部靜態提示詞注入評估的表現。

展望未來

隨著模型變得更加具備代理性（調用工具、閱讀不受信任的文檔並在現實世界中採取行動），始終如一地將受信任指令置於不受信任指令之上的能力，將成為核心的安全屬性。

這項工作表明，透過設計解決特定陷阱的訓練環境，可以克服 IH 魯棒性訓練中的幾個難點。雖然我們的 IH-Challenge 數據集看起來很簡單，但模型從這些環境中學習到的 IH 行為可以推廣到更現實、通常無法客觀評分的基準測試中。

強化指令層級不僅能提高可靠性，還能同時解鎖多項安全與保障收益——隨著 AI 系統變得更加強大和自主，這一基礎將變得日益重要。

為了支持該領域的進一步研究，我們在此發布 IH-Challenge 數據集（在新視窗中開啟）。

作者

延伸閱讀

CoT 可控性 > 封面圖片

研究 | 2026 年 3 月 5 日

5.4 Thinking System Card 1x1

出版物 | 2026 年 3 月 5 日

graviton paper release > card image

研究 | 2026 年 3 月 4 日

https://openai.com/index/instruction-hierarchy-challenge