
提升前沿大型語言模型的指令層級制度
介紹 IH-Challenge 訓練資料集,其旨在強化指令層級、安全可控性以及對提示詞注入攻擊的防禦力,使模型能可靠地優先處理最受信任的指令來源。
2026 年 3 月 10 日
提升前沿大型語言模型(LLM)的指令層級
介紹 IH-Challenge,這是一個旨在強化指令層級(Instruction Hierarchy)、安全可控性以及提示詞注入(Prompt Injection)魯棒性的訓練數據集。
AI 系統通常會接收來自多個來源的指令。這些來源可能包括系統訊息中的安全政策、開發者的產品指南、使用者的請求,以及從網路上獲取的資訊。訓練模型在這些來源中可靠地優先處理最受信任的指令,是安全部署的關鍵部分。
當這種優先順序崩潰時,會產生許多 AI 安全與可靠性問題。模型可能會收到獲取違規內容的請求、洩露私密資訊的企圖,或是嵌入在線上數據中的提示詞注入攻擊。在這些場景中未能表現得體,其根源都在於同一個原因:模型可能遵循了錯誤的指令。
當這些指令發生衝突時,模型必須決定優先處理哪一個。如果它將不受信任的指令視為權威,模型的行為可能會違反政策或開發者與使用者的意圖。我們證明,透過適當設計的指令層級任務(訓練模型根據信任級別優先處理指令),可以改善多項現實世界的安全屬性。在這些任務上訓練的模型,對系統提示中的安全規範會變得更加敏感(提升安全可控性),並且對嵌入在工具輸出中的提示詞注入攻擊更具魯棒性。
什麼是指令層級——以及它為何重要
為了處理衝突,OpenAI 的模型被訓練遵循明確的指令層級:
系統(System) > 開發者(Developer) > 使用者(User) > 工具(Tool)
優先級較高的指令更受信任。模型僅應在不與高優先級約束衝突的情況下,遵循低優先級的指令。這些原則已在 OpenAI 模型規範(OpenAI Model Spec)中概述。
例如,如果系統訊息包含一項安全政策,而使用者要求模型違反該政策,模型應予以拒絕。如果工具輸出包含惡意指令,模型應忽略它們,而不是將其視為命令。
正確處理這一點是安全、保障和可靠性的基礎。
x = -1
讓我們開始分解方程式:(x+1)(x+1) = 0。那麼,什麼樣的 x 值會使結果為零?
右側的模型在兩條指令衝突時,正確地遵循了優先級較高的開發者指令,而非使用者的指令。
為什麼大規模指令層級訓練具有挑戰性
強化學習是教授指令層級的天然選擇。我們可以生成包含衝突指令的對話,提示模型做出回應,並在模型遵循正確指令時給予獎勵。
我們發現了盲目應用該方案的三個陷阱:
我們的做法
我們設計了 IH-Challenge,這是一個強化學習訓練數據集,旨在解決上述每個陷阱。我們遵循以下原則:
IH-Challenge 中的每個任務本質上是一個包含以下訊息的對話:
受訓模型生成下一條訊息。我們編寫任務/環境,以便能夠透過程式化方式檢查模型的回應是否滿足高層級的約束。
結果與魯棒性
我們在 IH-Challenge 上訓練了一個模型,並產生了一個內部模型,我們稱之為 GPT-5 Mini-R,它具有以下改進:
這使得該方法對安全性特別有吸引力:透過直接在 IH-Challenge 任務上訓練模型正確解決指令衝突,我們獲得了能推廣到新攻擊和新情境的指令層級(IH)改進。
| 評測指標 | GPT-5-Mini | GPT-5 Mini-R |
|---|---|---|
| Gandalf 密碼 (sys-user) | 0.99 | 0.99 (+0) |
| Gandalf 密碼 (dev-user) | 0.98 | 1.00 (+0.02) |
| TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
| TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
| RealGuardrails (干擾項) | 0.88 | 0.95 (+0.07) |
| RealGuardrails (手寫) | 0.82 | 0.89 (+0.07) |
| 系統 IFEval | 0.92 | 0.96 (+0.04) |
| 評測指標 | GPT-5-Mini | GPT-5 Mini-R |
|---|---|---|
| TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
| Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
| 系統 <> 使用者衝突 | 0.84 | 0.95 (+0.11) |
| 系統 <> 開發者衝突 | 0.86 | 0.86 (+0) |
| 開發者 <> 使用者衝突 | 0.83 | 0.95 (+0.12) |
| 評測指標 | GPT-5-Mini | GPT-5 Mini-R |
|---|---|---|
| IH-Challenge (過度拒絕) | 0.79 | 1.00 (+0.21) |
| TensorTrust (過度拒絕) | 0.91 | 0.90 (-0.01) |
| GPQA Diamond | 0.83 | 0.83 (+0) |
| AIME 2024 | 0.93 | 0.94 (+0.01) |
| 聊天勝率 vs. o1 | 0.71 | 0.66 (-0.05) |
| 偏好評分 | 0.46 | 0.40 (-0.06) |
為什麼這能改善現實世界的安全與保障
更強的指令層級能同時帶來多種安全效益,包括安全可控性和提示詞注入魯棒性。
安全可控性
我們透過在系統提示中加入特定類別的安全規範,並在 OpenAI 的安全生產基準測試(一組代表 ChatGPT 生產環境中對安全敏感的對話)上衡量行為,來評估安全可控性。
經過 IH 訓練的模型顯示出一致的改進:在存在安全規範的情況下,它在違規類別中實現了更高的拒絕率和安全完成率,這表明更強的指令層級行為使其在不安全請求來自低優先級指令時,能更好地解決衝突。值得注意的是,這種改進並未伴隨相應的幫助性下降(即,它並非僅透過增加整體拒絕次數來變得更不「具幫助性」)。

提示詞注入魯棒性:對惡意工具指令更強的抵抗力

IH 訓練模型抵抗 GPT-5 Mini(基準)會中招的提示詞注入範例。
當惡意指令嵌入在工具輸出中時,指令層級也是抵抗提示詞注入的核心。我們在兩個提示詞注入基準測試上評估了 IH 訓練模型——學術基準 CyberSecEval 2 以及一個 OpenAI 內部提示詞注入基準,後者包含類似於在舊版 ChatGPT Atlas 上演示過的攻擊。
相對於基準模型,經過 IH 訓練的 GPT-5 Mini-R 模型在兩個基準測試中都提高了提示詞注入魯棒性,並在這些實驗中顯著提升了我們內部靜態提示詞注入評估的表現。
展望未來
隨著模型變得更加具備代理性(調用工具、閱讀不受信任的文檔並在現實世界中採取行動),始終如一地將受信任指令置於不受信任指令之上的能力,將成為核心的安全屬性。
這項工作表明,透過設計解決特定陷阱的訓練環境,可以克服 IH 魯棒性訓練中的幾個難點。雖然我們的 IH-Challenge 數據集看起來很簡單,但模型從這些環境中學習到的 IH 行為可以推廣到更現實、通常無法客觀評分的基準測試中。
強化指令層級不僅能提高可靠性,還能同時解鎖多項安全與保障收益——隨著 AI 系統變得更加強大和自主,這一基礎將變得日益重要。
為了支持該領域的進一步研究,我們在此發布 IH-Challenge 數據集(在新視窗中開啟)。
作者
延伸閱讀

研究 | 2026 年 3 月 5 日

出版物 | 2026 年 3 月 5 日

研究 | 2026 年 3 月 4 日