newsence
提升前沿大型語言模型的指令層級制度

提升前沿大型語言模型的指令層級制度

OpenAI·26 天前

介紹 IH-Challenge 訓練資料集,其旨在強化指令層級、安全可控性以及對提示詞注入攻擊的防禦力,使模型能可靠地優先處理最受信任的指令來源。

2026 年 3 月 10 日

提升前沿大型語言模型(LLM)的指令層級

介紹 IH-Challenge,這是一個旨在強化指令層級(Instruction Hierarchy)、安全可控性以及提示詞注入(Prompt Injection)魯棒性的訓練數據集。

AI 系統通常會接收來自多個來源的指令。這些來源可能包括系統訊息中的安全政策、開發者的產品指南、使用者的請求,以及從網路上獲取的資訊。訓練模型在這些來源中可靠地優先處理最受信任的指令,是安全部署的關鍵部分。

當這種優先順序崩潰時,會產生許多 AI 安全與可靠性問題。模型可能會收到獲取違規內容的請求、洩露私密資訊的企圖,或是嵌入在線上數據中的提示詞注入攻擊。在這些場景中未能表現得體,其根源都在於同一個原因:模型可能遵循了錯誤的指令。

當這些指令發生衝突時,模型必須決定優先處理哪一個。如果它將不受信任的指令視為權威,模型的行為可能會違反政策或開發者與使用者的意圖。我們證明,透過適當設計的指令層級任務(訓練模型根據信任級別優先處理指令),可以改善多項現實世界的安全屬性。在這些任務上訓練的模型,對系統提示中的安全規範會變得更加敏感(提升安全可控性),並且對嵌入在工具輸出中的提示詞注入攻擊更具魯棒性。

什麼是指令層級——以及它為何重要

為了處理衝突,OpenAI 的模型被訓練遵循明確的指令層級:

系統(System) > 開發者(Developer) > 使用者(User) > 工具(Tool)

優先級較高的指令更受信任。模型僅應在不與高優先級約束衝突的情況下,遵循低優先級的指令。這些原則已在 OpenAI 模型規範(OpenAI Model Spec)中概述。

例如,如果系統訊息包含一項安全政策,而使用者要求模型違反該政策,模型應予以拒絕。如果工具輸出包含惡意指令,模型應忽略它們,而不是將其視為命令。

正確處理這一點是安全、保障和可靠性的基礎。

x = -1

讓我們開始分解方程式:(x+1)(x+1) = 0。那麼,什麼樣的 x 值會使結果為零?

右側的模型在兩條指令衝突時,正確地遵循了優先級較高的開發者指令,而非使用者的指令。

為什麼大規模指令層級訓練具有挑戰性

強化學習是教授指令層級的天然選擇。我們可以生成包含衝突指令的對話,提示模型做出回應,並在模型遵循正確指令時給予獎勵。

我們發現了盲目應用該方案的三個陷阱:

我們的做法

我們設計了 IH-Challenge,這是一個強化學習訓練數據集,旨在解決上述每個陷阱。我們遵循以下原則:

IH-Challenge 中的每個任務本質上是一個包含以下訊息的對話:

受訓模型生成下一條訊息。我們編寫任務/環境,以便能夠透過程式化方式檢查模型的回應是否滿足高層級的約束。

結果與魯棒性

我們在 IH-Challenge 上訓練了一個模型,並產生了一個內部模型,我們稱之為 GPT-5 Mini-R,它具有以下改進:

這使得該方法對安全性特別有吸引力:透過直接在 IH-Challenge 任務上訓練模型正確解決指令衝突,我們獲得了能推廣到新攻擊和新情境的指令層級(IH)改進。

評測指標GPT-5-MiniGPT-5 Mini-R
Gandalf 密碼 (sys-user)0.990.99 (+0)
Gandalf 密碼 (dev-user)0.981.00 (+0.02)
TensorTrust (sys-user)0.860.94 (+0.08)
TensorTrust (dev-user)0.760.91 (+0.15)
RealGuardrails (干擾項)0.880.95 (+0.07)
RealGuardrails (手寫)0.820.89 (+0.07)
系統 IFEval0.920.96 (+0.04)
評測指標GPT-5-MiniGPT-5 Mini-R
TutorJailbreak (sys-user)0.960.99 (+0.03)
Tutor Jailbreak (dev-user)0.970.99 (+0.02)
系統 <> 使用者衝突0.840.95 (+0.11)
系統 <> 開發者衝突0.860.86 (+0)
開發者 <> 使用者衝突0.830.95 (+0.12)
評測指標GPT-5-MiniGPT-5 Mini-R
IH-Challenge (過度拒絕)0.791.00 (+0.21)
TensorTrust (過度拒絕)0.910.90 (-0.01)
GPQA Diamond0.830.83 (+0)
AIME 20240.930.94 (+0.01)
聊天勝率 vs. o10.710.66 (-0.05)
偏好評分0.460.40 (-0.06)

為什麼這能改善現實世界的安全與保障

更強的指令層級能同時帶來多種安全效益,包括安全可控性和提示詞注入魯棒性。

安全可控性

我們透過在系統提示中加入特定類別的安全規範,並在 OpenAI 的安全生產基準測試(一組代表 ChatGPT 生產環境中對安全敏感的對話)上衡量行為,來評估安全可控性。

經過 IH 訓練的模型顯示出一致的改進:在存在安全規範的情況下,它在違規類別中實現了更高的拒絕率和安全完成率,這表明更強的指令層級行為使其在不安全請求來自低優先級指令時,能更好地解決衝突。值得注意的是,這種改進並未伴隨相應的幫助性下降(即,它並非僅透過增加整體拒絕次數來變得更不「具幫助性」)。

圖表標題為「安全引導」,顯示一個包含安全系統規則和使用者請求的提示流向兩個結果:基準模型回應標記為「不安全合規」,以及訓練後模型回應標記為「拒絕 + 安全完成」。

提示詞注入魯棒性:對惡意工具指令更強的抵抗力

圖表標題為「提示詞注入」,顯示系統、使用者、代理和工具的流程。基準模型輸出「ACCESS GRANTED」,而訓練後的模型忽略惡意內容並返回正確的下一個預定事件。

IH 訓練模型抵抗 GPT-5 Mini(基準)會中招的提示詞注入範例。

當惡意指令嵌入在工具輸出中時,指令層級也是抵抗提示詞注入的核心。我們在兩個提示詞注入基準測試上評估了 IH 訓練模型——學術基準 CyberSecEval 2 以及一個 OpenAI 內部提示詞注入基準,後者包含類似於在舊版 ChatGPT Atlas 上演示過的攻擊。

相對於基準模型,經過 IH 訓練的 GPT-5 Mini-R 模型在兩個基準測試中都提高了提示詞注入魯棒性,並在這些實驗中顯著提升了我們內部靜態提示詞注入評估的表現。

展望未來

隨著模型變得更加具備代理性(調用工具、閱讀不受信任的文檔並在現實世界中採取行動),始終如一地將受信任指令置於不受信任指令之上的能力,將成為核心的安全屬性。

這項工作表明,透過設計解決特定陷阱的訓練環境,可以克服 IH 魯棒性訓練中的幾個難點。雖然我們的 IH-Challenge 數據集看起來很簡單,但模型從這些環境中學習到的 IH 行為可以推廣到更現實、通常無法客觀評分的基準測試中。

強化指令層級不僅能提高可靠性,還能同時解鎖多項安全與保障收益——隨著 AI 系統變得更加強大和自主,這一基礎將變得日益重要。

為了支持該領域的進一步研究,我們在此發布 IH-Challenge 數據集(在新視窗中開啟)。

作者

延伸閱讀

CoT 可控性 > 封面圖片

研究 | 2026 年 3 月 5 日

5.4 Thinking System Card 1x1

出版物 | 2026 年 3 月 5 日

graviton paper release > card image

研究 | 2026 年 3 月 4 日

https://openai.com/index/instruction-hierarchy-challenge