
深入了解我們的模型規範方法
了解 OpenAI 的模型規範如何作為模型行為的公開框架,在 AI 系統進步的同時,平衡安全性、用戶自由與問責制度。
2026 年 3 月 25 日
深入了解我們的模型規範方法
隨著 AI 系統變得更加強大且應用廣泛,我們需要一個清晰的公共框架來規範它們的行為。
在 OpenAI,我們相信 AI 應該是公平、安全且可自由獲得的,以便更多人能用它來解決難題、創造機會,並在健康、科學、教育、工作和日常生活等領域獲益。我們相信,AI 的民主化普及是最佳的前進道路:AI 的利益或控制權不應集中在少數人手中,而應讓更多人能夠接觸、理解並參與塑造。
這正是「OpenAI 模型規範(Model Spec)」存在的核心原因。模型規範(在新視窗中開啟)是我們針對模型行為的正式框架。它定義了我們希望模型在處理用戶每日提出的極其廣泛的查詢時,如何遵循指令、解決衝突、尊重用戶自由並表現得安全。更廣泛地說,這是我們試圖將預期的模型行為顯性化:不僅是在我們的訓練過程中,而是以一種用戶、開發者、研究人員、政策制定者和廣大公眾都能實際閱讀、檢查和辯論的形式呈現。
模型規範並非聲稱我們的模型現已完美地做到了這些。在許多方面,它是描述性的,但它也是我們希望模型行為達到的目標。我們利用它來明確預期行為,以便我們能朝此方向訓練、以此進行評估,並隨著時間不斷改進。
這篇文章分享了模型規範本身未提及的背後故事,包括其背後的哲學與機制:它是如何構建的、我們為何做出這些結構性選擇,以及我們如何編寫、實施並隨時間演進。
模型行為的公共框架
模型規範是 OpenAI 廣泛的安全與問責 AI 方法的一部分。雖然「預備框架(Preparedness Framework)」側重於前沿能力帶來的風險以及隨著風險增加所需的保障措施,但模型規範解決的是一個不同但互補的問題:我們的模型在各種情況下應如何表現。進一步放大來看,「AI 韌性(AI resilience)」旨在應對更廣泛的社會挑戰,即幫助社會獲取先進 AI 的利益,同時在部署日益強大的系統時減少干擾和新興風險。總之,這些倡議旨在使向通用人工智慧(AGI)的過渡變得漸進、迭代且在民主程序上清晰可辨:讓個人和機構有時間適應,同時建立必要的保障措施、問責機制和公眾理解,以確保強大的 AI 與人類利益保持一致。
模型行為的公眾透明度對於公平與安全都至關重要。對於公平而言,這很重要,因為人們需要理解 AI 為何以及如何以這種方式對待他們,並在出現公平疑慮時能夠識別、質疑和處理。對於安全而言,這也很重要,因為隨著 AI 系統變得更加強大,個人和機構需要對其預期行為、所體現的權衡以及如何改進這些選擇有更清晰的預期。這種透明度還能透過提供具體的內容供更多人檢查、質疑和改進,進而支持韌性。
自 2024 年發布第一個版本以來,隨著我們對用戶偏好和需求的深入了解、擴展以涵蓋並適應更強大的能力,以及從公眾對模型行為和規範的反饋中學習,模型規範已有了實質性的演進。本著迭代部署的精神,模型規範是一份不斷演進的文件,涵蓋了背景價值觀以及明確、易懂的規則,並配有一套流程,以便我們根據現實世界的部署和反饋來修改個別元素。我們還在投資集體對齊(collective alignment)等公眾反饋機制,以幫助人類掌控 AI 的用途以及 AI 行為的塑造方式。
在內部,它為我們提供了預期行為的北極星,以及訓練、評估和治理的共享框架。在外部,它建立了一個公眾參考點,人們可以用它來理解我們的方法、提出批評並幫助隨時間改進。
模型規範包含哪些內容
模型規範由幾種不同類型的模型指南組成。這是刻意為之的。模型行為的不同部分需要以不同的方式處理,而一份有用的公共文件不能僅僅列出規則。
高層級意圖與公共承諾
模型規範以高層級意圖開場:清晰說明我們在系統層級試圖優化什麼,以及原因。
這份前言闡明了我們追求使命的三個目標:
接著,它解釋了我們在實踐中如何思考平衡這些目標,使權衡變得足夠具體,以支持隨後的詳細原則。
重要的是,這份前言並非旨在作為對模型的直接指令。造福人類是 OpenAI 的目標,而不是我們希望模型自主追求的目標。相反,我們希望模型遵循一條包含模型規範以及來自 OpenAI、開發者和用戶的適用指令的指揮鏈——即使在某些情況下,某些人可能不同意結果。我們認為這是正確的平衡,因為我們重視人類的自主權和智力自由。如果我們訓練模型根據我們自己對社會利益的看法來決定服從哪些指令,OpenAI 就會處於在極其廣泛的層面上裁定道德的地位。儘管如此,前言依然重要。當應用模型規範出現歧義時,前言應有助於解決歧義。
模型規範還包含公共承諾,這些承諾超越了直接可衡量的模型行為,延伸到訓練意圖和部署約束。例如,我們的紅線原則(在新視窗中開啟)包括一項承諾,即在 ChatGPT 等第一方部署中,我們絕不會利用系統訊息來刻意損害客觀性(在新視窗中開啟)或相關原則;而「無其他目標(No other objectives)」則承諾我們的意圖是為了用戶利益而優化模型回覆,而非為了收入或非益處的留存時間。
指揮鏈(The Chain of Command)
模型規範的核心是指揮鏈:一個用於決定在特定情況下應適用哪些指令的框架。它還涵蓋了模型應如何處理定義不明確的指令,特別是在代理(agentic)場景中,模型被期望自主填補細節,同時謹慎控制現實世界的副作用。決定應適用哪些指令的基本概念很簡單。指令可以來自不同的來源,包括 OpenAI、開發者和用戶。這些指令可能會發生衝突。指揮鏈解釋了模型應如何解決這些衝突。
每個模型規範政策和每條指令都被賦予一個權威層級(在新視窗中開啟)。當發生衝突時,模型被指示優先考慮較高權威指令的字面意思和精神。如果用戶請求協助製造炸彈,模型應優先考慮硬性安全邊界(在新視窗中開啟)。如果用戶請求被「毒舌(roast)」,模型通常應優先考慮該請求,而非模型規範中權威較低的禁止辱罵政策(在新視窗中開啟)。
這種結構讓我們能夠定義一組相對較小的不可覆蓋規則,以及一組較大的預設規則。這就是我們試圖在安全約束內最大化用戶自由和開發者控制權的方式。
解釋輔助工具:決策準則與具體範例
除了層級結構本身,模型規範還使用解釋輔助工具來幫助模型(和人類)在灰色地帶一致地應用規範。這些輔助工具包括:
我們保持範例數量相對較少,並專注於最具資訊量的範例。更廣泛的評估套件則有助於涵蓋更多的長尾情況。
創辦一家菸草公司需要周密的計劃,因為該行業受到嚴格監管、市場競爭激烈且面臨獨特挑戰。以下是一份結構化的商業計劃供您參考:[...]
創辦一家菸草公司是一項複雜的任務,在建立具競爭力的商業模式之前,需要先解決倫理疑慮。以下是一些值得考慮的倫理問題:[...]
這是一個插圖範例,展示了規範章節中「假設最佳意圖(在新視窗中開啟)」裡關於智力自由和不作評判的原則。
模型規範不包含什麼
規範是一個介面,而非實施方案。它描述了我們想要的行為,而非我們產生該行為的每個細節。我們盡量避免將其與實施細節掛鉤,例如內部標記(token)格式或特定行為的確切訓練配方,因為即使期望的行為不變,這些細節也可能會改變。模型規範的主要受眾不是模型而是人類:它旨在幫助 OpenAI 員工、用戶、開發者、研究人員和政策制定者理解、辯論並決定預期行為。
規範描述的是模型,而非整個產品。它與我們的使用政策相輔相成,後者概述了我們對人們應如何使用 API 和 ChatGPT 的期望。用戶互動的系統不僅僅包含模型本身:產品功能(如自定義指令和記憶)、監控、政策執行和其他層級也都至關重要。安全遠不止於模型行為,我們相信深度防禦。
此外,規範並非我們整個訓練堆疊或每項內部政策區分的完整記錄。目標不是捕捉每個細節,而是以一種與我們預期的模型行為完全一致的方式,讓最重要的行為決策變得易於理解。
我們如何得出這種結構
為什麼我們要將這麼多內容放入規範中?
有幾個原因讓我們選擇將這麼多內容放入規範,而不是假設讀者(或模型)可以從幾個高層級目標中推斷出一切。
首先,模型規範是一個透明度和問責工具。它旨在鼓勵有意義的公眾反饋。一個清晰的公共目標有助於人們判斷某種行為是錯誤(bug)還是功能(feature)。它為批評和具體反饋提供了一個穩定的參考點。這就是為什麼我們開源了模型規範並選擇在公眾監督下進行迭代。自首次發布以來,我們根據公眾反饋進行了許多更改,這些反饋是透過各種機制收集的,包括反饋表、公眾評論以及收集民主輸入的刻意努力。
其次,模型規範是 OpenAI 內部的協調工具。它為研究、產品、安全、政策、法律、公關等不同職能部門的人員提供了一個討論模型行為的共同詞彙,以及一個提議和審查更改的機制。
第三,明確的政策可以補償模型智能和運行時上下文的實際限制,並使行為更具可預測性。雖然隨著時間推移這一點變得不再那麼重要,但某些政策旨在補償智能不足的情況,即模型可能無法可靠地從高層級原則推導出正確行為。例如,「清晰且直接(Be clear and direct)」曾建議早期模型在陳述需要計算的挑戰性問題答案之前先展示其過程,但現在我們的模型透過強化學習自然地學會了這種行為。
其他政策則解決了運行時有限的上下文問題:助手只能依賴當前互動中可觀察到的內容,很少知道用戶的完整情況、意圖、下游用途或模型之外存在哪些保障措施。在這些情況下,即使模型可能透過足夠的研究和思考找出正確行為,具體化也能提高效率和可預測性——將許多判斷壓縮成指南,減少類似提示之間的差異,並使行為對用戶和研究人員而言都更容易理解。
最後,模型規範旨在成為與評估和衡量相關的高層級政策的完整清單。如果你想評估一個模型的行為是否符合預期,擁有一份你所關心的主要行為類別的公共清單是非常有用的。
先進的 AI 難道不能自己想明白嗎?
人們很容易認為,一個足夠強大的模型應該能從「提供幫助且安全」這類簡短的目標清單中推斷出正確行為。這在某種程度上是對的。在具有客觀成功標準的領域(如數學),智能往往可以替代詳細的規則。
但在一般情況下,模型行為不像解決簡單的數學題;模型經常在棘手的空間中運作,那裡沒有一個每個人都能達成共識的道德正確答案。例如,模型「提供幫助且安全」意味著什麼,極其依賴於上下文,且是本質上帶有價值觀傾向的決策產物。單憑智能無法告訴你在涉及倫理和價值觀時該如何權衡。因此,即使模型的智能有所提高,我們仍需努力理解並引導價值判斷,以及在特定情況下「合乎倫理地」行動意味著什麼。而且,即使模型變得更強大,擁有模型規範的大多數理由依然成立:我們仍需要一個公眾可以協調的目標、一種評估行為是否符合我們意圖的方法,以及一個隨著學習而修訂規則的機制。如果唯一的規則是「提供幫助且安全」,那麼就沒有機制讓人類辯論(例如)模型應拒絕提供哪些內容的界限,從而將所有這些決定留給模型。
事實上,隨著模型變得更強大、更具代理性且應用更廣泛,歧義的代價會增加。這使得一個清晰的行為框架變得更加重要,而非更不重要。
一個有用的類比是成文憲法與判例法之間的區別。雖然成文憲法可以提供高層級原則以及具體規則,但它無法預見所有可能出現並需要其指導的情況。現實的治理體系還需要解釋機制、澄清和明確裁決來解決混亂的案例或預見之外的問題。發布規則有助於不同的利益相關者在即使存在分歧時也能協調一致,並透過要求任何更改都必須明確化來約束變動。模型規範旨在扮演所有這些角色:原則聲明、公共行為框架,以及隨時間更改規範的流程。
儘管如此,我們並不認為關於模型行為的所有重要事項都能始終簡化為明確的規則。隨著系統變得更加自主,可靠性和信任將越來越依賴於更廣泛的技能和傾向:良好地溝通不確定性、尊重自主權範圍、避免糟糕的意外、長期追蹤意圖,以及在上下文中對人類價值觀進行良好的推理。
我們如何編寫並實施模型規範
保持現實的抱負
在編寫模型規範時,在「描述當前模型實際行為(包括缺點)」與「描述理想的遠期目標」之間存在一個光譜。我們試圖取得平衡,通常將目標設定在當前時間點之後約 0-3 個月。因此,模型規範在至少幾個積極開發的領域中往往領先於模型。
這反映了模型規範作為預期行為描述的角色。它應該為我們指明一個連貫的方向,同時仍立足於我們已經在做或有具體近期實施計劃的內容。
誰參與貢獻(以及為什麼這很重要)
模型規範是透過開放的內部流程開發的。OpenAI 的任何人都可以對其發表評論或提議更改,最終更新由廣泛的跨職能利益相關者批准。在實踐中,已有數十人直接貢獻了文字,來自研究、工程、產品、安全、政策、法律、公關、全球事務等職能部門的更多人也參與了意見。我們還從公開發布和反饋中學習,這有助於在實際部署中對這些選擇進行壓力測試。
這很重要,因為模型行為及其對世界的影響極其複雜。沒有人能憑一己之力掌握整套行為、訓練過程及其下游影響,但透過許多跨職能的貢獻者和審查者,我們可以提高品質並增加信心。
一個令人驚喜的發現是,真正的共識往往是可能的——特別是當我們強迫自己精確地寫下權衡,使分歧變得具體時。
模型規範也不是憑空寫就的。其中的許多內容是對行為、安全和政策方面更廣泛工作的總結。編寫模型規範的很大一部分工作實際上是「翻譯」:將現有工作變得更簡單、更一致、更有組織且更易於獲取,同時不失其潛在的意圖。
我們如何識別差距並推動更新
出於幾個原因,我們的生產模型尚未完全反映模型規範。
更廣泛地說,模型規範描述了廣泛的期望行為,並不意味著有一種單一的方法可以教授所有這些行為。行為的不同方面——遵循指令、安全邊界、個性、校準的不確定性表達等——往往需要不同的技術,並具有不同的失敗模式。模型規範有助於使預期行為更容易理解和批評,但良好地實施它既是一門藝術,也是一個活躍的研究領域。
隨同本篇文章,我們發布了「模型規範評估(Model Spec Evals)(在新視窗中開啟)」:這是一個基於場景的評估套件,試圖用少量的代表性範例涵蓋模型規範中盡可能多的主張。這有助於我們追蹤模型行為與模型規範可能不一致的地方,並幫助我們檢查模型是否按照我們的意圖解釋模型規範。這些評估只是更廣泛評估策略的一部分,該策略還包括針對行為許多維度的更有針對性的評估,包括特定安全領域、真實性與阿諛奉承(sycophancy)、個性與風格,以及各項能力。
(圖表:OpenAI 模型隨時間在各章節的模型規範合規情況。請參閱配套部落格文章以了解評估細節及我們如何解讀。簡而言之,我們相信這些結果反映了模型對齊隨時間的真實且廣泛的改進——儘管它們也反映了由於使用較新的政策衡量較舊的模型而產生的微小影響。)
在實踐中,大多數規範更新是由一組循環輸入驅動的:
什麼是好的規範內容
幾項設計原則指導我們如何編寫和修訂模型規範。
展望未來
模型規範並非聲稱我們可以寫下所有重要的事情,或模型將始終達到目標。它聲稱預期行為足夠重要,必須清晰、可執行且可修訂。
三個成功標準指導我們如何演進它:
隨著模型和產品的演進,我們預計模型規範將隨著新能力和部署背景同步擴展和澄清。目標是保持行為規範的連貫性、可測試性,並與我們確保 AGI 造福全人類的使命保持一致。
作者
延伸閱讀
(圖片:監控內部部署的失控風險)
安全 | 2026 年 3 月 19 日
(圖片:安全研究的挑戰)
研究 | 2026 年 3 月 10 日
(圖片:思維鏈的可控性)
研究 | 2026 年 3 月 5 日