隆重介紹 GPT-5.4

OpenAI·大約 1 個月前

隆重介紹 GPT-5.4，這是 OpenAI 為專業工作打造的最強大且最高效的前沿模型，具備頂尖的程式編寫、電腦操作、工具搜尋功能，以及 100 萬標記的上下文視窗。

2026 年 3 月 5 日

GPT‑5.4 發表

專為專業工作設計

今天，我們在 ChatGPT（以 GPT‑5.4 Thinking 形式）、API 以及 Codex 中發布了 GPT‑5.4。它是我們針對專業工作最強大且最高效的前沿模型。我們同時也在 ChatGPT 和 API 中發布了 GPT‑5.4 Pro，專為需要在複雜任務上獲得極致效能的使用者設計。

GPT‑5.4 將我們近期在推理、程式編寫和代理工作流（agentic workflows）方面的頂尖進展整合到單一前沿模型中。它繼承了 GPT‑5.3‑Codex 業界領先的程式編寫能力，同時優化了模型在各種工具、軟體環境以及涉及試算表、簡報和文件的專業任務中的表現。其結果是一個能準確、有效且高效地完成複雜實際工作的模型——以更少的往返溝通交付你所要求的內容。

在 ChatGPT 中，GPT‑5.4 Thinking 現在可以預先提供其思考計劃，因此你可以在模型運作過程中調整方向，無需額外回合即可獲得更符合需求的最終輸出。GPT‑5.4 Thinking 還改進了深度網路搜尋，特別是針對高度具體的查詢，同時在需要長時間思考的問題中能更好地維持上下文。綜合這些改進，意味著高品質的答案能更快送達，並始終與當前任務保持相關。

在 Codex 和 API 中，GPT‑5.4 是我們發布的第一個具備原生、頂尖「電腦操作」（computer-use）能力的通用模型，使代理（agents）能夠操作電腦並跨應用程式執行複雜的工作流。它支援高達 1M tokens 的上下文，允許代理在長週期內規劃、執行和驗證任務。GPT‑5.4 還透過「工具搜尋」（tool search）改進了模型在龐大工具生態系統和連接器中的運作方式，幫助代理更高效地找到並使用正確的工具，而不會犧牲智能。最後，GPT‑5.4 是我們迄今為止 token 效率最高的推理模型，與 GPT‑5.2 相比，解決問題所需的 token 顯著減少——這轉化為更低的 token 使用量和更快的速度。

結合在通用推理、程式編寫和專業知識工作方面的進展，GPT‑5.4 在 ChatGPT、API 和 Codex 中實現了更可靠的代理、更快的開發者工作流以及更高品質的輸出。

指標	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (勝出或平手)	83.0%	70.9%	70.9%
SWE-Bench Pro (公開)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*先前報告為 64.7%。GPT‑5.3‑Codex 透過新引入的 API 參數（可保留原始圖像解析度）達到了 74.0%。

知識工作

基於 GPT‑5.2 的通用推理能力，GPT‑5.4 在對專業人士至關重要的現實任務中提供了更一致且更精煉的結果。

在測試代理跨 44 種職業產出明確規範的知識工作能力的 GDPval 基準測試中，GPT‑5.4 創下了新的紀錄，在 83.0% 的比較中達到或超過了行業專業人士的水準，而 GPT‑5.2 為 70.9%。

在 GDPval 中，模型嘗試完成涵蓋貢獻美國 GDP 前 9 大行業中 44 種職業的明確知識工作。任務要求實際的工作產出，例如銷售簡報、會計試算表、急診排班表、製造圖表或短影音。GPT‑5.4 的推理強度（reasoning effort）設置為 xhigh，GPT‑5.2 設置為 heavy（ChatGPT 中略低的級別）。

我們特別專注於提升 GPT‑5.4 建立和編輯試算表、簡報和文件的能力。在一項針對初級投資銀行分析師可能執行的試算表建模任務的內部基準測試中，GPT‑5.4 的平均得分為 87.3%，而 GPT‑5.2 為 68.4%。在一組簡報評估提示中，人類評分者在 68.0% 的情況下更偏好 GPT‑5.4 生成的簡報，原因在於其更強的美感、更豐富的視覺多樣性以及更有效地使用圖像生成功能。

GPT-5.2 與 GPT-5.4 試算表輸出對比示例

文件生成時推理強度設置為 xhigh

你可以在 ChatGPT 中使用 GPT‑5.4 Thinking 或 Pro 來體驗這些功能。如果你是企業版客戶，我們建議使用我們今天同步推出的新版 ChatGPT for Excel 增益集。我們也更新了 Codex 和 API 中的試算表與簡報技能。

為了讓 GPT‑5.4 更擅長實際工作，我們在降低幻覺和錯誤方面持續取得進展。GPT‑5.4 是我們迄今為止最符合事實的模型：在一組使用者標記為事實錯誤的去識別化提示中，相對於 GPT‑5.2，GPT‑5.4 的單獨主張出錯機率降低了 33%，其完整回覆包含任何錯誤的機率降低了 18%。

電腦操作與視覺

GPT‑5.4 是我們第一個具備原生電腦操作能力的通用模型，這標誌著開發者和代理技術的一大進步。它是目前開發者構建跨網站和軟體系統完成實際任務的代理時，所能使用的最佳模型。

我們設計的 GPT‑5.4 在廣泛的電腦操作工作負載中表現出色。它非常擅長編寫程式碼以透過 Playwright 等函式庫操作電腦，也能根據螢幕截圖發出滑鼠和鍵盤指令。其行為可透過開發者訊息（developer messages）進行引導，這意味著開發者可以根據特定案例調整行為。開發者甚至可以透過指定自定義確認政策，來配置模型的安全行為以適應不同級別的風險承受度。

模型的效能和靈活性反映在測試不同環境下電腦操作的基準測試中。在 OSWorld-Verified（衡量模型透過截圖和鍵盤/滑鼠動作導覽桌面環境的能力）中，GPT‑5.4 達到了 75.0% 的領先成功率，遠超 GPT‑5.2 的 47.3%，並超越了人類 72.4% 的表現。

在測試瀏覽器使用的 WebArena-Verified 中，GPT‑5.4 在同時使用 DOM 和截圖驅動的交互時達到了 67.3% 的領先成功率，而 GPT‑5.2 為 65.4%。在同樣測試瀏覽器使用的 Online-Mind2Web 中，GPT‑5.4 僅使用基於截圖的觀察就達到了 92.8% 的成功率，優於 ChatGPT Atlas 代理模式（Agent Mode）的 70.9%。

工具讓位（tool yield）是指助手暫停以等待工具回覆。如果並行調用 3 個工具，隨後再並行調用 3 個工具，則讓位次數為 2。工具讓位比工具調用次數更能代表延遲，因為它反映了並行化的優勢。

GPT‑5.4 解釋瀏覽器界面的截圖，並透過基於座標的點擊與 UI 元素交互，以發送電子郵件和安排日曆活動。影片未加速。

GPT‑5.4 改進的電腦操作能力建立在模型提升的通用視覺感知能力之上。在 MMMU-Pro（測試模型的視覺理解和推理）中，GPT‑5.4 在不使用工具的情況下達到了 81.2% 的成功率，優於 GPT‑5.2 的 79.5%。改進的視覺感知也轉化為更好的文件解析能力。在 OmniDocBench 上，不使用推理強度的 GPT‑5.4 平均誤差（以模型預測與真實值之間的歸一化編輯距離衡量）為 0.109，優於 GPT‑5.2 的 0.140。

MMMUPro 運行時推理強度設置為 xhigh。OmniDocBench 運行時推理強度設置為 none，以反映低成本、低延遲的效能。

我們還改進了對高解析度、高密度圖像（即細節至關重要的圖像）的視覺理解。從 GPT‑5.4 開始，我們引入了「原始圖像輸入細節」（original image input detail）級別，支援高達 10.24M 總像素或 6000 像素最大邊長的完整感知；「高圖像輸入細節」級別現在支援高達 2.56M 總像素或 2048 像素最大邊長。在與 API 使用者的早期測試中，我們觀察到在使用原始或高細節模式時，定位能力、圖像理解和點擊準確度都有顯著提升。

在 API 中，開發者可以使用更新後的 computer 工具存取這些功能。請參閱我們更新的文件以獲取推薦的最佳實踐。

程式編寫

GPT‑5.4 結合了 GPT‑5.3‑Codex 的程式編寫優勢與領先的知識工作和電腦操作能力，這在模型需要使用工具、迭代並在較少人工干預下推進工作的長週期任務中至關重要。它在 SWE-Bench Pro 上的表現與 GPT‑5.3‑Codex 持平或更優，同時在各種推理強度下的延遲更低。

我們透過觀察模型的生產行為並進行離線模擬來估算延遲。延遲估算考慮了工具調用時長（程式碼執行時間）、取樣 token 和輸入 token。實際延遲可能會有很大差異，並取決於模擬中未捕捉到的許多因素。推理強度從 none 到 xhigh 進行了全面測試。

開啟後，Codex 中的 /fast 模式配合 GPT‑5.4 可提供高達 1.5 倍的 token 生成速度。這是相同的模型和相同的智能，只是速度更快。這意味著使用者可以在保持思路流暢的同時，快速完成程式編寫、迭代和除錯。開發者可以透過 API 使用優先處理（priority processing）以同樣的快速存取 GPT‑5.4。

在評估和內部測試中，我們發現 GPT‑5.4 在處理複雜的前端任務時表現出色，其結果在美感和功能性上明顯優於我們之前發布的任何模型。

為了展示模型改進的電腦操作和程式編寫能力的協同作用，我們還發布了一個名為「Playwright (Interactive)」的實驗性 Codex 技能。這允許 Codex 對網頁和 Electron 應用程式進行視覺化除錯；它甚至可以用來在構建應用程式的過程中對其進行測試。

使用 GPT‑5.4 根據單個簡單提示製作的主題樂園模擬遊戲，使用 Playwright Interactive 進行瀏覽器遊戲測試，並使用圖像生成功能建立等距視角（isometric）素材集。模擬包括基於網格的路徑放置、遊樂設施和景觀建設、遊客尋路、排隊和遊樂循環，而金錢、遊客數、快樂度、整潔度和評分等樂園指標會根據佈局表現和遊客反應而升降。Playwright 被用於自動化瀏覽器遊戲測試，透過構建和擴張樂園、放置和移除路徑與景點、檢查攝影機導航，並驗證遊客、隊伍、設施狀態和 UI 指標在多輪遊戲中是否正確更新。

提示詞： 使用 $playwright-interactive 和 $imagegen。建立一個我可以在瀏覽器中構建和導航的互動式等距視角主題樂園模擬遊戲。使用 imagegen 確立整體視覺願景並生成遊戲素材，包括遊樂設施、路徑、地形、樹木、水池、食物攤位、裝飾品、建築、圖示和 UI 插圖。世界觀應該感覺連貫、精緻且視覺豐富，具有適合等距視角的優質美術風格。讓我能放置和移除路徑、添加景點、佈置景觀，並在監控遊客活動、設施狀態和樂園成長的同時平滑地在樂園中移動。包含可信的遊客移動、簡單的樂園管理系統（如金錢、整潔度、排隊和快樂度），並讓體驗感覺有趣、清晰且完整，而非粗糙的原型。比起寫實，更注重魅力、易讀性和強烈的遊戲感。

在進行遊戲測試時，請務必透過多輪遊戲構建和擴張樂園，驗證放置和導航是否運作順暢，確認遊客對樂園佈局和景點有反應，並確保視覺、UI 和交互感覺穩定且連貫。

工具使用

透過 GPT‑5.4，我們顯著改進了模型與外部工具協作的方式。代理現在可以在更大的工具生態系統中運作，更可靠地選擇正確的工具，並以更低的成本和延遲完成多步驟工作流。

工具搜尋

在 API 中，GPT‑5.4 引入了「工具搜尋」（tool search），這使得模型在面對大量工具時能高效運作。

以前，當模型被賦予工具時，所有工具定義都會預先包含在提示詞中。對於擁有大量工具的系統，這可能會為每次請求增加數千甚至數萬個 token，從而增加成本、減慢響應速度，並讓上下文充斥著模型可能永遠不會使用的資訊。

透過工具搜尋，GPT‑5.4 改為接收一份輕量級的可用工具列表以及工具搜尋能力。當模型需要使用工具時，它可以查找該工具的定義並在該時刻將其附加到對話中。

這種方法大幅減少了重度工具工作流所需的 token 數量並保留了快取，使請求更快且更便宜。它還使代理能夠可靠地與更大的工具生態系統協作。對於可能包含數萬個 token 工具定義的 MCP 伺服器，效率提升非常顯著。

為了展示效率提升，我們評估了來自 Scale 的 MCP Atlas 基準測試中的 250 個任務，並在兩種模式下啟用了所有 36 個 MCP 伺服器：(1) 直接在模型上下文中公開每個 MCP 函數，以及 (2) 將所有 MCP 伺服器置於工具搜尋之後。工具搜尋配置在達到相同準確度的情況下，將總 token 使用量減少了 47%。

token 計數示例來自 MCP-Atlas 公開數據集中 250 個任務的平均值。

代理式工具調用

GPT‑5.4 還改進了工具調用，使其在推理過程中決定何時以及如何使用工具時更加準確和高效，特別是在 API 中。與 GPT‑5.2 相比，它在 Toolathlon（測試 AI 代理使用現實工具和 API 完成多步驟任務能力的基準測試）中，能以更少的回合達到更高的準確度。例如，代理需要讀取電子郵件、提取作業附件、上傳、評分並在試算表中記錄結果。

工具讓位是指助手暫停以等待工具回覆。如果並行調用 3 個工具，隨後再並行調用 3 個工具，則讓位次數為 2。工具讓位比工具調用次數更能代表延遲，因為它反映了並行化的優勢。

對於偏好推理強度為 None 的延遲敏感型案例，GPT‑5.4 進一步優於其前代產品。

在 τ2-bench 中，模型必須使用工具來完成客戶服務任務，其中可能會有模擬使用者進行溝通並對世界狀態採取行動。推理強度設置為 None。

改進的網頁搜尋

GPT‑5.4 在代理式網頁搜尋方面表現更好。在 BrowseComp（衡量 AI 代理持續瀏覽網頁以尋找難以定位資訊的能力）中，GPT‑5.4 比 GPT‑5.2 提升了 17 個百分點，而 GPT‑5.4 Pro 創下了 89.3% 的新紀錄。

在實踐中，這意味著 GPT‑5.4 Thinking 在回答需要整合網頁上多個來源資訊的問題時更強大。它可以更持久地進行多輪搜尋以識別最相關的來源，特別是針對「大海撈針」式的問題，並將其綜合成清晰、推理充分的答案。

在 BrowseComp 中，我們使用了搜尋黑名單，排除包含基準測試答案的網站，以防止污染並確保公平衡量效能。GPT‑5.4 的測量日期晚於 GPT‑5.2，因此分數反映了模型、我們的搜尋系統以及網際網路狀態的變化。GPT‑5.4 使用了更長、更新的黑名單進行測試。模型使用 ChatGPT 搜尋工具，這與 API 搜尋可能存在細微差異。

可引導性

類似於 Codex 在開始工作時會概述其方法，ChatGPT 中的 GPT‑5.4 Thinking 現在會針對較長、較複雜的查詢，以「前導說明」（preamble）的形式概述其工作。你也可以在回覆過程中添加指令或調整其方向。這使得引導模型達到你想要的確切結果變得更加容易，而無需重新開始或需要多個額外回合。此功能現已在 chatgpt.com 和 Android 應用程式上推出，iOS 應用程式即將推出。

該模型還可以在困難任務上思考更長時間，同時對對話早期的步驟保持更強的意識。這使其能夠處理更長的工作流和更複雜的提示，同時在整個過程中保持答案的連貫性和相關性。

此影片為說明目的已加速。

安全性

在最近幾個月中，我們在準備部署 GPT‑5.4 的同時，持續改進了隨 GPT‑5.3‑Codex 引入的防護措施。與 GPT‑5.3‑Codex 類似，我們根據《準備框架》（Preparedness Framework）將 GPT‑5.4 視為具有「高網路能力」（High cyber capability），並按照系統卡（system card）中的記錄部署相應的保護措施。這些措施包括擴展的網路安全堆疊，包括監控系統、受信任的存取控制，以及針對零數據保留（ZDR）介面上高風險請求的異步攔截，同時持續投資於更廣泛的安全生態系統。

由於網路安全能力本質上具有雙重用途，我們在部署時保持預防性方法，同時不斷校準我們的政策和分類器。對於 ZDR 介面上的某些客戶，請求級別的攔截仍是我們網路風險緩解堆疊的一部分；由於分類器仍在改進中，在我們持續精煉這些防護措施時，可能會出現一些誤報。這些更新旨在改善防護措施在實踐中的運作方式，包括減少不必要的拒絕和過度保守的回覆，同時保持對濫用的強力保護。

我們持續進行關於「思維鏈」（CoT）可監測性的安全研究，以更好地理解模型的推理方式並幫助檢測潛在的錯誤行為。作為這項工作的一部分，我們引入了一項新的開源評估：CoT 可控性（CoT controllability），衡量模型是否會故意模糊其推理以規避監測。我們發現 GPT‑5.4 Thinking 控制其 CoT 的能力很低，這對安全性來說是一個積極的特性，表明模型缺乏隱藏其推理的能力，且 CoT 監測仍然是一個有效的安全工具。

供應情況與定價

GPT‑5.4 從今天起在 ChatGPT 和 Codex 中逐步推出。在 API 中，GPT‑5.4 現已作為 gpt-5.4 提供。GPT‑5.4 Pro 也已在 API 中作為 gpt-5.4-pro 提供，供需要在最複雜任務上獲得極致效能的開發者使用。

在 ChatGPT 中，GPT‑5.4 Thinking 從今天起對 ChatGPT Plus、Team 和 Pro 使用者開放，取代 GPT‑5.2 Thinking。GPT‑5.2 Thinking 將在模型選擇器的「舊版模型」（Legacy Models）部分為付費使用者保留三個月，之後將於 2026 年 6 月 5 日退役。Enterprise 和 Edu 方案的使用者可以透過管理員設置啟用早期存取。GPT‑5.4 Pro 適用於 Pro 和 Enterprise 方案。ChatGPT 中 GPT‑5.4 Thinking 的上下文視窗與 GPT‑5.2 Thinking 保持不變。

GPT‑5.4 是我們第一個整合了 GPT‑5.3‑Codex 前沿程式編寫能力，並在 ChatGPT、API 和 Codex 中全面推出的主線推理模型。我們將其命名為 GPT‑5.4 以反映這一跨越，並簡化使用 Codex 時的模型選擇。隨著時間推移，你可以預期我們的即時模型（Instant models）和推理模型（Thinking models）會以不同的速度演進。

Codex 中的 GPT‑5.4 包含對 1M 上下文視窗的實驗性支援。開發者可以透過配置 model_context_window 和 model_auto_compact_token_limit 來嘗試。超過標準 272K 上下文視窗的請求將按正常費率的 2 倍計入使用限制。

在 API 中，GPT‑5.4 的每 token 定價高於 GPT‑5.2，以反映其提升的能力，而其更高的 token 效率有助於減少許多任務所需的總 token 數。批次（Batch）和彈性（Flex）定價為標準 API 費率的一半，而優先處理（Priority processing）為標準 API 費率的兩倍。

API 模型	輸入價格	快取輸入價格	輸出價格
gpt-5.2	$1.75 / M tokens	$0.175 / M tokens	$14 / M tokens
gpt-5.4	$2.50 / M tokens	$0.25 / M tokens	$15 / M tokens
gpt-5.2-pro	$21 / M tokens	-	$168 / M tokens
gpt-5.4-pro	$30 / M tokens	-	$180 / M tokens

評估數據

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
投行建模任務 (內部)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (公開)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75.0%	—	74.0%	47.3%	—
MMMU Pro (無工具)	81.2%	—	—	79.5%	—
MMMU Pro (有工具)	82.1%	—	—	80.4%	—

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
前沿科學研究	33.0%	36.7%	—	25.2%	—
FrontierMath Tier 1–3	47.6%	50.0%	—	40.7%	—
FrontierMath Tier 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam (無工具)	39.8%	42.7%	—	34.5%	36.6%
Humanity's Last Exam (有工具)	52.1%	58.7%	—	45.5%	50.0%

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Graphwalks parents 0–128K (準確度)	89.8%	—	—	89.0%	—
Graphwalks parents 256K–1M (準確度)	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36.6%	—	—	—	—

評估項目	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (已驗證)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (已驗證)	73.3%	83.3%	—	52.9%	54.2% (high)

評估項目	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT-4.1
OmniDocBench (歸一化編輯距離)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

評估運行時推理強度設置為 xhigh，除非另有說明。基準測試是在研究環境中進行的，在某些情況下，其輸出可能與生產環境中的 ChatGPT 略有不同。

作者

腳註

1 人類表現數據報告於 OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(在新視窗中開啟)。

延伸閱讀

學習方塊藝術卡 1x1

產品 | 2026 年 3 月 10 日

oai 部落格 Codex 安全藝術卡 1x1

產品 | 2026 年 3 月 6 日

ChatGPT Excel 1x1

產品 | 2026 年 3 月 5 日

https://openai.com/index/introducing-gpt-5-4