OpenAI 推出 GPT-5.4，包含 Pro 與 Thinking 版本

Techcrunch·大約 1 個月前

GPT-5.4 被譽為我們針對專業工作最強大且最高效的前沿模型。

週四，OpenAI 發布了 GPT-5.4，這是一款被譽為「我們針對專業工作最強大且最高效的前沿模型」的新型基礎模型。除了標準版本外，GPT-5.4 還提供推理模型（GPT-5.4 Thinking）或針對高效能優化的版本（GPT-5.4 Pro）。

該模型的 API 版本將提供高達 100 萬個 token 的上下文窗口，這是迄今為止 OpenAI 提供的最大上下文窗口。

OpenAI 還強調了 token 效率的提升，表示 GPT-5.4 能夠以比其前代產品顯著更少的 token 解決同樣的問題。

新模型在基準測試結果上有顯著提升，包括在電腦使用基準測試 OSWorld-Verified 和 WebArena Verified 中獲得創紀錄的分數。新模型在 OpenAI 針對知識工作任務的 GDPval 測試中也獲得了創紀錄的 83% 分數。

根據 Mercor 執行長 Brendan Foody 的聲明，GPT-5.4 在旨在測試法律和金融專業技能的 Mercor APEX-Agents 基準測試中也處於領先地位。

Foody 在聲明中表示：「[GPT-5.4] 擅長創建長週期的交付成果，如簡報投影片、財務模型和法律分析，在提供頂尖性能的同時，運行速度比競爭對手的前沿模型更快且成本更低。」

GPT-5.4 延續了該公司限制幻覺和事實錯誤的努力。OpenAI 表示，與 GPT 5.2 相比，新模型在單個主張中犯錯的可能性降低了 33%，整體回覆包含錯誤的可能性降低了 18%。

作為發布的一部分，OpenAI 重新設計了 GPT-5.4 API 版本管理工具調用（tool calling）的方式，引入了一個名為「工具搜尋」（Tool Search）的新系統。以前，在調用模型時，系統提示會列出所有可用工具的定義——隨著可用工具數量的增加，這個過程可能會消耗大量 token。新系統允許模型根據需要查找工具定義，從而在具有多個可用工具的系統中實現更快、更便宜的請求。

OpenAI 還納入了一項新的安全評估，以測試其模型的思維鏈（chain-of-thought），即模型在執行多步驟任務時顯示其思考過程的運行評論。AI 安全研究人員長期以來一直擔心推理模型可能會誤導其思維鏈，測試表明在適當的情況下這種情況確實會發生。

OpenAI 的新評估顯示，在 GPT-5.4 的 Thinking 版本中，欺騙行為發生的可能性較低，「這表明該模型缺乏隱藏其推理的能力，且思維鏈（CoT）監控仍然是一個有效的安全工具。」

https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions/