
OpenAI 推出 GPT-5.4,包含 Pro 與 Thinking 版本
GPT-5.4 被譽為我們針對專業工作最強大且最高效的前沿模型。
週四,OpenAI 發布了 GPT-5.4,這是一款被譽為「我們針對專業工作最強大且最高效的前沿模型」的新型基礎模型。除了標準版本外,GPT-5.4 還提供推理模型(GPT-5.4 Thinking)或針對高效能優化的版本(GPT-5.4 Pro)。
該模型的 API 版本將提供高達 100 萬個 token 的上下文窗口,這是迄今為止 OpenAI 提供的最大上下文窗口。
OpenAI 還強調了 token 效率的提升,表示 GPT-5.4 能夠以比其前代產品顯著更少的 token 解決同樣的問題。
新模型在基準測試結果上有顯著提升,包括在電腦使用基準測試 OSWorld-Verified 和 WebArena Verified 中獲得創紀錄的分數。新模型在 OpenAI 針對知識工作任務的 GDPval 測試中也獲得了創紀錄的 83% 分數。
根據 Mercor 執行長 Brendan Foody 的聲明,GPT-5.4 在旨在測試法律和金融專業技能的 Mercor APEX-Agents 基準測試中也處於領先地位。
Foody 在聲明中表示:「[GPT-5.4] 擅長創建長週期的交付成果,如簡報投影片、財務模型和法律分析,在提供頂尖性能的同時,運行速度比競爭對手的前沿模型更快且成本更低。」
GPT-5.4 延續了該公司限制幻覺和事實錯誤的努力。OpenAI 表示,與 GPT 5.2 相比,新模型在單個主張中犯錯的可能性降低了 33%,整體回覆包含錯誤的可能性降低了 18%。
作為發布的一部分,OpenAI 重新設計了 GPT-5.4 API 版本管理工具調用(tool calling)的方式,引入了一個名為「工具搜尋」(Tool Search)的新系統。以前,在調用模型時,系統提示會列出所有可用工具的定義——隨著可用工具數量的增加,這個過程可能會消耗大量 token。新系統允許模型根據需要查找工具定義,從而在具有多個可用工具的系統中實現更快、更便宜的請求。
OpenAI 還納入了一項新的安全評估,以測試其模型的思維鏈(chain-of-thought),即模型在執行多步驟任務時顯示其思考過程的運行評論。AI 安全研究人員長期以來一直擔心推理模型可能會誤導其思維鏈,測試表明在適當的情況下這種情況確實會發生。
OpenAI 的新評估顯示,在 GPT-5.4 的 Thinking 版本中,欺騙行為發生的可能性較低,「這表明該模型缺乏隱藏其推理的能力,且思維鏈(CoT)監控仍然是一個有效的安全工具。」