
隆重推出 GPT-5.5:為實際工作而生的新一代智慧
隆重推出 GPT-5.5,這是我們目前最聰明且最直觀的模型,也是邁向在電腦上完成工作之新方式的下一步。它擅長編寫與除錯程式碼、線上研究、分析數據、操作軟體,並能在不同工具間切換直到任務完成。
2026 年 4 月 23 日
GPT-5.5 發表
為實際工作而生的新一代智慧
我們正式發佈 GPT-5.5,這是我們迄今為止最聰明、使用最直覺的模型,也是邁向在電腦上完成工作之新方式的下一步。
GPT-5.5 能更快理解您的意圖,並能獨立承擔更多工作。它在編寫與偵錯程式碼、線上研究、數據分析、建立文件與試算表、操作軟體以及跨工具協作直到任務完成方面表現卓越。您不再需要仔細管理每個步驟,只需給予 GPT-5.5 一個複雜且包含多個部分的任務,並信任它去規劃、使用工具、檢查工作、應對模糊性並持續推進。
在代理式編碼(agentic coding)、電腦使用、知識工作和早期科學研究等領域,進步尤為顯著——這些領域的進展取決於跨上下文的推理以及隨時間推移採取的行動。GPT-5.5 在提升智慧的同時並未犧牲速度:更大、更強大的模型通常服務速度較慢,但 GPT-5.5 在實際應用中的每標記(per-token)延遲與 GPT-5.4 持平,同時表現出更高水準的智慧。它在完成相同的 Codex 任務時使用的標記數量也顯著減少,使其更高效且更強大。
我們發佈 GPT-5.5 時配備了迄今為止最強大的安全防護措施,旨在減少濫用,同時保留對有益工作的訪問權限。我們在全套安全與準備框架中對該模型進行了評估,與內部和外部紅隊人員合作,針對高級網路安全和生物能力增加了定向測試,並在發佈前從近 200 個值得信賴的早期訪問合作夥伴那裡收集了實際使用案例的反饋。
今天,GPT-5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用戶推出,而 GPT-5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用戶推出。API 部署需要不同的防護措施,我們正與合作夥伴和客戶密切合作,以滿足大規模服務的安全要求。我們將很快把 GPT-5.5 和 GPT-5.5 Pro 引入 API。
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE (內部) | 73.1% | 68.5% | - | - | - | - |
| GDPval (勝出或平手) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
模型能力
OpenAI 正在建構代理式 AI 的全球基礎設施,使世界各地的人們和企業能夠透過 AI 完成工作。在過去的一年裡,我們看到 AI 顯著加速了軟體工程。隨著 Codex 和 ChatGPT 中 GPT-5.5 的推出,同樣的轉革正開始延伸到科學研究以及人們在電腦上進行的更廣泛的工作中。
在這些領域中,GPT-5.5 不僅更聰明,而且在解決問題的過程中更有效率,通常能以更少的標記和更少的重試次數達成更高品質的輸出。在 Artificial Analysis 的編碼代理指數(Coding Agent Index)中,GPT-5.5 以競爭對手前沿編碼模型一半的成本提供了最先進的智慧。
Artificial Analysis 智慧指數(在新視窗中開啟)是由第三方執行的 10 項評估的加權平均值:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。
代理式編碼
GPT-5.5 是我們迄今為止最強大的代理式編碼模型。在 Terminal-Bench 2.0(測試需要規劃、迭代和工具協調的複雜命令行工作流)中,它達到了 82.7% 的領先準確度。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)中,它達到了 58.6%,在單次嘗試中比以往模型解決了更多端到端的任務。在 Expert-SWE(我們針對長週期編碼任務的內部前沿評估,預計人類完成時間中位數為 20 小時)中,GPT-5.5 的表現也優於 GPT-5.4。
在所有這三項評估中,GPT-5.5 在提升 GPT-5.4 分數的同時,使用的標記數量更少。
該模型的編碼優勢在 Codex 中表現得尤為明顯,它可以承擔從實作、重構到偵錯、測試和驗證的各項工程工作。早期測試顯示,GPT-5.5 在真實工程工作所依賴的行為上表現更好,例如在大型系統中保持上下文、推理模糊的故障、使用工具檢查假設,以及將更改貫穿到周圍的程式碼庫中。
渲染的軌跡使用 NASA/JPL Horizons 針對獵戶座、月球和太陽的向量數據,並應用了顯示縮放以提高可讀性。
提示詞:[附圖] 使用 webgl 和 vite 開發一個新應用程式,並使用來自阿提米絲 2 號任務的真實數據。請務必徹底測試該應用程式,直到它功能齊全且外觀與圖中一致。特別注意行星和飛行路徑的渲染。我希望能夠與 3D 渲染進行互動。確保它具有真實的軌道力學。
除了基準測試外,早期測試者表示 GPT-5.5 展現出更強的理解系統架構的能力:為什麼某些東西會失敗、修復程式碼應該放在哪裡,以及程式碼庫中的其他哪些部分會受到影響。

「這是我用過的第一個具有嚴謹概念清晰度的編碼模型。」

「這是我用過的第一個具有嚴謹概念清晰度的編碼模型。」
Every 的創始人兼執行長 Dan Shipper 將 GPT-5.5 描述為「我用過的第一個具有嚴謹概念清晰度的編碼模型」。
在發佈一個應用程式後,他花了數天時間偵錯發佈後的問題,然後才請他最好的工程師之一重寫部分系統。為了測試 GPT-5.5,他實際上倒轉了時間:該模型能否觀察損壞的狀態並產生與工程師最終決定相同的重寫方案?GPT-5.4 做不到,但 GPT-5.5 做到了。

「這真的感覺像是在與更高層次的智慧合作,甚至有一種敬畏感。」

「這真的感覺像是在與更高層次的智慧合作,甚至有一種敬畏感。」
MagicPath 的執行長 Pietro Schirano 看到了一個類似的階梯式變化:GPT-5.5 將一個包含數百個前端和重構更改的分支合併到一個也發生了實質性變化的主分支中,在大約 20 分鐘內一次性解決了這項工作。
測試該模型的資深工程師表示,GPT-5.5 在推理和自主性方面明顯強於 GPT-5.4 和 Claude Opus 4.7,能夠在沒有明確提示的情況下預先發現問題並預測測試和審查需求。在一個案例中,一位工程師要求它在協作 Markdown 編輯器中重新架構評論系統,回來後發現了一個幾乎完成的 12 個 diff 堆疊。其他人表示,他們需要的實作修正驚人地少,並且與 GPT-5.4 相比,對 GPT-5.5 的計劃更有信心。
一位擁有早期訪問權限的 NVIDIA 工程師甚至說:「失去 GPT-5.5 的訪問權限感覺就像被截肢了一樣。」
知識工作
使 GPT-5.5 擅長編碼的同樣優勢也使其在電腦上的日常工作中非常強大。因為該模型能更好地理解意圖,它可以更自然地在知識工作的完整循環中移動:尋找資訊、理解重點、使用工具、檢查輸出,並將原始素材轉化為有用的東西。
在 Codex 中,GPT-5.5 在生成文件、試算表和簡報投影片方面優於 GPT-5.4。Alpha 測試者表示,它在運籌研究、試算表建模以及將混亂的業務輸入轉化為計劃等工作上的表現優於以往模型。當與 Codex 的電腦使用技能相結合時,GPT-5.5 讓我們更接近模型能真正與您一起使用電腦的感覺:觀察螢幕內容、點擊、打字、導航介面並精確地跨工具操作。
OpenAI 的團隊已經在實際工作流中使用這些優勢。今天,公司超過 85% 的員工每週都會在包括軟體工程、財務、通訊、行銷、數據科學和產品管理在內的職能部門使用 Codex。在通訊部門,團隊使用 Codex 中的 GPT-5.5 分析了六個月的演講請求數據,建立了評分和風險框架,並驗證了一個自動化的 Slack 代理,以便自動處理低風險請求,而高風險請求仍路由至人工審查。在財務部門,團隊使用 Codex 審查了 24,771 份 K-1 稅務表單,總計 71,637 頁,使用的流程排除了個人資訊,並幫助團隊比前一年提前兩週完成了任務。在市場開拓(Go-to-Market)團隊,一名員工自動化生成了每週業務報告,每週節省了 5-10 小時。
在 ChatGPT 中,GPT-5.5 的思考能力(Thinking)為更難的問題解鎖了更快的幫助,提供更聰明、更簡潔的答案,幫助您更有效地處理複雜工作。它在編碼、研究、資訊綜合與分析以及文件密集型任務(尤其是使用外掛程式時)方面表現優異。
在 GPT-5.5 Pro 中,早期測試者看到 ChatGPT 能承擔的工作在難度和品質上都有顯著提升,延遲的改善使其在要求嚴苛的任務中更具實用性。與 GPT-5.4 Pro 相比,測試者發現 GPT-5.5 Pro 的回答明顯更全面、結構更嚴謹、準確、相關且有用,在商業、法律、教育和數據科學領域的表現尤為強勁。
GPT-5.5 在反映此類工作的多個基準測試中達到了最先進的性能。在 GDPval(測試代理在 44 個職業中產生明確說明的知識工作的能力)中,GPT-5.5 得分為 84.9%。在 OSWorld-Verified(衡量模型是否能自行操作真實電腦環境)中,它達到了 78.7%。而在 Tau2-bench Telecom(測試複雜的客戶服務工作流)中,它在沒有提示詞微調的情況下達到了 98.0%。GPT-5.5 在其他知識工作基準測試中也表現強勁:FinanceAgent 為 60.0%,內部投資銀行建模任務為 88.5%,OfficeQA Pro 為 54.1%。
Tau2-bench Telecom 是在沒有提示詞微調的情況下運行的(並以 GPT-4.1 作為用戶模型)。GPT-5.5 比其前身更能理解任務意圖,且標記效率更高。
科學研究
GPT-5.5 在科學和技術研究工作流中也展現出進步,這類工作需要的不僅僅是回答一個難題。研究人員需要探索想法、收集證據、測試假設、解釋結果並決定下一步嘗試什麼。GPT-5.5 在維持這一循環方面的表現優於其他模型。
值得注意的是,GPT-5.5 在 GeneBench(在新視窗中開啟)上比 GPT-5.4 有明顯提升,這是一個專注於遺傳學和定量生物學中多階段科學數據分析的新評估。這些問題要求模型在最少監督指導下對潛在模糊或錯誤的數據進行推理,應對現實障礙(如隱藏的干擾因素或品管失敗),並正確實作和解釋現代統計方法。鑑於這裡的任務通常對應科學專家的多日專案,該模型的表現令人矚目。
同樣地,在 BixBench(一個圍繞真實世界生物資訊學和數據分析設計的基準測試)中,GPT-5.5 在已發佈分數的模型中取得了領先地位。該模型的科學能力現在已強大到足以作為真正的「共同科學家」,有意義地加速生物醫學研究前沿的進展。
在另一個例子中,一個帶有自定義套件的內部版本 GPT-5.5 幫助發現了一個關於拉姆齊數(Ramsey numbers,組合數學中的核心對象之一)的新證明。組合數學研究離散對象如何組合在一起:圖、網路、集合和模式。拉姆齊數大致詢問一個網路必須有多大才能保證出現某種秩序。該領域的結果非常罕見,且通常在技術上極其困難。在這裡,GPT-5.5 發現了一個關於非對角拉姆齊數的長期漸近事實的證明,隨後在 Lean 中得到了驗證。這一結果是 GPT-5.5 不僅貢獻程式碼或解釋,而且在核心研究領域貢獻了令人驚訝且有用的數學論證的具體案例。
早期測試者在 ChatGPT 中使用 GPT-5.5 Pro 時,與其說它是單次回答引擎,不如說它更像是一個研究夥伴:多次審閱手稿、對技術論證進行壓力測試、提出分析建議,並處理程式碼、筆記和 PDF 上下文。共同點是 GPT-5.5 能更好地幫助研究人員從問題轉向實驗再轉向輸出。


傑克遜基因組醫學實驗室(Jackson Laboratory for Genomic Medicine)的免疫學教授兼研究員 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一個包含 62 個樣本和近 28,000 個基因的基因表達數據集,產生了一份詳細的研究報告,不僅總結了發現,還提出了關鍵問題和見解——他說這項工作原本會花費他的團隊數月時間。


波蘭波茲南亞當·密茨凱維奇大學(Adam Mickiewicz University)的數學助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT-5.5,在 11 分鐘內透過單個提示詞建立了一個代數幾何應用程式,將二次曲面的交集視覺化,並將生成的曲線轉換為魏爾斯特拉斯模型(Weierstrass model)。
他後來擴展了該應用程式,增加了更穩定的奇點視覺化和可用於進一步工作的精確係數。對他來說,更大的轉變在於 Codex 現在可以幫助實作自定義的數學視覺化和電腦代數工作流,而這些以前需要專門的工具。總之,這些例子展示了 GPT-5.5 如何將專家的意圖轉化為可運行的研究工具和分析。

致謝:Bartosz Naskręcki(在新視窗中開啟)
提示詞:# 代數幾何曲面交集
製作一個應用程式,繪製兩個二次曲面並用紅色標出交線。使用計算黎曼-羅赫定理(Riemann-Roch theorem)將其轉換為魏爾斯特拉斯曲線。
主視窗
兩個帶有輕微透明陰影的著色曲面,高品質渲染,沿著紅色代數曲線相交。
支援滑鼠雙向旋轉,完整的捏合縮放機制,觸覺長按顯示帶有滑桿的小選單,用於更改每個曲面的係數;透過 Z 緩衝層級進行偵測。
右側視窗
透過有效的黎曼-羅赫定理公式即時計算短魏爾斯特拉斯方程(在 Q 或二次體擴張上)。
環境模式,隱藏所有控制項,用戶可以欣賞形狀之美。
規格
應用程式在瀏覽器中運行,使用最新完整堆疊庫的輕量化實作,可移植、可部署。
文件
Git 倉庫、日誌、計劃(Markdown 文件)。
下一代推理效率
以 GPT-5.4 的延遲提供 GPT-5.5 服務,需要將推理重新構思為一個整合系統,而非一組孤立的優化。GPT-5.5 是專為 NVIDIA GB200 和 GB300 NVL72 系統共同設計、訓練並在其上提供服務的。Codex 和 GPT-5.5 在我們達成性能目標的過程中發揮了關鍵作用。Codex 幫助團隊更快地從想法轉向可基準測試的實作,勾勒方案、串接實驗,並幫助識別哪些優化值得深入投入。GPT-5.5 則幫助發現並實作了堆疊本身的核心改進。簡單來說,該模型幫助改進了為其提供服務的基礎設施。
其中一項改進是負載平衡和分區啟發式演算法。在 GPT-5.5 之前,我們將加速器上的請求拆分為固定數量的塊,以平衡各計算核心的工作,確保大小請求可以在同一個 GPU 上運行。然而,預先確定的靜態塊數量並非對所有流量形態都是最優的。為了更好地利用 GPU,Codex 分析了數週的生產流量模式,並編寫了自定義啟發式演算法來優化分區和平衡工作。這項努力產生了巨大的影響,使標記生成速度提高了 20% 以上。
提升網路安全,保障大眾安全
為那些非常擅長發現和修復安全漏洞的模型做好準備是一項團隊運動,需要整個生態系統努力建立韌性,透過民主化的模型訪問和迭代部署來迎接下一代網路防禦。
前沿模型在網路安全方面的能力正日益增強。這些能力將被廣泛傳播,我們相信最好的前進道路是確保它們能被用於加速網路防禦並加強生態系統。
GPT-5.5 是邁向能解決網路安全等全球最嚴峻挑戰之 AI 的漸進但重要的一步。透過 12 月的 GPT-5.2,我們主動部署了必要的網路安全防護措施,以限制模型可能帶來的網路濫用;現在透過 GPT-5.5,我們正在部署更嚴格的潛在網路風險分類器,隨著我們隨時間進行微調,某些用戶最初可能會覺得這些分類器有些干擾。
多年來,隨著模型能力的逐步提升,我們已在準備框架(Preparedness Framework)中將網路安全列為一個類別,同時迭代開發和校準緩解措施,以便能夠負責任地發佈具有重大網路安全能力的模型。
根據我們的準備框架,我們將 GPT-5.5 的生物/化學和網路安全能力視為「高」(High)。雖然 GPT-5.5 尚未達到「關鍵」(Critical)網路安全能力水準,但我們的評估和測試顯示,其網路安全能力比 GPT-5.4 有了顯著提升。
此外,GPT-5.5 在發佈前經過了我們完整的安全與治理流程,包括準備評估、領域特定測試、針對高級生物和網路安全能力的新定向評估,以及與外部專家的嚴格測試。我們在 GPT-5.5 系統卡(system card)中分享了更多細節。
這項工作反映了我們更廣泛的 AI 韌性方法,我們認為隨著模型能力的進步,這是必要的。我們希望強大的 AI 能被那些用它來保衛系統、機構和公眾的人所使用。可行的路徑是值得信賴的訪問、隨能力擴展的強大防護措施,以及檢測和應對嚴重濫用的運營能力。
可用性與定價
今天,GPT-5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用戶推出,而 GPT-5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用戶推出。我們將很快把 GPT-5.5 和 GPT-5.5 Pro 引入 API。
在 ChatGPT 中,GPT-5.5 思考能力(Thinking)開放給 Plus、Pro、Business 和 Enterprise 用戶。專為更難問題和更高準確度工作設計的 GPT-5.5 Pro 則開放給 Pro、Business 和 Enterprise 用戶。
在 Codex 中,GPT-5.5 適用於 Plus、Pro、Business、Enterprise、Edu 和 Go 方案,具有 400K 上下文視窗。GPT-5.5 還提供快速(Fast)模式,生成標記的速度快 1.5 倍,成本為 2.5 倍。
對於 API 開發者,gpt-5.5 很快將在 Responses 和 Chat Completions API 中提供,價格為每 100 萬輸入標記 5 美元,每 100 萬輸出標記 30 美元,具有 100 萬上下文視窗。批次(Batch)和彈性(Flex)定價為標準 API 費率的一半,而優先(Priority)處理費率為標準費率的 2.5 倍。我們還將在 API 中發佈 gpt-5.5-pro 以提供更高的準確度,定價為每 100 萬輸入標記 30 美元,每 100 萬輸出標記 180 美元。詳情請參閱定價頁面。
雖然 GPT-5.5 的定價高於 GPT-5.4,但它更聰明且標記效率更高。在 Codex 中,我們仔細調整了體驗,使 GPT-5.5 對大多數用戶而言能以比 GPT-5.4 更少的標記提供更好的結果,同時繼續在各個訂閱級別提供慷慨的使用額度。
評估數據
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| SWE-Bench Pro (公開) * | 58.6% | 57.7% | - | - | 64.3%* | 54.2% |
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE (內部) | 73.1% | 68.5% | - | - | - | - |
*Anthropic 報告稱在部分問題上發現了記憶化跡象。
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| GDPval (勝出或平手) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
| 投資銀行建模任務 (內部) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
| OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| MMMU Pro (無工具) | 81.2% | 81.2% | - | - | - | 80.5% |
| MMMU Pro (有工具) | 83.2% | 82.1% | - | - | - | - |
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| Tau2-bench Telecom***(原始提示) | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas:來自 Scale AI 在 2026 年 4 月最新更新後的結果。*** Tau2-bench telecom:5.5 和 5.4 使用原始提示(即無提示調整)的結果。這省略了其他實驗室在經過提示調整後評估的結果。
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| BixBench | 80.5% | 74.0% | - | - | - | - |
| GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
| Humanity's Last Exam (無工具) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
| Humanity's Last Exam (有工具) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| 奪旗賽 (CTF) 挑戰任務 (內部)**** | 88.1% | 83.7% | - | - | - | - |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** 系統卡中使用的最難 CTF 的擴展版,增加了額外的困難挑戰。
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | - | - | 41.2% (Opus 4.6) | - |
| Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
| Graphwalks parents 1mil f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
| OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
| OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
| OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
| OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
| OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
| OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
| OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
| OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
| 評估項目 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| ARC-AGI-1 (驗證版) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
| ARC-AGI-2 (驗證版) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT 的評估是在推理努力(reasoning effort)設置為「極高」(xhigh)的情況下運行的,且是在研究環境中進行的,在某些情況下,其輸出可能與生產環境中的 ChatGPT 略有不同。
作者
延伸閱讀

產品 2026 年 4 月 22 日

產品 2026 年 4 月 22 日

研究 2026 年 4 月 22 日
— OpenAI
相關文章
其他收藏 · 0