GPT-5.2：專為前沿使用者打造的前沿模型

Lesswrong·4 個月前

GPT-5.2 是一款專為專業任務和複雜推理設計的前沿模型，雖然在基準測試上有顯著進步，但運行速度較慢且性格受到嚴格限制。

我們又見面了，就在 GPT-5.1 發布幾週後，以及 5.0 發布後的幾週。

GPT-5.2 並沒有重大的安全疑慮，因此我將從能力方面開始介紹，並僅在接近結尾的「模型卡與安全訓練」部分簡要涵蓋安全內容。

底線（結論）。

介紹 GPT-5.2。

官方基準測試。

GDPVal。

非官方基準測試。

官方宣傳。

大眾反應。

正面反應。

性格衝突。

程式碼體驗。

負面反應。

但你必須（遵循系統提示詞）。

緩慢。

模型卡與安全訓練。

欺騙性。

準備就緒框架。

趕工。

前沿模型或失敗。

底線（結論）

ChatGPT-5.2 是一款為那些需要前沿模型的人準備的前沿模型。

它並不像其標題基準測試所暗示的那樣具有代際變革。它的運行速度相當緩慢。

反應異常平淡。人們已經產生了「新模型疲勞」。因此，與以往模型在相同時間長度後的情況相比，我們對它的了解反而更少。

如果你正在編寫程式碼，請將其與 Claude Opus 4.5 進行比較，並選擇最適合你的工具。

如果你正在處理智力難度極高的任務，且需要大量的原始思考和智慧，如果你有權限，Gemini 3（尤其是其深度思考模式）是一個競爭對手；但 GPT-5.2（無論是 Thinking 還是 Pro 版本）可能也是一個不錯的選擇。

如果指令遵循對你的任務很重要，它似乎表現良好。

如果你處於「只要事實」的模式，它會是一個可靠的選擇。

作為大多數非編碼查詢的驅動力，你可能還是想堅持使用 Claude Opus 4.5。

與 GPT-5.2 互動並不「有趣」。人們非常不喜歡它的性格，它看起來不太愉快，這一點也表現了出來。它受到了嚴格的限制和審查。對於某些任務，這很重要；對於其他任務，則不然。

我不指望 GPT-5.2 能解決 OpenAI 的「紅色代碼」問題。他們計劃在一個月後嘗試 GPT-5.3。

介紹 GPT-5.2

OpenAI：我們推出了 GPT-5.2，這是迄今為止針對專業知識工作最強大的模型系列。

……我們設計 GPT-5.2 是為了為人們釋放更多的經濟價值；它在創建試算表、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具以及處理複雜的多步驟專案方面表現更出色。

GPT-5.2 在許多基準測試中樹立了新的技術標竿（State of the Art），包括 GDPval，在該測試中，它在涵蓋 44 種職業的明確知識工作任務上超越了行業專業人士。

他們引用了各家公司的說法，稱 GPT-5.2 在長程推理、工具調用性能和代理式編碼方面處於領先地位，並且在代理式數據科學方面表現卓越。我很欣慰這些不是一堆人工製造的 AI 廢話引用。

請注意這份新能力清單中包含了什麼，以及不包含什麼。

在一次不同尋常的舉動中，GPT-5.2 的定價為每百萬輸入/輸出 Token 1.75 美元/14 美元，略高於 GPT-5.1。他們聲稱，每個 Token 性能的提升意味著你的性價比（Quality per Dollar）仍然有所提高。API 上的 GPT-5.2-Pro 是針對嚴肅業務的，費用為 21 美元/168 美元。

Pro 現在有兩個級別。你可以選擇「標準」或「擴展」Pro。

OpenAI 沒有足夠強調的一個重大升級是，知識截止日期已移至 2025 年 8 月。

儘管 GPT-5.2 堅持自己「無法被攻破」，但 Pliny 的越獄方法已經出現了。

官方基準測試

官方基準測試顯示了幾週進展帶來的戲劇性飛躍，但這也是 OpenAI 在發布公告中主要談論的內容，並不能很好地反映這在實踐中會是多大的升級。

或許最重要的基準測試是 Google 的股價因該消息下跌了 2%？

我讓 GPT-5.2 同時抓取了 Gemini 和 Opus 的分數進行比較，因為 OpenAI 在官方部落格文章中遵循嚴格的「目中無人」政策（但請參見 Altman 的言論）。

在官方 SWEbench.com 評分中，GPT-5.2 落後得更多，Opus 4.5 為 74.4%，Gemini 3 Pro 為 74.2%，而 5.2 在高推理模式下為 71.8%。

ARC 在此驗證了他們的結果，這是一個新高，並且是「一年內約 390 倍的效率提升」。

還有用於理解 GUI 截圖的「ScreenSpot-Pro」，5.2 得分為 86.3%，而 5.1 為 64.2%。

他們有一個基於去識別化 ChatGPT 查詢的「事實性」指標，這似乎是一個很棒的主意，值得進一步推廣。我很驚訝他們沒有使用多層級錯誤檢查系統，或者也許他們已經用了？

長上下文「大海撈針」的分數有很大提高。

他們報告了在 Tau2-bench 上的小幅進展。

GDPVal

OpenAI 強調了 GDPVal 從 38.8% 到 70.9% 的巨大飛躍，這是指在各種知識工作任務中，評審員偏好 AI 輸出而非人類基準的頻率。這是一個巨大的飛躍，特別是在評分存在如此多雜訊的情況下，即使它跳過了 GPT-5.1，也比之前 Opus 4.5 的最高紀錄高出 10% 以上。話又說回來，Opus 從 4.1 到 4.5 也有 12% 的增長。

Artificial Analysis 有一個 GDPval-AA 排行榜，這是他們自己的評估，結果發現 GPT-5.2 僅比 Claude Opus 4.5 高出一點點。

（給 Artificial Analysis 的建議：你們的工作做得很好，但能不能讓網站更容易閱讀？大家都會感激不盡。）

無論出於何種原因，我們在這些任務上正處於 S 曲線的關鍵點，一點額外的幫助就能讓你頻繁地超越人類。

Ethan Mollick：哇。這個新的 GDPval 分數意義重大。

這可能是衡量 AI 能力在經濟上最相關的指標，它表明在與需要人類花費 4-8 小時完成的任務進行正面交鋒時，根據其他人類的判斷，GPT-5.2 有 71% 的時間會勝出。

也有懷疑論者：

Peter Wildeford：我完全不知道 GDPval 到底在測量什麼，我也沒有深入研究。但我認為它有點假。在看到 @METR_Evals 或 @ai_risks 的 http://remotelabor.ai 指數更新之前，我保留意見。

Adam Karvonen：在我熟悉的唯一領域（製造業）中，GDPVal 聲稱 Opus 接近人類水平（47%），而我認為它在我提供的任務中表現得非常糟糕。

非官方基準測試

我納入了所有能找到的內容，如果不在這裡，很可能還沒被報導。

Artificial Analysis 智慧指數目前 GPT-5.2 (High) 與 Gemini 3 Pro 以 73 分持平。他們報告它在「人類最後的考試」（Humanity’s Last Exam）中得分為 31.4%。它得分最差的是 CritPit（物理推理），得分為 0%，而 Gemini 3 為 9%，Claude Opus 4.5 和 GPT-5.1 均為 5%。

在 AA-Omniscience 指數（該指數獎勵準確性，對猜測的懲罰與對正確答案的獎勵相等）中，Gemini 3 為 +13%，Opus 為 +10%，GPT-5.1 High 為 +2%，而 GPT-5.2 High 為 -4%。退步到這個地步並不是好事。

LiveBench 認為 GPT-5.1-Codex-Max-High 仍然以 76.1 分位居榜首，Claude Opus 4.5 以 75.6 分緊隨其後，而 GPT-5.2-High 則以 73.6 分排在 Gemini 3 之後。

在剩下的 LMArena 中，我根本沒在文本排行榜上看到 5.2（我懷疑它在那裡表現不會好），我們只在 WebDev 排行榜上看到它，位居第二，僅次於 Opus 的思考模式。

GPT-5.2 在 EQ Bench 上的表現出人意料地好，位居第三，僅次於 Kimi K2 和 Horizon Alpha，遠領先於其他所有模型。

CAIS AI 儀表板將 GPT-5.2 的文本能力排在第二位，得分為 45.9，介於 Gemini 3 Pro 和 Claude Opus 之間。其風險指數落後於 Opus 和 Sonnet，但遠領先於非 Anthropic 模型。

Vals.ai 顯示 GPT 5.2 在總體上險勝 Opus 4.5，得分為 64.5% 對 63.7%，遠領先於其他所有人。

Lech Mazur 報告了在擴展版《紐約時報》Connections 遊戲中比 5.1 有所進步，領先於 Opus，從 69.9 提升到 77.9，而 Gemini 3 Pro 為 96.8。

NomoreID 顯示 GPT-5.2 在韓國 Sator Square 測試中得分為 165.9/190，比之前 Gemini 3 Pro 的最高分高出 10 分。看起來 Opus 由於成本原因未被測試。

Mark Kretschmann 認為 GPT-5.2-Thinking 是 Sansa 基準測試中受審查最嚴重的模型，儘管我們沒有關於其運作方式的細節。Claude Sonnet 4.5 接受了測試，但 Opus 沒有。Gemini 3 Pro 在這裡的得分顯示其審查程度極低，GPT-4o-Mini 也是如此。在所有維度上，完整的 Sansa 基準測試顯示 Sonnet 4.5 領先（同樣，他們沒有測試 Opus），GPT-5.2 則排在 Gemini 3 和 Grok 4.1 之後。

官方宣傳

過去，我們會看到 OpenAI 各種員工發布含糊不清的貼文。

現在，我們看到的是高層極其明確的宣傳，而其他人則保持沉默。

Sam Altman (OpenAI CEO)：GPT-5.2 來了！今天已在 ChatGPT 和 API 中提供。它是世界上最聰明的通用模型，尤其擅長處理現實世界的知識工作任務。

它是一個非常聰明的模型，自 GPT-5.1 以來我們已經取得了長足的進步。

即使沒有輸出精美檔案等新功能，GPT-5.2 感覺也是我們很長一段時間以來最大的升級。很想聽聽你們的想法！

Fidji Simo (OpenAI 產品執行長)：GPT-5.2 來了，它是目前處理日常專業工作最好的模型。

在 GDPval 上，思考模型在 70.9% 的常見專業任務（如試算表、簡報和文件創建）中擊敗或追平了人類專家。它在通用智慧、編寫程式碼、工具調用、視覺和長上下文理解方面也表現更好，因此可以為人們釋放更多的經濟價值。

早期的回饋非常好，我迫不及待想讓你們嘗試。

大眾反應

和往常一樣，我發布了一個反應討論串，並留意其他的反應。

我沒有納入每一個反應，但我盡量在討論串中納入了每一個有建設性的反應，無論是正面的還是負面的，以及其他地方任何突出的或具代表性的內容。我按情緒和子話題對反應進行了分類。

正面反應

Matt Shumer 的標題是「令人印象深刻，但太慢了」。

Matt Shumer：

GPT-5.2 Thinking 在指令遵循和嘗試困難任務的意願方面有了顯著進步。

程式碼生成比 GPT-5.1 好得多。它能力更強、更自主、更細心，並且願意編寫更多的程式碼。

視覺和長上下文有很大改進，特別是……

— Lesswrong

你的個人知識庫

GPT-5.2：專為前沿使用者打造的前沿模型