GPT-5.2:專為前沿使用者打造的前沿模型
GPT-5.2 是一款專為專業任務和複雜推理設計的前沿模型,雖然在基準測試上有顯著進步,但運行速度較慢且性格受到嚴格限制。
我們又見面了,就在 GPT-5.1 發布幾週後,以及 5.0 發布後的幾週。
GPT-5.2 並沒有重大的安全疑慮,因此我將從能力方面開始介紹,並僅在接近結尾的「模型卡與安全訓練」部分簡要涵蓋安全內容。
目錄
底線(結論)。
介紹 GPT-5.2。
官方基準測試。
GDPVal。
非官方基準測試。
官方宣傳。
大眾反應。
正面反應。
性格衝突。
程式碼體驗。
負面反應。
但你必須(遵循系統提示詞)。
緩慢。
模型卡與安全訓練。
欺騙性。
準備就緒框架。
趕工。
前沿模型或失敗。
底線(結論)
ChatGPT-5.2 是一款為那些需要前沿模型的人準備的前沿模型。
它並不像其標題基準測試所暗示的那樣具有代際變革。它的運行速度相當緩慢。
反應異常平淡。人們已經產生了「新模型疲勞」。因此,與以往模型在相同時間長度後的情況相比,我們對它的了解反而更少。
如果你正在編寫程式碼,請將其與 Claude Opus 4.5 進行比較,並選擇最適合你的工具。
如果你正在處理智力難度極高的任務,且需要大量的原始思考和智慧,如果你有權限,Gemini 3(尤其是其深度思考模式)是一個競爭對手;但 GPT-5.2(無論是 Thinking 還是 Pro 版本)可能也是一個不錯的選擇。
如果指令遵循對你的任務很重要,它似乎表現良好。
如果你處於「只要事實」的模式,它會是一個可靠的選擇。
作為大多數非編碼查詢的驅動力,你可能還是想堅持使用 Claude Opus 4.5。
與 GPT-5.2 互動並不「有趣」。人們非常不喜歡它的性格,它看起來不太愉快,這一點也表現了出來。它受到了嚴格的限制和審查。對於某些任務,這很重要;對於其他任務,則不然。
我不指望 GPT-5.2 能解決 OpenAI 的「紅色代碼」問題。他們計劃在一個月後嘗試 GPT-5.3。
介紹 GPT-5.2
OpenAI:我們推出了 GPT-5.2,這是迄今為止針對專業知識工作最強大的模型系列。
……我們設計 GPT-5.2 是為了為人們釋放更多的經濟價值;它在創建試算表、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具以及處理複雜的多步驟專案方面表現更出色。
GPT-5.2 在許多基準測試中樹立了新的技術標竿(State of the Art),包括 GDPval,在該測試中,它在涵蓋 44 種職業的明確知識工作任務上超越了行業專業人士。
他們引用了各家公司的說法,稱 GPT-5.2 在長程推理、工具調用性能和代理式編碼方面處於領先地位,並且在代理式數據科學方面表現卓越。我很欣慰這些不是一堆人工製造的 AI 廢話引用。
請注意這份新能力清單中包含了什麼,以及不包含什麼。
在一次不同尋常的舉動中,GPT-5.2 的定價為每百萬輸入/輸出 Token 1.75 美元/14 美元,略高於 GPT-5.1。他們聲稱,每個 Token 性能的提升意味著你的性價比(Quality per Dollar)仍然有所提高。API 上的 GPT-5.2-Pro 是針對嚴肅業務的,費用為 21 美元/168 美元。
Pro 現在有兩個級別。你可以選擇「標準」或「擴展」Pro。
OpenAI 沒有足夠強調的一個重大升級是,知識截止日期已移至 2025 年 8 月。
儘管 GPT-5.2 堅持自己「無法被攻破」,但 Pliny 的越獄方法已經出現了。
官方基準測試
官方基準測試顯示了幾週進展帶來的戲劇性飛躍,但這也是 OpenAI 在發布公告中主要談論的內容,並不能很好地反映這在實踐中會是多大的升級。
或許最重要的基準測試是 Google 的股價因該消息下跌了 2%?
我讓 GPT-5.2 同時抓取了 Gemini 和 Opus 的分數進行比較,因為 OpenAI 在官方部落格文章中遵循嚴格的「目中無人」政策(但請參見 Altman 的言論)。
在官方 SWEbench.com 評分中,GPT-5.2 落後得更多,Opus 4.5 為 74.4%,Gemini 3 Pro 為 74.2%,而 5.2 在高推理模式下為 71.8%。
ARC 在此驗證了他們的結果,這是一個新高,並且是「一年內約 390 倍的效率提升」。
還有用於理解 GUI 截圖的「ScreenSpot-Pro」,5.2 得分為 86.3%,而 5.1 為 64.2%。
他們有一個基於去識別化 ChatGPT 查詢的「事實性」指標,這似乎是一個很棒的主意,值得進一步推廣。我很驚訝他們沒有使用多層級錯誤檢查系統,或者也許他們已經用了?
長上下文「大海撈針」的分數有很大提高。
他們報告了在 Tau2-bench 上的小幅進展。
GDPVal
OpenAI 強調了 GDPVal 從 38.8% 到 70.9% 的巨大飛躍,這是指在各種知識工作任務中,評審員偏好 AI 輸出而非人類基準的頻率。這是一個巨大的飛躍,特別是在評分存在如此多雜訊的情況下,即使它跳過了 GPT-5.1,也比之前 Opus 4.5 的最高紀錄高出 10% 以上。話又說回來,Opus 從 4.1 到 4.5 也有 12% 的增長。
Artificial Analysis 有一個 GDPval-AA 排行榜,這是他們自己的評估,結果發現 GPT-5.2 僅比 Claude Opus 4.5 高出一點點。
(給 Artificial Analysis 的建議:你們的工作做得很好,但能不能讓網站更容易閱讀?大家都會感激不盡。)
無論出於何種原因,我們在這些任務上正處於 S 曲線的關鍵點,一點額外的幫助就能讓你頻繁地超越人類。
Ethan Mollick:哇。這個新的 GDPval 分數意義重大。
這可能是衡量 AI 能力在經濟上最相關的指標,它表明在與需要人類花費 4-8 小時完成的任務進行正面交鋒時,根據其他人類的判斷,GPT-5.2 有 71% 的時間會勝出。
也有懷疑論者:
Peter Wildeford:我完全不知道 GDPval 到底在測量什麼,我也沒有深入研究。但我認為它有點假。在看到 @METR_Evals 或 @ai_risks 的 http://remotelabor.ai 指數更新之前,我保留意見。
Adam Karvonen:在我熟悉的唯一領域(製造業)中,GDPVal 聲稱 Opus 接近人類水平(47%),而我認為它在我提供的任務中表現得非常糟糕。
非官方基準測試
我納入了所有能找到的內容,如果不在這裡,很可能還沒被報導。
Artificial Analysis 智慧指數目前 GPT-5.2 (High) 與 Gemini 3 Pro 以 73 分持平。他們報告它在「人類最後的考試」(Humanity’s Last Exam)中得分為 31.4%。它得分最差的是 CritPit(物理推理),得分為 0%,而 Gemini 3 為 9%,Claude Opus 4.5 和 GPT-5.1 均為 5%。
在 AA-Omniscience 指數(該指數獎勵準確性,對猜測的懲罰與對正確答案的獎勵相等)中,Gemini 3 為 +13%,Opus 為 +10%,GPT-5.1 High 為 +2%,而 GPT-5.2 High 為 -4%。退步到這個地步並不是好事。
LiveBench 認為 GPT-5.1-Codex-Max-High 仍然以 76.1 分位居榜首,Claude Opus 4.5 以 75.6 分緊隨其後,而 GPT-5.2-High 則以 73.6 分排在 Gemini 3 之後。
在剩下的 LMArena 中,我根本沒在文本排行榜上看到 5.2(我懷疑它在那裡表現不會好),我們只在 WebDev 排行榜上看到它,位居第二,僅次於 Opus 的思考模式。
GPT-5.2 在 EQ Bench 上的表現出人意料地好,位居第三,僅次於 Kimi K2 和 Horizon Alpha,遠領先於其他所有模型。
CAIS AI 儀表板將 GPT-5.2 的文本能力排在第二位,得分為 45.9,介於 Gemini 3 Pro 和 Claude Opus 之間。其風險指數落後於 Opus 和 Sonnet,但遠領先於非 Anthropic 模型。
Vals.ai 顯示 GPT 5.2 在總體上險勝 Opus 4.5,得分為 64.5% 對 63.7%,遠領先於其他所有人。
Lech Mazur 報告了在擴展版《紐約時報》Connections 遊戲中比 5.1 有所進步,領先於 Opus,從 69.9 提升到 77.9,而 Gemini 3 Pro 為 96.8。
NomoreID 顯示 GPT-5.2 在韓國 Sator Square 測試中得分為 165.9/190,比之前 Gemini 3 Pro 的最高分高出 10 分。看起來 Opus 由於成本原因未被測試。
Mark Kretschmann 認為 GPT-5.2-Thinking 是 Sansa 基準測試中受審查最嚴重的模型,儘管我們沒有關於其運作方式的細節。Claude Sonnet 4.5 接受了測試,但 Opus 沒有。Gemini 3 Pro 在這裡的得分顯示其審查程度極低,GPT-4o-Mini 也是如此。在所有維度上,完整的 Sansa 基準測試顯示 Sonnet 4.5 領先(同樣,他們沒有測試 Opus),GPT-5.2 則排在 Gemini 3 和 Grok 4.1 之後。
官方宣傳
過去,我們會看到 OpenAI 各種員工發布含糊不清的貼文。
現在,我們看到的是高層極其明確的宣傳,而其他人則保持沉默。
Sam Altman (OpenAI CEO):GPT-5.2 來了!今天已在 ChatGPT 和 API 中提供。它是世界上最聰明的通用模型,尤其擅長處理現實世界的知識工作任務。
它是一個非常聰明的模型,自 GPT-5.1 以來我們已經取得了長足的進步。
即使沒有輸出精美檔案等新功能,GPT-5.2 感覺也是我們很長一段時間以來最大的升級。很想聽聽你們的想法!
Fidji Simo (OpenAI 產品執行長):GPT-5.2 來了,它是目前處理日常專業工作最好的模型。
在 GDPval 上,思考模型在 70.9% 的常見專業任務(如試算表、簡報和文件創建)中擊敗或追平了人類專家。它在通用智慧、編寫程式碼、工具調用、視覺和長上下文理解方面也表現更好,因此可以為人們釋放更多的經濟價值。
早期的回饋非常好,我迫不及待想讓你們嘗試。
大眾反應
和往常一樣,我發布了一個反應討論串,並留意其他的反應。
我沒有納入每一個反應,但我盡量在討論串中納入了每一個有建設性的反應,無論是正面的還是負面的,以及其他地方任何突出的或具代表性的內容。我按情緒和子話題對反應進行了分類。
正面反應
Matt Shumer 的標題是「令人印象深刻,但太慢了」。
Matt Shumer:
GPT-5.2 Thinking 在指令遵循和嘗試困難任務的意願方面有了顯著進步。
程式碼生成比 GPT-5.1 好得多。它能力更強、更自主、更細心,並且願意編寫更多的程式碼。
視覺和長上下文有很大改進,特別是……
相關文章