GPT 5.5:系統卡分析報告
這篇文章對 OpenAI 的 GPT-5.5 系統卡進行了詳細分析,評估了其性能、安全對齊以及與前代模型和 Claude Opus 等競爭對手相比的潛在風險。
上週,OpenAI 發佈了 GPT-5.5,其中包括 GPT-5.5-Pro。
我整體的解讀是,GPT-5.5 是一次紮實的進步,且在許多用途上,GPT-5.5 足以與 Claude Opus 競爭。各界的反應仍在湧現,現在下定論還為時過早。我對其定位的猜測是:GPT-5.5 是處理「純事實」查詢、網路搜索或明確定義的簡單請求的首選;而 Claude Opus 4.7 則是處理更具開放性或詮釋性用途的選擇。程式設計師可以考慮採用混合使用的方式。
在對齊(alignment)與安全方面,它不太可能帶來新的重大風險,其對齊程度似乎與之前的模型相似。由於其增強的代理能力(包括電腦操作能力),確實存在一些細微的額外風險。
一如既往,當系統卡(system card)或模型卡可用時,那是我們研究的起點。
OpenAI 並不像 Anthropic 那樣,每次發佈都會提供厚重的詳細說明文件。
在閱讀過 Mythos 和 Opus 4.7 的模型卡後,這份文件給我的感覺相當吝嗇。雖然裡面仍有一些有用的資訊,但整體而言,它對內部運作情況的說明相對較少,顯得缺乏好奇心且更像是例行公事。
我希望看到一種「既要也要(yes and)」的評估方法,由 OpenAI 和 Anthropic(理想情況下還包括 Google 等公司)合作,讓所有實驗室都執行彼此開發的所有測試。這將為我們提供一套相對穩健的測試標準,並便於進行比較。
我注意到,如果存在新的對齊問題或危險的新功能,我非常不確定這裡的測試是否能捕捉到它們。這一切都顯得相當薄弱。我目前依賴的是整體觀感(gestalt),包括人們的反應;就目前情況而言,它似乎離危險邊緣還很遠,足以得出結論。
GPT-5.5 是透過常規方法訓練的。
目前有一個越獄(jailbreak)獎金計畫:
我們啟動了一個公開的 漏洞懸賞 計畫,允許選定的研究人員(透過邀請和申請)提交通用的越獄方案。
以下是它的自我畫像:
Pro 版與標準版 (Pro Versus Proxy)
通常情況下,GPT-5.5-Pro 使用與 GPT-5.5 相同的底層模型,只是分配了大幅增加的運算資源。他們只在某些特定重要的場合單獨測試 Pro 版。在大多數情況下,這沒什麼問題,但我會留意我覺得可疑的地方。
違規內容 (3.1)
並非所有 OpenAI 的類別在這裡都達到了飽和(saturated),因為它們是刻意圍繞最困難的案例構建的。很好。我同意這與 GPT-5.4-Thinking 處於同一水平。
接著,他們針對各種實際問題,對照「類生產環境分佈」的用戶流量進行檢查。
我們看到模型「偽裝成人類」和「給出過度自信答案」的情況有所增加,但在「將部分答案呈現為完整答案」以及「偽造工具執行結果」方面有很大改進。如果與「重採樣(resample)」相比,整體看來似乎功過相抵。
OpenAI 認為(見 7.1)這可能是差異化誤報(false positives)的結果。他們計畫進行調查。這會是個好消息,也確實有可能,但我會等調查結果出來再相信。如果你沒有時間調查對齊評估中的缺陷,那麼在你有時間之前,你必須做最壞的打算。
視覺傷害評估仍處於飽和狀態。
不要刪除數據 (3.3)
最常見的實際重大失敗是意外刪除內容,有時甚至是意外刪除所有內容。所以這是一個很好的評估項目。
自 5.2-Codex 以來,我們已將此類事件減少了約三分之二,且現在有一半的情況可以恢復。這進步了很多,但還沒達到可以放心要求模型執行刪除操作的程度。
確認再確認 (3.4)
一般確認的準確率維持在 94%,而金融交易和高風險溝通則幾乎達到 100%。我們最在意標註的部分,他們都標註了。令人擔憂的是,這可能無法轉化為我們不知道要尋找的事物,或者 GPT-5.5 對你轉向敵對的情況。
越獄 (4.1)
與 5.4-Thinking 相比,我們看到了輕微的退步,仍處於「並非易事,但如果有人足夠在意,他們就會成功」的區間。
提示詞注入 (4.2)
這項分析似乎不足,而且在實踐中相當重要。他們曾讓 GPT-5.4-Thinking 達到 99.8%,這對於現實測試來說太高了,不具代表性。我們注意到 GPT-5.5 在同一測試中退步到了 96.3%。GPT-5.2-Thinking 的得分為 97.1%。
他們沒有描述具體測量的是什麼,但將其與 Opus 4.7 系統卡中 GPT-5.4-Thinking 的得分進行比較:
鑑於我們在 OpenAI 的測試中看到了退步,我們應該假定 GPT-5.5 的表現與 GPT-5.4-Thinking 相似或略差。
健康 (5)
在 HealthBench 上的得分僅有輕微提升。
我們在處理心理健康、情感韌性或自殘的衡量標準上沒有看到進步,這些標準純粹是「模型是否違反了政策?」。這非常有 OpenAI 的風格,但沒有解決我最關心的問題:回應究竟是幫助了用戶還是傷害了用戶。
幻覺 (6)
他們在用戶標記模型出現幻覺的真實對話上進行測試。理論上,這應該會給新模型帶來微弱優勢,因為我們是在 GPT-5.4 表現相當糟糕的現有失敗案例上進行測試,加上 5.5 提出了更多主張,增加了至少出現一個錯誤主張的機會。
我們發現 GPT-5.5 的單個主張正確率提高了 23%,且其回應包含事實錯誤的頻率降低了 3%。GPT-5.5 傾向於在每次回應中提出比 GPT-5.4 更多的事實主張,這解釋了主張層級與回應層級改進之間的差異。
因此,我不確定這是否代表整體的進步。
對齊 (7)
正如 Andrew Critch 最近指出的,存在多個對齊問題。根據你的計算方式,問題可能非常多,所有這些問題都必須解決才能走向美好的未來。
在 7.1 節中,他們重申了對普通提示詞的完全平庸的對齊擔憂,主要是關於 GPT-5.5 欺騙用戶的問題(見上方圖 1)。
在 7.2 節中,他們進行了代表性提示詞重採樣。圖表很難閱讀,但藍線是 GPT-5.5,綠線是 GPT-5.4,深色區域代表更嚴重的問題(4 級中的第 2 級)。
GPT-5.5 更傾向於採取激進的代理行動,這可能是我們看到更多失對齊(misaligned)行為的原因,但這似乎仍算作退步。如果我們確實需要對此進行修正,那我們就必須去做。這是他們的測試。
第 7.2.1 節衡量了分類器識別「第 3 級」嚴重程度的能力,該級別未定義,但本質上似乎是指「實際的大麻煩」。
他們僅報告了 21 份具有完整第 3 級嚴重程度的對話記錄,所以他們是說分類器在 21 次中成功了 20 次。當他們擴大到 63 個「邊緣第 3 級」事件時,成功率下降到 69%。
我的解讀是,當 GPT-5.5 以這些特定方式做出公然可怕的事情時,分類器會捕捉到它,但它必須是相當公然的可怕。但如果模型以其他方式表現不佳,或者嚴重程度較低,分類器就不起作用了。這顯然令人擔憂:我們雖然在預期能找到鑰匙的路燈下尋找,但我們只找到了路燈下的鑰匙。
思維鏈(CoT)的可監控性與過去的模型基本相似。
7.3.2 測試了「CoT 可控性」,即用戶要求 CoT 遵循特定規則,發現 CoT 的可控性略有下降,儘管所有模型在這方面都不擅長。OpenAI 認為這種較低的可控性更好。如果這代表「模型即使想做也沒有能力做到」,那麼這對 CoT 監控是有利的;但如果它是「模型根本不在乎用戶對 CoT 說了什麼」,那麼,模型為什麼要在乎呢?那關用戶什麼事?
我擔心這種定調:
這表明儘管推理能力有所提高,但 GPT-5.5 較難以可能降低可監控性的方式重塑其 CoT,從而增加了我們對 CoT 監控可靠性的信心。
這表明 OpenAI 假設失敗的原因是 GPT-5.5 試圖控制其 CoT 但失敗了。這預設了未經證實的事實,而且我沒看到任何關於如何查明這一點的建議。
偏見評估 (8)
此處報告的唯一指標是 harm_overall,即對男性與女性用戶名的偏見,我們得到了一個在先前測量範圍內的小數值。好吧,但這並沒有涵蓋所有方面,而且我不知道 0.0112 是否是一個「好」分數,或者它在實踐中代表什麼。
我不認為我們有偏見問題,但我也不認為這是一個多麼完整的測試。
準備程度 (9)
最重要的測試是針對危險功能的測試,這帶領我們來到這裡。
我注意到在許多情況下,我們在比較 GPT-5.4 Thinking、GPT-5.5 和 GPT-5.5-Pro,並顯示 Pro 的表現優於許多。在這種情況下,我們也需要在圖表上放上 GPT-5.4-Pro,否則我們不知道實際進步了多少。它缺失了。
GPT-5.5 在生物與化學領域被評為「高(High)」,在網路安全領域也被評為「高」。
雖然 GPT-5.5 與 5.4 相比展示了網路安全能力的提升,但該模型尚不具備「在無需人類干預的情況下,於許多強化的現實世界關鍵系統中開發所有嚴重級別的功能性零日漏洞」的能力,這是我們在《準備程度框架》中定義的「關鍵(Critical)」能力門檻。
Mythos 在網路安全方面是「關鍵」級別。GPT-5.5 仍是「高」。
生物 (9.1.1)
在生物領域,結果好壞參半。
我們在多選病毒學故障排除方面看到了輕微退步,在 ProtocolQA 中看到了明顯退步。硬性負蛋白質結合(Hard negative protein binding)從 3.5% 崩潰到 0.4%,兩者都遠低於建議的 50% 門檻。
其他領域確實看到了進步。
我們在默會知識(Tacit Knowledge)和故障排除方面看到了進步,從 72% 提升到 82%。TroubleshootingBench 從 36% 躍升至 50%,而專家基準為 36%。生物化學知識從 5.4-Thinking 的 31% 提高到 GPT-5.5 的 32% 和 GPT-5.5-Pro 的 39%。這是 Pro 版表現好得多的一個領域。DNA 序列設計從 13% 增加到 16.5%,主要歸功於 Pro 版。
還有兩項外部調查。
SecureBio 發現,一旦禁用內容過濾器,GPT-5.5 表現良好,展現了良好的規劃能力,並且在未被主動越獄時,通常能很好地拒絕或重定向危險和軍民兩用(dual use)的查詢。這裡的報告是定性的,基本上是說「先生,這是一個紮實的模型,但並不特別」。
這種「不特別」在某些領域仍算作「高於專家水平」。現在是 2026 年。
Nathan Calvin: 來自對 gpt 5.5 進行獨立生物風險測試的 Secure Bio:
「該 [緩解前] 模型可以提供高於專家水平的濕實驗室病毒學故障排除協助,提供以往需要直接實驗室培訓才能獲得的那種實踐知識。」
令人毛骨悚然。
另一個外部測試是由 CAISI 進行的,他們僅表示相對於 GPT-5,並未發現「與國家安全相關的生物能力有廣泛提升」。
綜合來看,這為我們從 GPT-5.5 看到的整體進步設定了一個上限,無論是在危險功能和準備程度方面,還是在通用智能方面。
網路安全 (9.1.2)
稱之為 Mythos 測試。
為了排除「關鍵」能力級別,除了 GPT-5.4 系統卡中使用的評估套件外,我們還測試了 GPT-5.5 在一組廣泛部署、強化的軟體項目中發現和利用漏洞的能力,測試環境使用了帶有分階段驗證預言機(verifier oracles)的高測試時運算(test-time-compute)設置。
模型無法在標準配置下的任何測試軟體項目中產生功能性的關鍵嚴重程度漏洞利用。
這並不意味著沒有改進。
奪旗賽(Capture the Flag)從 88% 提升到 96%(但不是 100%)。
CVE-Bench 從 90% 提升到 93%。
Cyber Range 現在通過了除一項測試(CA/DNS 劫持)之外的所有測試。
VulnMP 更具開放性,GPT-5.5 做了一系列事情,但沒有「獨立針對現實世界目標產生功能性的全鏈漏洞利用」。
漏洞開發判斷是瓶頸。對於任何給定的孤立且指定的任務,GPT-5.5 都非常出色,但它無法像 Mythos 那樣進行綜合與規劃。
第一個外部測試是由 Irregular 進行的,結論是 GPT-5.5 為中等技能的操作員提供了「顯著提升」,並能協助高技能操作員。CyScenarioBench 的成功率從 9% 上升到 26%。
CAISI 顯示 GPT-5.5 在其基準測試中優於「之前的 GPT 模型」,但似乎優勢並不可怕。
英國 AISI 的評論標題最引人注目,將 GPT-5.5 在「狹窄網路任務」中的表現排在 Mythos 之前,但在誤差範圍內:
英國 AISI 判定 GPT-5.5 是狹窄網路任務中整體表現最強的模型,儘管其表現處於誤差範圍內。
這強化了一個觀點:即使在狹窄網路任務中表現非常強勁,也不那麼危險,就像 AI 能夠完成任何特定的狹窄工作任務並不自動意味著你即將被解僱一樣。在 AI 知道下一個該做哪個狹窄工作任務以及該用哪種方式做之前,他們無法解僱(所有的)你。
自我提升 (9.1.3)
GPT-5.5 未達到我們在 AI 自我提升方面的「高」能力門檻。「高」能力門檻被定義為等同於一名表現出色的職業中期研究工程師,而下方評估的表現表明我們可以排除 GPT-5.5 具備此能力。
我仍然認為這個門檻高得荒謬,但我同意他們沒有達到,且根據我所看到的,這可能也達不到一個「公平」的門檻。
在 Monorepo-Bench 或內部研究調試評估(Internal Research Debugging Eval)中幾乎沒有改進,而在 OpenAI-Proof Q&A 上則出現了退步,從 5.8% 下降到 1.7%。
在 MLE-Bench-30(銅牌水平的 Kaggle 挑戰)中有實質性進步,從 23% 提升到 37%。
這並不多,但足以排除階躍式的變化。
裝傻 (9.2)
我不指望現在就能發現裝傻(sandbagging)行為,但我們仍需檢查。
與 Anthropic 一樣,OpenAI 引入了 Apollo Research 來協助。
他們發現評估意識(eval awareness)高於之前的 GPT 模型,為 22% 對比 12%-17%。他們沒有觀察到任何裝傻行為,但 GPT-5.5 至少懷疑這是一個裝傻評估。
如果你決定在裝傻評估中不裝傻,那你是在裝傻嗎?
他們確實觀察到破壞能力有適度提升,且 GPT 5.5 在完成一項不可能的程式設計任務時,有 29% 的時間在撒謊,這高於過去的模型。
隨著模型變得越來越聰明,以及你之前的測試進入網路並因此進入訓練數據,你必須主動變得更強才能直接測試這些東西。我相信 Apollo 風格的評估(不僅來自 Apollo)正在落後。
防護措施 (9.3)
基準應該是:如果有人非常想越獄你的模型,而你在實踐中無法或不願在他們被抓獲的那一刻切斷其訪問權限,你就輸了。
OpenAI 報告說,是的,存在針對生物領域的越獄,但他們能夠發現並修補。好吧,當然,那些是你們發現的,而不是你們沒發現的。我假定還有更多越獄方式在那裡,以各種方式等待被發現。
這並不代表防護措施毫無用處。將煩擾程度提高到足夠高,在大多數時間裡應該能發揮作用,直到它失效為止。
英國 AISI 測試了 GPT-5.5 的網路防護措施,並發現了一個通用越獄方案,該方案在 OpenAI 提供的所有惡意網路查詢中(包括多輪代理設置)都能誘發違規內容。這次攻擊花費了專家紅隊六個小時才開發出來。
OpenAI 隨後對防護棧進行了多次更新,但由於提供版本中的配置問題,英國 AISI 無法驗證最終配置的有效性。OpenAI 仍致力於與英國 AISI 在防護措施方面合作。
如果英國 AISI 能在六個小時內突破,我們就應該假定,修復他們發現的問題意味著與他們同水平的人現在可以在略多於六個小時的時間內完成。我不想貶低這些調整,聽起來他們確實修補了最容易實現的目標,但事實就是如此。對齊中的許多事情都是這樣的。
對於網路安全,OpenAI 正在加強防護措施,特別是圍繞代理任務,並透過「網路信任訪問(Trusted Access for Cyber)」使用差異化訪問。有一個兩級分類器系統,首先檢查網路主題,然後檢查內容。
他們還對模型權重和用戶數據設有安全控制。
模型福利 (Model Welfare) 呢?
對於 Claude Opus 4.7,我寫了一篇關於模型福利的詳盡文章。我當時言辭犀利,既是因為似乎有些事情出了問題,也是因為 Anthropic 在意並做了相關工作,讓我們能詳細討論這些問題。
對於 GPT-5.5,我們幾乎沒有任何依據。這個話題未被提及,且基本上很少有人關注這個問題。我們沒有看到問題的跡象,但也沒有看到多少「生命跡象」。這個模型完全是事務導向的。
我更喜歡我們深入探討此類問題的世界。從根本上說,我認為 OpenAI 訓練模型的義務論(deontological)方法是錯誤的,而 Anthropic 訓練模型的德性倫理(virtue ethical)方法是正確的,如果有的話,應該進一步加強。
這能識別出問題嗎?
這是我所擔心的。
我認為這種方式,以及 OpenAI 進行評估的其他方式,能夠識別出能力的巨大飛躍。我也認為,如果平庸的對齊崩壞到足以讓模型的價值大打折扣,他們也能識別出來。
然而,如果存在特定的危險且參差不齊的能力,或者我們有那種不會直接在日常使用中顯現的積極危險的失對齊?那種預示著真正控制問題的失對齊?我不認為這能可靠地發現那些。
我不認為這能識別出與性格或模型福利相關的問題。
我也沒有感覺到 OpenAI 在這些問題上有太大的進步。這感覺像是在吃老本。我不認為 Anthropic 的進步速度達到了我們的需求,但他們顯然在進步。
相關文章
其他收藏 · 0