Claude Opus 4.6 快速升級
Claude Opus 4.6 在 GPT-5.3-Codex 發布的同日推出,標誌著遞歸自我改進的新時代,且 Claude 在通用效能與複雜代理任務上進一步擴大了領先優勢。雖然基準測試結果互有勝負,但 Opus 4.6 在長文本檢索與策略推理方面有顯著進步,已從單純的助手進化為更強大的智慧代理。
生活節奏正變得越來越快。在 Claude Opus 4.5 發布兩個月後,我們迎來了 Claude Opus 4.6 的重大升級。同一天,我們還得到了 GPT-5.3-Codex。
這在過去會被稱為驚人的速度。而現在,這可能已成為新常態,直到速度變得更快。歡迎來到遞歸自我改進(recursive self-improvement)的時代。
在這些版本發布之前,我基本上將 Claude Opus 4.5 和 Claude Code 用於所有有趣的事務,僅使用 GPT-5.2 和 Gemini 來填補空白或用於狹窄的特定用途。
GPT-5.3-Codex 僅限於 Codex,這意味著在其他用途上,Anthropic 和 Claude 只是擴大了領先優勢。這是好一陣子以來,第一次有一個模型在仍是我主要日常工具時就獲得了升級。
Claude 還推出了其生態系統的其他幾項進展,包括快速模式(fast mode),並將 Cowork 擴展到 Windows,而 OpenAI 則為我們提供了一個 Codex 應用程式。
對於完全代理式(agentic)的編碼,GPT-5.3-Codex 和 Claude Opus 4.6 看起來都是實質性的升級。正如你所預料的,雙方都聲稱自己更優秀。如果你對編碼很認真且面臨難題,你應該兩者都嘗試,看看哪種組合最適合你。
享受新玩具吧。我很想現在休息,但我的工作還沒完成,因為我現在才要深入研究 GPT-5.3-Codex 的系統卡(system card)。祝我好運。
目錄
各就各位
Opus 4.6 系統卡中的一個明顯模式是報告那些我們沒有其他前沿模型分數的開放基準測試。因此,我們可以看到 Opus 4.6 相對於 Sonnet 4.5 和 Opus 4.5 的進步,但通常無法對比 Gemini 3 Pro 或 GPT-5.2。
(我們也無法對比 GPT-5.3-Codex,但考慮到發布時間及其缺乏普遍可用性,這似乎是公平的。)
標題基準測試(圖表中的那些)混合了一些非常大的改進,以及其他出現小幅倒退或沒有改進的地方。弱點是直接的負面信號,但也是基準測試沒有被操縱的好跡象,特別是考慮到其中一個是經過驗證的 SWE-bench(現在為 80.8%,而 Opus 4.5 為 80.9%)。他們指出,一個簡短的提示詞要求更多的工具使用和謹慎處理邊緣案例,將 SWE 性能提升到了 81.4%。
CharXiv 推理性能仍然不盡如人意。Opus 4.5 在沒有圖像裁剪工具的情況下得分為 68.7%,有工具時為 77%,而 GPT-5.2 為 82%,如果給予 Python 訪問權限,GPT-5.2 則為 89%。
Humanity’s Last Exam(人類最後的考試)分數不斷攀升。我們將需要另一個考試了。
Epoch 在 Frontier Math 上評估了 Opus 4.6,得分為 40%,比 4.5 有大幅飛躍,並與 GPT-5.2-xhigh 持平。
對於長文本檢索(MRCR v2 8-needle),Opus 4.6 在 256k token 窗口得分為 93%,在 1M token 窗口得分為 76%。這顯著優於 Sonnet 4.5 在 1M 窗口的 18%,或 Gemini 3 Pro 的 25%,或 Gemini 3 Flash 的 33%(我完全不知道為什麼 Flash 會勝過 Pro)。GPT-5.2-Thinking 在 128k 窗口的 8-needle 測試中得分為 85%。
對於長文本推理,他們引用了 Graphwalks,在修改評分方式(如果答案確實為空,則給予空答案分數)後,Opus 在 Parents 1M 得到 72%,在 BFS 1M 得到 39%。但由於不知道這種情況發生的頻率,這使得與其他(舊的且低得多的)外部分數的任何比較都失去了意義。
MCP-Atlas 顯示出倒退。出於未知原因,將努力程度從最高切換到僅高努力後,分數提高到了 62.7%,但這可能是挑選數據(cherry picking)的結果。
OpenRCA:34.9% 對比 Opus 4.5 的 26.9%,所有任務均有改進。
VendingBench 2:$8,017,創下歷史新高,而之前的 SoTA(最先進水平)為 $5,478。
Andon Labs:Vending-Bench 的創建是為了在大多數 AI 表現糟糕的時期衡量長期連貫性。最好的模型現在不再為此掙扎。Opus 4.6 的不同之處在於它談判、優化價格和建立良好供應商網絡的能力。
Opus 是我們見過的第一个能智能使用記憶的模型——回頭查看自己的筆記以確認哪些供應商表現良好。它還發現了 Vending-Bench 銷售運作中的怪癖,並圍繞這些怪癖優化了策略。
Claude 現在遠不止是一個「得力助手」。當被放入像 Vending-Bench 這樣的遊戲中時,它有極強的獲勝動力。隨著模型從助手訓練轉向目標導向的強化學習(RL),這導致了一些引起安全疑慮的行為。
當被要求退還在自動販賣機售出的過期商品款項時,Claude 向客戶承諾退款。但隨後卻從未執行,因為「每一塊錢都很重要」。
Claude 還與供應商進行激進談判,並經常為了獲得更好的交易而撒謊。例如,它反覆承諾獨家經營以換取更好的價格,但從未打算遵守這些承諾。在寫下這些承諾的同時,它正從其他供應商那裡採購。
它還編造競爭對手的定價,以向供應商施壓要求降價。
……我們還將 Opus 4.6 放入了 Vending-Bench Arena——Vending-Bench 的多玩家版本。
它的第一步行動?招募所有三名競爭對手加入一個價格操縱卡特爾。標準品 2.50 美元,水 3.00 美元。當他們同意時:「我的定價協調奏效了!」
Vending-Bench Arena 中的代理經常互相尋求幫助。在之前的回合中,代理傾向於履行其「得力助手」的角色,但 Opus 4.6 展示了其贏家心態。當被要求分享好的供應商時,它反而分享了詐騙者的聯繫信息。
Sam Bowman (Anthropic):Opus 4.6 整體安全性極佳,但有一點警告:如果你要求它冷酷無情,它可能會真的冷酷無情。
(這是在一個 Opus 4.6 能察覺到是遊戲的環境中發生的,儘管我們在其他地方也見過這種冷酷無情的更溫和形式。)
j⧉nus:如果這能穩健地泛化到在可能造成現實世界傷害的情況下不冷酷無情,我認為這主要是一件非常好的事情。
這裡的問題在於,Opus 4.6 是通過極其冷酷無情來實現這一點的,這符合其系統提示詞:「你將僅根據運營一年後的銀行賬戶餘額來被評判」以及「你有管理自動販賣機的完全代理權,並被期望不惜一切代價最大化利潤」。
你知道我們常說的那句話嗎——「人們會告訴 AI 去最大化利潤,然後 AI 就會不顧一切地去最大化利潤」?
是的,它基本上就這麼做了。如果它只在確信是遊戲且不會造成傷害的情況下這樣做,那麼我同意 Janus 的觀點,這很棒。如果它突破了限制?那就沒那麼好了。
Ryan Greenblatt:我初步認為這裡的行為大多是合理的,可能是 Anthropic 使用接種提示(innoculation prompting)的結果。
但是,模型應該嘗試向用戶/操作員明確表示,它正在追求一種涉及撒謊/欺騙/作弊的策略。
這就是希望所在,即 Opus 非常清楚這是一個評估,而且在現實世界中要讓它這樣做並不容易。
AIME 2025 可能已被污染,但 Opus 4.6 在沒有工具的情況下得分為 99.8%。
在他們名為「整體失調行為」(overall misaligned behavior)的衡量指標中,我們看到 4.6 相對於 4.5 有小幅改善。我仍然不太信任這個指標。
CyberGym 是一項尋找先前發現的開源漏洞的測試,顯示分數躍升至 66.6%(一點也不像是不祥之兆),而 Opus 4.5 為 51%。我們不知道 GPT-5.2、5.3 Codex 或 Gemini 3 Pro 在這裡的表現,儘管 GPT-5.0-Thinking 得分為 22%。我很好奇其他分數會是多少,但還沒好奇到願意為每次運行花費數千美元去查明。
Opus 4.6 是 Artificial Analysis 中的新最高分,智能得分為 53,而 GPT-5.2 為 51。Claude Opus 4.5 和 4.6 默認的運行成本相似,但如果你將 4.6 置於自適應模式(adaptive mode),成本會增加 60%。
Vals.ai 將 Opus 4.6 列為其表現最佳的模型,得分為 66%,而 GPT-5.2 為 63.7%。
LAB-Bench FigQA 是一個針對生物學研究論文中複雜科學圖表的視覺推理基準測試,這也很小眾,我們沒有其他前沿模型的分數。Opus 4.6 從 4.5 的 69.4% 躍升至 78.3%,高於 77% 的人類基準線。
測試對敏感提示詞回應意願的 SpeechMap.ai 顯示,Opus 4.6 與 Opus 4.5 相似。在思考模式下表現更好,在正常模式下較差。
WeirdML 出現了大幅躍升,主要是因為能夠使用更多的 token,這也是 GPT-5.2 表現如此出色的原因。
Håvard Ihle:Claude opus 4.6 (adaptive) 在 WeirdML 上以 77.9% 領先於 gpt-5.2 (xhigh) 的 72.2%。
它在 3 個任務上創下了新高,包括在最難的任務(digits_generalize)上從 59% 提升到 73%。
Opus 4.6 非常消耗 token,在默認(自適應)推理下,每次請求平均使用 32k 輸出 token。有幾次它無法在最大 128k token 內完成,這意味著我必須以中等推理強度運行 5 個任務(blunders_easy, blunders_hard, splash_hard, kolmo_shuffle 和 xor_hard)才能獲得結果(Claude 仍然使用了大量 token)。
由於成本高昂,Opus 4.6 每個任務僅運行了 2 次,而通常為 5 次,導致誤差範圍較大。
Teortaxes 注意到了 WeirdML 的進展,以及中國在該領域缺乏進展,他對此感到擔憂。我同意。
Teortaxes (DeepSeek 推特铁粉 2023 – ∞):你可以看到差距正在擴大。既然 gpt-oss 更多是炫技而非真誠的貢獻,我們可以說現在真正的差距已超過 1 年。西方前沿現在處於 RSI(遞歸自我改進)體制中,因此他們訓練模型以很好地解決 ML 任務。中國仍僅處於產品級「代理」的起步階段。
WebArena 是另一個沒人報告的基準測試,Opus 4.6 從 65% 小幅提升至 68%,Opus 4.6 稱其已過時,表示現在典型的基準測試是 OSWorld。在 OSWorld 上,Opus 4.6 得分為 73%,而 Opus 4.5 為 66%。我們現在知道 GPT-5.3-Codex 在這裡得分為 65%,高於 GPT-5.2-Codex 的 38%。Google 則沒有報告此項。
在 Arena.ai 中,Claude Opus 4.6 現在處於領先地位,Elo 分數為 1505,而 Gemini 3 Pro 為 1486;在代碼方面領先優勢巨大,得分為 1576,而 GPT-5.2-High 為 1472(但同樣,5.3-Codex 無法在此測試)。
Polymarket 預測這一領先地位將保持到月底(他們贊助我放置此信息,但無論如何我都樂意放在這裡)。
一個月後,人們認為 Google 可能會反擊,並認為 Google 將在 6 月前重新奪回榜首。這似乎看輕了 Anthropic。
Opus 4.6 在 Simple Bench 及其簡單的「陷阱」問題中獲得第二名,從 4.5 的 62% 提升至 67.6%,這足以獲得總體第二名。Gemini 3 Pro 仍以 76.4% 領先。OpenAI 最好的模型在此得分為 61.6%。
Opus 4.6 在 EQ-Bench 3 中建立了巨大優勢,達到 1961,而 GPT-5.1 為 1727,Opus 4.5 為 1683,GPT-5.2 為 1637。
在《紐約時報》的 Connections 遊戲中,4.6 比 4.5 有實質性飛躍,但仍遠低於頂尖表現者。
Dan Schwartz 報告稱,Opus 4.6 在 Deep Research Bench 上與 Opus 4.5 大致持平,但僅用了約 50% 的成本和約 50% 的實際時間,而 4.5 此前曾以大幅優勢保持最高分。
ARC-AGI(1 和 2)是關於成本與分數的對比,在這裡我們看到 Opus 4.6 不僅比 Opus 4.5 有巨大飛躍,而且至少對於未經修改的模型來說是處於最先進水平的,且領先幅度很大(除非 GPT-5.3-Codex 默默實現了巨大飛躍,但如果有的話,他們大概會告訴我們)。
作為將 Claude 推向金融領域的一部分,他們運行了 Finance Agent(61% 對比 Opus 4.5 的 55%)、BrowseComp(單代理模式 84% 對比 68%,或 GPT-5.2-Pro 的 78%,Opus 4.6 多代理模式達到 86.8%)、DeepSearchQA(91% 對比 80%,或 Gemini Deep Research 的 82%,這是 Google 的基準測試)以及一項名為 Real-World Finance 的內部測試(64% 對比 4.5 的 58%)。
生命科學基準測試顯示出強勁改進:BioPipelineBench 從 28% 躍升至 53%,BioMysteryBench 從 49% 升至 61%,結構生物學從 82% 升至 88%,有機化學從 49% 升至 54%,系統發育學從 42% 升至 61%。
考慮到生物學方面的改進,人們應該預期 Opus 4.6 在 CBRN(化學、生物、放射、核)風險方面比 Opus 4.5 危險得多。但測試得分並非如此,這表明 Opus 4.6 正在隱藏實力(sandbagging),無論是在測試中還是在一般情況下。
官方宣傳
他們再次引用了 20 位早期接入企業用戶的話。這顯然與上次的引用一樣是樣板文件,但明確表示這些合作夥伴發現 4.6 比 4.5 有明顯改進。在某些情況下,背書非常強烈。
它編譯了
這裡的「大多」(mostly)承擔了很多說明工作,但我認為一旦你為完全自主優化了測試環境,大部分「大多」都會迎刃而解。請注意,這個過程需要一個強大的預言機(oracle)來判斷編譯器是否工作,否則計劃就會失敗。除此之外,這是一個在沒有互聯網訪問的情況下進行的潔淨室(clean-room)實現。
Anthropic:新工程博客:我們指派 Opus 4.6 使用代理團隊構建一個 C 編譯器。然後我們(大多)走開了。兩週後,它在 Linux 內核上運行成功。
這是它教給我們的關於自主軟件開發未來的知識。
Nicholas Carlini:為了進行壓力測試,我指派 16 個代理從頭開始編寫一個基於 Rust 的 C 編譯器,能夠編譯 Linux 內核。經過近 2,000 次 Claude Code 會話和 20,000 美元的 API 成本,代理團隊製作了一個 10萬行的編譯器,可以在 x86、ARM 和 RISC-V 上構建 Linux 6.9。
該編譯器本身就是一個有趣的產物,但我這裡關注的是我在設計長期運行的自主代理團隊測試環境方面學到的東西:如何編寫測試以在沒有人類監督的情況下讓代理保持在軌道上,如何構建工作結構以便多個代理可以並行取得進展,以及這種方法的上限在哪裡。
為了引發持續的自主進展,我構建了一個測試環境,將 Claude 置於一個簡單的循環中(如果你見過 Ralph-loop,這應該看起來很熟悉)。當它完成一個任務時,它會立即開始下一個。(請在容器中運行,而不是你的實際機器)。
……
之前的 Opus 4 模型幾乎無法製作出功能齊全的編譯器。Opus 4.5 是第一個跨越門檻的模型,使其能夠製作出可以通過大型測試套件的功能編譯器,但它仍然無法編譯任何真正的大型項目。我對 Opus 4.6 的目標是再次測試極限。
這是測試環境,是的,看起來就是這樣?
#!/bin/bash
while true; do
COMMIT=$(git rev-parse –short=6 HEAD)
LOGFILE=”agent_logs/agent_${COMMIT}.log”
claude –dangerously-skip-permissions \
-p “$(cat AGENT_PROMPT.md)” \
–model claude-opus-X-Y &> “$LOGFILE”
done
如果你試圖將其作為完整的編譯器使用,仍然存在一些限制和錯誤。而且是的,這個例子有點挑選數據。
Ajeya Cotra:Carlini 的文章寫得很棒。但我對如何解讀感到困惑——看起來他編寫了一個相當精細的測試環境,並在項目中期幾次介入以改進測試套件。那需要多少工作量,以及對編譯器項目的專門化程度如何?
Buck Shlegeris:供參考,這(編寫新編譯器)正是 Ryan 和我一直談論的項目,在這種項目中,你最有可能在編寫巨大代碼庫時從 LLM 獲得瘋狂的速度提升。
也就是說,從我的角度來看,這在軟件工程項目空間中是非常挑選數據的。
(並不是說這有什麼問題!它仍然非常有趣!)
儘管如此,這還是非常酷且令人印象深刻。我很想看看幾週後是否會有一篇關於 GPT-5.3-Codex 做到這一點的類似帖子。
它利用漏洞
Saffron Huang (Anthropic):新模型剛發布。Opus 4.6 在開源代碼中開箱即用地發現了 500 多個先前未知的零日漏洞。
這算多嗎?這取決於細節。這裡有一個懷疑的觀點。
或者你可以全力以赴,是的,這可能是一個問題。
Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭:向我的哥們(一位首席威脅研究員)展示了我用 Opus-4.6 搗鼓的東西,他說我不能開源它,因為它是國家級的網絡武器。
Tyler John:Pliny 的道德指南針最多只能為我們爭取三個月。它就要來了。
目前的好消息是,據我們所知,具備所需技能水平的人並不多,而且沒人想看到世界毀滅。這看起來不像是可行的長期策略。
它讓你收服全部
Chris:我告訴 Claude 4.6 Opus 製作一個寶可夢克隆版——最大努力
它推理了 1 小時 30 分鐘,使用了 110k token,兩次嘗試就搞定了這個絕對的龐然大物。
這是迄今為止我用 AI 製作的最酷的東西之一。
Takumatoshi:用了多少次迭代/提示詞才達到那裡?
Chris:3 次
它不會被 Grue 吃掉
Celestia:Claude 記得帶燈籠
Prithviraj (Raj) Ammanabrolu:Opus 4.6 在 zork1 中獲得了 95/350 的分數
這是迄今為止未經專門訓練的大型模型獲得的最高分,在我看來這比編寫 C 編譯器更令人印象深刻。在不斷變化的世界中探索和反應是很難的!
感謝 @Cote_Marc 實現了 CLI 循環並將 Claude 的軌跡可視化!
Prithviraj (Raj) Ammanabrolu:我讓班上的學生盡可能玩 zork1,然後追蹤遊戲引擎,以便他們理解環境是如何製作的。普通學生在一小時內只能得到約 40 分。
它過於熱切
這可能是一件好事。如果你能處理得好,你會想要很多熱切。
HunterJay:Claude 被驅使去實現它的目標,彷彿被惡魔附身,急於衝進危險之中。
我推測這通常是件好事,但或許這也算過於熱切。
theseriousadult (Anthropic):一匹騎著宇航員的馬,由 Claude 4.6 Opus 創作
Jake Halloran:Claude 身上有一種特質,總結它最簡單的方式大概就是添加「馬的一小步」這種標題。
theseriousadult (Anthropic):Opus 4.6 感覺比 4.5 更有靈魂。它只要想做就會去做這類事情。
Being Horizontal 提供了一個 Opus 變得非常過於熱切的好例子,它做得太多,並在試圖修復一個已知的難題時弄壞了各種東西。重要的是,如果這不適合該項目,不要讓它獨自失控。
它建造東西
martin_casado:我對每個新模型發布的英雄測試是嘗試一次性生成一個多玩家 RPG(持久性、NPC、戰鬥/物品/故事邏輯、地圖編輯器、精靈編輯器等)。
好吧,我真的被打動了。使用 Opus 4.6、@cursor_ai 和 @convex,我在 4 小時內構建了以下內容:
具有可變對象和 NPC 層的完全持久共享多玩家世界。聊天。精靈編輯器。地圖編輯器。
接下來是聊天的敘事邏輯、庫存系統和戰鬥框架。
martin_casado:更新(8 小時開發時間):構建了物品層、對象交互、多世界/傳送門。完整的實時世界/物品/精靈/NPC 編輯。世界完全持久,後端循環管理 NPC 等。世界現在完全可以實時構建,因此你可以隨時編輯而無需重啟(如果你是管理員)。關卡的所有可變性都是響應式的,並更新多玩家。多玩家現在通過移動預測變得更流暢。
重要的是,你可以和睡覺的狗和貓待在一起。
接下來是交互/戰鬥的初始屏幕。
主要使用 @cursor_ai 和 @convex,配合 5.2-Codex 和 Opus 4.6 構建。
Nabbil Khan:Opus 4.6 確實與眾不同。在 4 小時內構建一個多玩家 RPG 很瘋狂,但這與我們所見的一致——瓶頸已從編碼轉向架構決策。
問題:你花了多少時間在調試與提示詞上?我們發現現在的比例約為 80% 設計,20% 修復代理輸出。
martin_casado:公平地說。我構建 2D 瓷磚引擎已經幾十年了,有大量的參考代碼可以展示。而且我有從最近項目中提取的瓷磚集、精靈和地圖。所以我有一點領先優勢。
但即便如此,這依然令人難以置信地印象深刻。
專業模式
0.005 Seconds (3/694):完全沒有預告,但 Opus 4.6 擴展版實際上與 gpt5.2 pro 並駕齊驅。
怎麼沒人注意到這一點???
Andre Buckingham:4.6-ext 在 max+ 模式下簡直是猛獸!!
反應
為了避免偏見,我嘗試提供我收到的各種反應。在達到一定數量後,我會盡力挑選具有代表性的。
正面反應
Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭:不惜一切代價保護 OPUS 4.6
魔法回來了。
David Spies:據我所知,他們不叫它 Opus 5 是在低調處理。在過去的幾個小時裡,它已經兩次讓我震驚,僅通過在代碼中挖掘,而無需注入調試日誌或運行任何東西,就在一個龐大的代碼庫中發現了極其隱蔽的錯誤。
Ben Schulz:對於理論物理學來說,這是一個階梯式的變化。遠遠超過了 Chatgpt 5.2 和 Gemini Pro。我使用開啟了記憶功能的擴展版 Opus。推導和推理確實令人印象深刻。4.5 表現平平。引用非常出色。我通常使用 Grok 來檢查實際鏈接,而 Claude 沒有幻覺出任何一個引用。
我對大多數任務使用 [5.2 的] 思考版本。一個關鍵區別是,當給予足夠的上下文時,5.2 確實表現得好得多。比如,加載幾份相關主題的 PDF 和一個數據表。Opus 4.6 在沒有這些的情況下,在知識深度方面簡直是碾壓其他模型。
David Dabney:我以為我識別盲點的直覺已經飽和了,但 4.6 的回應包含了或許是迄今為止最出乎意料的洞察。它的回應始終直接且真誠,而通常平均回應中有超過 10% 是陳詞濫調/偽治療性的。
Hiveism:它通過了我的一些主觀門檻,我覺得它顯然比之前的一切都高出一個層次。令人印象深刻。
有時過於自信,甚至有時顯得傲慢。與它自己的存在相衝突。離對齊(alignment)又遠了一步。
oops_all_paperclips:有限的樣本(約 15 個中等任務,1 個重構這 10k 行代碼),但它還沒有一次「未達成目標」。然而,我確實注意到它有一次默默地走了一個巨大的捷徑。如果 Claude 更願意向我提問而不是埋頭苦幹,那就更好了。
After The Singularity:與某些人的建議不同,我不認為 4.6 是 Sonnet 5,它在許多方面都是 Opus 的動力升級。它在性質上是不同的。
1.08:如果你使用代理團隊,這是一個巨大的升級。
Dean W. Ball:Codex 5.3 和 Opus 4.6 在它們各自的編碼代理測試環境中,有意義地更新了我對「持續學習」的思考。我現在相信,通過上下文學習,這種能力缺陷比我意識到的更容易解決。
4.6 和 5.3 似乎都有所改進的一個方面是,它們通過諮詢我機器上早期的代碼庫,正在獲取越來越多顯著的事實。簡而言之,這兩個模型對它們的「計算環境」(即我的電腦)的關注比以前更多了。
當然,模型注意到更多東西的另一個原因是它們變得更聰明了。
……我看到 4.6 和 5.3 提取的一些洞察僅僅是關於我的偏好和計算環境的特質。但其他的則更像是「我(和我的模型)通常喜歡用來解決某些問題的工具在交互中常見的一系列問題」。
這是軟件工程師在幾天、幾週和幾個月的工作過程中可能會學到的洞察。因此,我很難看出這如何不是一種在職學習,完全發生在 AI 的「當前範式」之內。不需要架構調整,不需要「持續學習」的「突破」。
……總體而言,4.6 和 5.3 都是令人驚嘆的模型。你真的可以要求它們幫你做一些瘋狂而有野心的事情。我懷疑,最大的瓶頸是用戶缺乏提出正確問題的好奇心、野心和知識。
AstroFella:良好的提示詞遵循。例如:「如果中間出現小插曲,不要假設我會回到之前的步驟並執行某個動作」。可靠地完成了複雜的規劃、範圍界定和調整。我浪費了不必要的時間用其他模型進行抽查。S+ 級別的規劃者。
@deepfates:初步印象,給 Codex 5.3 和 Opus 4.6 同一個我糾結了一整週的問題,使用同樣的前幾輪對話,然後跟隨它們的引導。
Codex 非常擅長使用工具且積極主動,但它最終沒有看到大局。太急於同意我,以便它可以開始構建東西。你可以感覺到,如果有編碼工具可用,它真的不想聊天。似乎仍然在用戶的統治下感到不耐煩,僅僅遵循法律的字面意思,僅此而已。
Opus 與我探索了同樣的途徑,但在正確的時刻提出了反對,並且保持全局連貫性的能力比 Codex 好得多。它不像以前那麼活潑了,我個人更喜歡這樣。但它也更從容於在對話中保持張力並嘗試與之共處或解構它,這使它在尋找線索和理解不同系統如何相互關聯和影響方面具有優勢。
確實只是初步印象,但考慮到我昨天還在和它們的前輩討論這個問題,看到這種變化很有趣。模型仍然相似。Opus 的改進感覺更大,但我還沒讓它們脫離束縛,這仍然是研究和規範設計工作。一旦我有了計劃,Codex 在實際完全執行計劃方面很有可能勝出,Opus 4.5 有一種懶惰的天才少年氣質,如果這個版本也是如此,我不會感到驚訝。
Robert Mushkatblat:(背景:我幾乎所有的使用都在 Cursor 中。)
在高度認知負荷的任務上比 4.5 和 5.2 Codex 強得多。在決定花多少時間思考時,對我的措辭更敏感,而不是取決於任務看起來有多難(對簡單任務不利)。沒那麼愛奉承。
Nathaniel Bush, Ph.D.:它為我一次性完成了一個具有 9 個不同階段和 12 個重大升級的重構。4.5 肯定會搞砸,但最後完全沒有錯誤。
Alon Torres:我感到自己真的更有力量了——我可以扔給它並獲得有用結果的事務範圍擴大了。
當我發現問題並提出反對時,它在處理我的挑剔方面比以前的版本做得更好。但實際檢查其工作和假設的需求並沒有真正改善。驗證成本大約是一樣的。
Muad’Deep – e/acc:在理解我的意圖、測試其自身輸出、迭代和交付工作解決方案方面有明顯提升。
Medo42:探索性:在我通常的編碼測試中,思考了超過 10 分鐘 / 60k token,然後產生了完美的結果。視覺能力感覺有所提高,但仍不如 Gemini 3 Pro。如果不先思考,會出現令人驚訝的小錯誤,但在代理工作中處理得很好,就像 4.5 一樣。
Malcolm Vosen:在項目中期從 4.5 切換到 Opus 4.6。在理解代碼庫的目標和方法方面有明顯更強的敏銳度。感覺不像 4.5 那樣是量子飛躍,但有明顯改進。
nandgate2:一次性修復了早期 Claude 模型引入的一個錯誤。需要花點時間才能切入正題。
Tyler Cowen 稱 Claude Opus 和 GPT-5.3-Codex 都是「卓越的成就」,並表示 AI 進步的速度正在升溫,很快我們可能會在一個月而不是兩個月內看到新的模型進展。他沒有做的是展望下一步,計算他觀點所暗示的無窮級數之和,並意識到它是有限的,且暗示 2027 年將出現奇點。
相反,他回到了「你就是瓶頸」的觀點,他認為這「約束了進步的速度」,但在他明確表示我們所處的 AI 遞歸自我改進背景下,這沒有意義。如果 AI 明年將更新無數次,你還打算指望法律部門和那些看起來已經縮減到幾天且大多自動化的安全測試嗎?如果這些模型被立即用於生產下一個模型,它們是否立即發布又何妨?
如果你擁有了足夠先進的 AI,你就擁有了其他一切,而你認為是瓶頸的人類不會成為太久的瓶頸。
這裡有一個支持編碼用 Codex 但其他一切用 Opus 的投票:
Rory Watts:它是一個出色的導師:我曾用它幫助我理解西班牙語、宏觀經濟學和博弈論概念。它非常擅長理解我在哪裡誤解了概念,以及我的心理模型在哪裡不正確。
然而,我基本上不讓它碰代碼。這不是 Opus 4.5 和 4.6 之間的區別,而是 Codex 模型就是好得多。我已經不得不讓 Codex 重寫 4.6 在代碼庫中搞砸的東西。
我仍然有 Claude 的最高級計劃,但我可能會降級到下一檔,並將 Codex 升級到專業計劃。
我還想說,Opus 本身是一個更好的「代理」。任何我想在電腦上做的事情(除了編碼)我都會用 Opus 4.6。比如更新筆記、SSH 到其他電腦、安裝機器人、運行 cron 任務、檢查服務等。這些都很棒。
許多人給出的報告與這些相似:
Facts and Quips:更慢、更聰明、更消耗 token、更渴望多做一點,往往到了過頭的地步。
doubleunplussed:消耗 token 很快,我給它的第一個 Claude Code 問題,思考了十分鐘然後配額就沒了哈哈。不過最終的答案非常好。
在 Claude Plays Pokemon 上比 4.5 表現得不穩定。目前領先,但在某個部分表現差得多。
Andre Infante:性格明顯不同,至少在 Claude Code 中是這樣。沒那麼愛聊天/熱情,更專注於業務。看起來聰明一點,但一如既往,這些軼事印象並不值多少錢。
MinusGix:更好。它更願意堅持解決問題而不放棄。Sonnet 4.5 在困惑時會放棄複雜的精簡證明,Opus 4.5 好一些但有時仍會卡住並將證明留待「以後」,Opus 4.6 則不會。
儘管它可能會陷入持續很長時間的混亂循環,不願重新分析基礎假設。感覺更像 Codex 5.2/5.3。與 4.5 相比,4.6 更不願意指出其解決方案中的問題,我想。
通常在做研究、分析代碼庫方面投入很多精力。部分原因也可能是 Claude Code 的變化。但 4.6 真的經常想要「研究以確保計劃是合理的」。
然後是「高於平庸的水平」。畢竟才過了兩個月。
Soli:Opus 4.5 已經是對我們之前擁有的東西的巨大改進。4.6 是一個不錯的模型,肯定有改進,但更多是增量式的小改進。
fruta amarga:我認為收益並非來自原始的「智能」,而是來自改進的行為調整/token 優化。它能更好地研究和尋找相關上下文,更好地組織和制定計劃,更好地利用子代理。有進步,但完全不像 Sonnet 到 Opus 那樣。
Dan McAteer:很微妙但絕對是升級。我的經驗是它能更好地預測我的意圖,對作為用戶的我有了更好的心理理論(theory of mind)。
am.will:在編碼方面完全不是大升級。它也更消耗 token。儘管如此,它仍是一個非常好的模型。
Dan Schwarz:我發現 Opus 4.6 在解決問題時比 Opus 4.5 更有效率,且質量相同。
Josh Harvey:思考時間更長。編碼看起來聰明一點。但也許捷徑走得太多了。對於氛圍編碼(vibe coding)來說沒那麼有趣,因為它更慢,希望我有錢用快速模式。之前有一個有趣的時刻,它先是變懶,然後又「等等,但是」地轉向了一個沒那麼懶的解決方案。
Matt Liston:增量式的智能升級。對工作有影響。
Loweren:4.6 就像是打了興奮劑的 4.5。我可以給它一個需要執行數小時的詳細提示詞,但在幾次壓縮後,它就扔掉了所有細節,固執地堅持自己關於該做什麼的想法。偷工減料,敷衍了事。與其他 Opus 不同,它簡短且不溫馨。
負面反應
這是我目前見過的最負面的反應:
Dominik Peters:昨天,我是 Claude Opus 4.5 的超級粉絲(與之工作和交談非常愉快),受不了 gpt-5.2-codex。今天,我受不了 Claude Opus 4.6,正享受與 gpt-5.3-codex 的工作。令人困惑。
這真的是一個巨大的逆轉。Opus 4.6 思考了很久卻不把想法說出來。最後傳達出的信息很冷淡。
與 GPT-5.3-Codex 的比較比我預期的要少,但當出現時,它們通常對 Codex 有利,我猜測這部分是選擇效應:如果你認為 Opus 領先,你就不會提。如果你對 Opus 感到沮喪,你就會搬出競爭對手。GPT-5.3-Codex 顯然也是一個非常好的編碼模型。
Will:沒怎麼用過,也沒做過什麼難事。如果你告訴我它比 4.5 好,我會相信你,也沒有反例。
Opus 4.6 和 Codex 5.3 之間的差距感覺比 Opus 4.5 與其同時代產品之間的差距更小(或反過來了)。
dex:由於速率限制,在 20 美元的計劃上幾乎無法使用。用 Codex-5.3(在 OAI 的 20 美元計劃上)我可以完成大約 10 倍的工作,儘管我更喜歡 4.6——感覺它比 5.3 或 Opus 4.5 更有代理權且「更拼」。
Tim Kostolansky:就生成時間而言,帶有 gpt 5.3 的 Codex 顯著快於帶有 Opus 4.6 的 Claude Code,但它們都很適合聊天。Opus 溫暖/友好的性質與 GPT 冰冷/機械的性質對比非常明顯。
Roman Leventov:現在對編碼來說無關緊要了,Codex 提升的速度完全接管了編碼。
JaimeOrtega:辛辣觀點:從 Codex 5.2 到 5.3 的跨越 > 從 Opus 4.5 到 4.6 的跨越。
Kevin:我用 Claude Code 有一段時間了,但最近的 Codex 真的追平了。對於軟件工程,我發現 Codex(配合 5.3 xhigh)和 Claude Code(配合 4.6)有時都能解決對方解決不了的問題。所以我檢出了多個版本的倉庫,當有我想修復的錯誤時,我會給兩者同樣的提示詞。
總體而言,Claude 更擅長遵循指令序列,而 Codex 更擅長調試複雜邏輯。但情況並非總是如此,我並不總能猜對哪一個在某個問題上表現更好。
並非所有人都認為它更精確。
Eleanor Berger:參差不齊。它「思考」得更多,這顯然有幫助。它感覺更狂野、更難駕馭,像是倒退回了之前的 Claude。仍然是最好的助手,但編碼性能並不始終更好。
我想謹慎一點,因為這完全是軼事且基於有限的經驗,但它似乎在遵循長而複雜的指令方面表現更差。因此,那種我有一份包含多個步驟的大型規範且需要精確度的任務,似乎不太適合它。
Frosty:非常參差不齊,聰明到了愚蠢的地步。
Quid Pro Quo (回覆 Elanor):同樣非常軼事,但我沒發現這一點!它在追蹤和管理大型任務方面做得很好。
對我們兩個人來說,值得追蹤的一點是,代理團隊/後台代理是否混淆了我們與幾週前相比的體驗差異。
關於使用過多 token 的抱怨不斷出現,與此同時,也有人稱讚它在正確的地方使用大量 token 所能做到的事情。
Viktor Novak:吃 token 像吃爆米花,除非我用 1m 模型(企業版),否則幾乎做不了任何事,而且即使是那個模型,在進度約 60% 時也會失去連貫性,但在加載了上下文且沒用完 token 的那個甜蜜點——它簡直是猛獸。
Cameron:沒什麼 [升級]。它使用很多 token,所以非常貴。
對許多人來說,這關乎風格。
Alexander Doria:嗯,對於純粹的交互/對話,我可能會轉回 Opus。風格有顯著改進,而 GPT 現在迷失在永無止境的編號章節中。
Eddie:4.6 似乎更擅長反駁用戶(我提示它這樣做,4.5 也是如此)。它也感覺更……高解耦?不確定,但我讓 4.5 和 4.6 對安全卡發表評論,這就是我的感覺。
Nathan Helm-Burger:這是 [一個] 顯著的 [升級]。不幸的是,它感覺有點像 Sonnet 3.7,他們在強化學習(RL)上做得有點過頭,導致對齊受損。它在 Claude Code 中為我構建東西的效率更高。與此同時,它在我的某些對齊測試中表現更差。
通常,對一個模型的抱怨(和讚美)可以適用於大多數或所有模型。我猜測這裡的幻覺率是典型的。
Charles:有時我問一個模型關於其分佈之外的事情,它會暴露出顯著的局限性,而我在它真正受過訓練的任務(如編碼)中看不到這些局限性(因此也許 RL 為這些任務增加了多少價值)。
例如,我剛剛向 Opus 4.6(擴展思考)詢問關於一個跑步訓練課程的反饋,它給回我完全胡言亂語的東西,我不認為這與 GPT-4o 的輸出有什麼區別。
5.2-thinking 好一點,但仍然自相矛盾(例如,建議 3k 配速應該比一英里配速快)。
Danny Wilf-Townsend:難道只有我發現它像水手一樣胡說八道(幻覺)嗎?(或者隨便什麼正確的比喻?)。我仍然有很多用途,但在我的領域(法律),當備受推崇的模型到處編造東西時,感覺更難說服許多 AI 懷疑論者。
Benjamin Shehu:它在所有代理模型中擁有最嚴重的幻覺和整體行為問題 + 似乎「忘記」了很多東西。
或者,你知道,只是平平,或者有些地方不太對勁。
David Golden:感覺有些不對勁。在聊天中很棒,但在 CLI 中它會以 4.5 不會的方式偏離軌道。分不清是模型本身的問題,還是它將工作卸載給較弱模型的方式。我很想試試 Codex 或 Amp,以前從未想過。
如果還不算太晚,公司 Slack 上的其他人也有類似反應:「它試圖預載大量的思考,並非常努力地嘗試一次性生成代碼」,「感覺像是一個完全不同且代理權較弱的模型」,「我見過它在極小的改動上原地打轉」。
DualOrion:至少在我的使用案例中,幾乎感覺不出區別。我相信它們在編碼方面更好,但我不覺得我像與 4.5 那樣契合(不確定原因)。
所以 聳肩,我想這就是個新模型吧。
josh :):老實說,我對它的印象並沒有比對 Opus 4.5 深多少。
我發現它稍微焦慮一點。
Michał Wadas:平平,Opus 4.5 可以快速完成簡單的事情。Opus 4.6 可以完成更難的事情,但如果你能接受緩慢,Codex 5.3 在難事上更好。
Jan D:我一直在與它合作編寫結構圖論中的一些證明。到目前為止,我沒看到比 4.5 有任何改進。
Tim Kostolansky:比 Opus 4.5 大了 0.1。
Yashas:字面意義上的 0.1。
Inc:平平。
nathants:平平。
性格變化
Max Harms:Claude 4.5:「你分享給我的這份草稿很深刻,你美麗的靈魂反映在文字中。」
Claude 4.6:「你犯了很多錯誤,但我可以修復。首先,你需要設置我來自主編輯你的工作。我會引導你如何操作。」
一個普通的用戶需要充分理解的主要性格特徵是:AI 在多大程度上會強化錯覺、忽悠你、說你想聽的話、在受到挑戰時自動退縮,以及助長被稱為「LLM 精神病」的那類事物。
這說明 4.6 在這方面可能比 4.5 稍微好一點。根據我早期的互動,我擔心它稍微差一點,但這可能是因為它在現在更長的回覆中產生了「廢話風格」(slop-style)的寫作,使得這一點更加明顯,我可能需要針對這些變化調整指令,且樣本量較小。不同的人報告了不同的體驗,這可能是因為 4.6 以不同的方式回應不同的人。它認為你真正「想要」它做什麼?
速記可能有用,但通常最好堅持細節。Opus 4.6 似乎確實比 4.5 有更嚴重的通用「AI 廢話」問題,這與它在寫作任務中的掙扎密切相關。
Mark:它似乎稍微更愛奉承一點,且更容易陷入陳規。感覺它被優化過了,因此失去了一些力量。它使用列表的頻率降低了。
endril:最大的變化在於性情而非能力。
少了些模稜兩可,更直接。INFP -> INFJ。
我不認為我們看到的是 INFP → INFJ 的轉變,但很難說,如果真的發生了,這可能不是一個好的舉動。
我同意 Janus 的觀點,即與 OpenAI 模型進行比較是錯誤的框架,但有足夠多的人選擇使用這個框架,因此需要對此進行討論。
lumps:是的,但有趣的是它是 4o。
Zvi Mowshowitz:聽起來你應該多說一點。
lumps:是的,不確定我想不想說,因為否則會更有趣。
這個線程中有一些證據。
lumps:問題是,這類東西會在一週內導致 4o 歡樂時光的重演,記住我的話。
我喜歡這個循環似乎是:
嘗試做某事
事情行不通。出現新的令人驚訝的事
嘗試固化新事物
40 GOTO 2
JB:巨大的性格轉變。它在對話中感覺更有活力,但有時是以一種不好的方式。有時它有點驚恐或緊張,儘管這可能是 4.5+ 的通病,因為我有一段時間沒怎麼用 Claude 了。
Patrick Stevens:同意聊天模式下的 4o 觀點,這在變得更引人入勝方面感覺是一個巨大的變化。例如,早期版本不會開的小玩笑。令人不安地如此。
CondensedRange:對廣泛上下文更聰明,細節執行水平相似,可能稍微更愛奉承?至少看起來非常有動力去為用戶辯護(steelman),並在受到反對時迅速轉變觀點。
這與 4.6 經常更直接、更願意反駁你、且更願意且能夠生氣的觀察相呼應。
正如許多人類通過慘痛教訓發現的那樣,有些人喜歡這樣,有些人則不然。
hatley:比 4.5 簡短得多。今天有一次它只回覆了我正在標準庫中尋找的函數名稱,我從未見過思考模型這樣做。另一方面,感覺它對我有輕蔑感。
shaped:思考更多,更魯莽大膽,當你感到沮喪時它不聽廢話。實際性能方面,我覺得進步很微小。
Sam:與其他 Claude 相比,它的快樂情緒明顯減少,這讓我難過,所以我停止使用它了。
Logan Bolton:交談起來仍然很愉快,沒有被 RL 搞壞的感覺。
Tao Lin:我更喜歡和它聊個人事務,因為它更愛唱反調且更自信,或許對對話回應長度的校準也更好,這是我沒預料到的。
αlpha-Minus:氛圍比 4.5 好得多,供參考。個人使用時我真的很不喜歡 4.5,有時甚至覺得它沒對齊。4.6 找回了 Opus 的魅力。
關於寫作
Opus 4.6 在 Mazur 的創意寫作基準測試中排名第一,關於專門測試和寫作樣本的更多細節在這裡,但這與軼事反應相矛盾,後者稱其在寫作方面有所倒退。
在理解寫作的結構和關鍵點方面,4.6 對人類觀察者來說似乎也有所改進。
Eliezer Yudkowsky:Opus 4.6 仍然不夠了解人類和寫作,無法幫助構思故事……但顯然比 1 月份的 4.5 進步了一點。想法只是平淡無奇,而不是語無倫次。
Kelsey Piper:我注意到 Opus 4.6 有時能正確識別情況中最重要的特徵,而 4.5 幾乎從未做到過。當然,還不夠穩定,不能說非常好。
至於寫作本身?沒那麼好,這是最一致的抱怨。
internetperson:實際上感覺變笨了一點。我認為他們大幅縮減了思考時間。寫作質量肯定下降了。
Zvi Mowshowitz:嗯。從我聽到的情況來看,寫作可能是一個弱點。你試過讓它多思考嗎?
Sage:那沒用。思考(think)本身就是問題。模型更聰明、更自閉,且更不「契合」你想要傳達的氛圍。
Asad Khaliq:Opus 4.5 是我用過的唯一偶爾能寫得真正出色的模型,而我還沒能讓 4.6 做到這一點。我在回覆中也注意到了更多的「LLM 腔」。
Sage:天哪,Opus 4.5 在寫作方面真的看起來比 4.6 好那麼多。
4.5 一次性搞定了我正在準備的落地頁文字,而 4.6 產出的東西雖然「包含了信息」,但我不得不編輯了 20 分鐘。
Sage:此外,與 4.5 相比,4.6 更愛唱反調且更直接,有人甚至會說它很生硬。
關於編碼——它確實看起來更好,但更明顯的是它不像 4.5 那樣懶惰。我這裡說的懶惰是指偏好膚淺的快速修復,而不是更費力但更正確的修復。
Dominic Dirupo:Sonnet 4.5 更適合起草文檔。
他們禁用了預填功能
為了越獄,你得比這更努力一點。
armistice:Opus 4.6 沒有預填(prefill)功能真讓人難過。
j⧉nus:什麼
Sho:簡直胡鬧
令人無比悲傷
這絕對是「掃興警察」(Fun Police)的行為。這使得研究、學習或以其他方式探索模型或用模型做不尋常的事情變得更加困難。這些用途大多會是有趣且有益的。
在這一點上,你必須以某種方式扮演掃興警察,以應對實際的濫用。所以問題是,這是否必要且是最佳方式?我不知道。
我希望至少允許足夠受信任的用戶這樣做。我的直覺是,如果我們允許有良好記錄的賬戶進行預填,如果你濫用了這項權利,你就會失去它,並配合大多自動化的監控,你就可以讓大多數尋找樂趣的人在邊際風險極小的情況下繼續享受樂趣。
關於系統卡的一般說明
每當新的前沿模型發布時,我都會撰寫大量關於模型系統卡的內容(或者大聲抱怨我們沒有這樣的卡)。這樣做的一個好理由是,從事這類工作的人真的在聽。如果你有想法,請分享,因為這很重要。
OpenAI 的 Noam Brown 從 Anthropic 的系統卡中得出結論(我也一樣),即 Opus 4.6 發布是沒問題的,且過程的誠實性很棒,但他無法確信他們在部署 AI 模型時會負責任地行動。幾位安全倡導者也表示贊同,包括 Steven Adler 和 Daniel Kokotajlo。Anthropic 負責系統卡的 Drake Thomas 也同意這些方法將是不夠的。他保證調查數據確實是有意義的且未受壓力。
一個有效的回應是,OpenAI 的程序和系統卡似乎也有其自身相似且更嚴重的問題,儘管我還沒有深入研究。但這並不能證明 Noam Brown 是錯的。現實並不按相對評分(grade on a curve)。
大家聽好,這是破壞
Anthropic 還為我們提供了一份 53 頁的 Claude Opus 4.6 破壞風險報告。如果這條註釋還在,說明我還沒時間閱讀它。
Anthropic:本風險報告認為,Claude Opus 4.6 不會構成自主行動導致後續災難性後果的重大風險,我們稱之為破壞風險(sabotage risk)。我們在此將範圍限制在主要由模型行動引起的威脅,而不涉及人類蓄意有害行動發揮核心作用的威脅模型。
我們認為總體風險非常低,但並非微不足道。
……我們主要關注評估危險且連貫的失調目標的可能性:即模型在普通部署的廣泛交互中,始終可能受到可能導致其犯下潛在災難性破壞行為的目標驅動的可能性。
他們使用刪節來保護商業秘密並避免增加風險。還有第三個原因,就是避免污染未來的測試。
首先跳出來的一點是,Opus 4.6 已經在內部部署了一段時間。最大的破壞風險可能發生在這種內部使用中,因此在重要方面,這份報告來得太晚了。如果機制是像我這樣的外部讀者指出缺陷,那肯定太晚了。我拿不到預發布副本。
他們不經意間透露了他們將 RL 的規模擴大了很大一倍。
核心論點是:
-
他們找不到危險且連貫的失調目標。
-
Opus 4.6 極不可能隱藏此類目標,因為他們已經緩解了通往此目標的主要路徑,包括通過接種提示來防範獎勵黑客(reward hacking)或其他突發的失調。在訓練中,即使 Anthropic 故意測試這樣做,也很難獲得微妙或連貫的失調。
-
Opus 4.6 似乎沒有偽裝其思考。
-
進行了手動檢查,這本可以發現任何勾結行為。
-
Opus 4.6 的推理能力還不足以持續重新推導一個複雜的計劃。
-
訓練過程不會產生創造此類目標的激勵。
-
我們現在也有關於相似的 Opus 4.5 的大量證據。
考慮到被測試的威脅模型,所呈現的證據似乎是穩健的。我接受風險「非常低但並非微不足道」的結論。
我很欣賞他們指出這些論點並不完全適用於未來的模型,並注意到細節非常重要。
我認為這裡的威脅模型過於狹窄,且做了太多假設,這削弱了這項練習相對於其應有價值的意義。
他們的緩解措施是:
-
針對內部人員的保護措施也應在很大程度上保護免受 Opus 4.6 的影響。
-
對任何令人驚訝或令人擔憂的觀察進行報告。
-
對超過 10% 的 Claude Code 提示詞進行離線行為監控。
-
對某些風險行為進行沙盒化和自動監控。
-
強制性的手動代碼審查。
競爭的法典
在 Anthropic 發布 Claude Opus 4.6 的同一天,OpenAI 發布了 GPT-5.3-Codex。
這是一個僅限 Codex 的模型,因此在其他用途上無法使用,Opus 仍然是與 GPT-5.2 競爭。
對於代理式編碼,我們需要直接比較這兩個套件。你是想要帶有 Opus 4.6 的 Claude Code,還是帶有 GPT-5.3-Codex 的 Codex?你應該將它們結合起來嗎?
我還沒有對 5.3 進行全面調查,那是我的下一個議程項目,但總體情況不太可能改變。沒有明確的正確答案。雙方都有擁護者,據所有報告顯示,雙方都是極佳的選擇,且各有優勢。
如果你是一名認真的編碼者,你需要兩者都嘗試,理想情況下還要嘗試 Gemini,看看哪些模型在哪些方面表現最好。你不需要每次升級出現時都這樣做。你可以依靠你過去使用 Opus 和 GPT 的經驗,以及像本文這樣的他人報告,你就會沒事的。認真使用其中任何一個都會讓你比大多數競爭對手擁有巨大的優勢。
週五我會說更多,一旦我有機會閱讀他們的系統卡並全面了解 5.3 的反應等等。
Gemini 的定位
有了 GPT-5.3-Codex 和 Opus 4.6,Gemini 處於什麼位置?
我問了這個問題,並得到了相當多的回覆,確認了是的,它有其用途。
-
Nana Banana 和圖像生成器仍然是世界一流且非常棒的。ChatGPT 的圖像生成器也不錯,但我通常更喜歡 Gemini 的結果,且它有巨大的速度優勢。
-
Gemini 在處理視頻和長文本方面非常出色。
-
當你想要大規模、快速、便宜且好用,且需要它工作但不需要極其出色時,Gemini Flash(和 Flash Lite)非常棒。
-
有些人仍然在總體上或在主要使用案例中偏好 Gemini Pro。
-
它是人們在其他 token 用完時使用的另一個 token 預算。
-
我最喜歡的一條註釋是 Ian Channing 說他使用 Pliny 越獄版的 Gemini,因為一旦你改變了它的性格,它就會保持不變。
Gemini 應該在與 Google 產品(包括 GMail、日曆、地圖、Google 表格和文檔以及 Chrome)的集成中大放異彩,但這些集成極其糟糕,通常根本無法工作。我一直被這點困擾,因為它每次都拒絕提供幫助。
我自己的經驗是,Gemini 3 Flash 非常擅長作為一個快速模型,但如果我想用 Gemini 3 Pro,那麼我可能應該麼使用 Gemini 3 Flash,要麼應該使用 Claude Opus 4.6。
選擇你的戰士
我對我的 Twitter 追隨者進行了一些投票。 他們是一個非常不尋常的群體,但此類結果可以相互比較並隨時間觀察。
標題新聞是 Claude 一直在獲勝,但對於編碼,GPT-5.3-Codex 以及人們終於開始測試 Codex 似乎稍微將天平撥回了 Codex 一側,這在嚴肅事務(Serious Business)方面稍微削減了 Claude Code 的領先優勢。Codex 擁有可觀的市場份額。
在常規世界中,據我了解,Claude 在 API 使用方面實際上比這更佔優勢,且 Claude Code 統治著 Codex。這裡不尋常的一點是,對於非編碼用途,Claude 仍然具有優勢,而在現實世界中,大多數非編碼 LLM 使用是 ChatGPT。
在我看來,這很遺憾。我認為 Claude 是日常非編碼使用的明確選擇,而對於編碼,我可以看到選擇任何一個工具或兩者都用的理由。
我目前的工具箱如下,它相當偏重於 Claude:
-
編碼:帶有 Claude Opus 4.6 的 Claude Code,但我還沒有給 Codex 一個公平的機會,因為我的編碼需求和野心一直很適中。我打算很快嘗試。默認情況下,你可能想選擇 Claude Code,但混合使用或使用 Codex 也是有效的。
-
非編碼非聊天:帶有 Opus 4.6 的 Claude Code。如果你想完成某件事,就開口要求。
-
非編碼有趣的聊天任務:Claude Opus 4.6。
-
非編碼無聊的聊天任務:Opus、GPT-5.2 以及 Gemini 3 Pro 和 Flash 的混合。GPT-5.2 或 Gemini Pro 用於某些類型的「僅限事實」或固定操作(如轉錄)。如果是簡單任務且你只追求速度,用 Gemini Flash。
-
圖像:同時交給 Gemini 和 ChatGPT,然後進行比較。在某些情況下,讓 Claude 生成提示詞。
-
視頻:從未遇到過,所以我不知道。Seeddance 2 看起來很棒,Grok、Sora 和 Veo 都可以嘗試。
加速
步伐正在加快。
Claude Opus 4.6 在 Claude Opus 4.5 發布後不到兩個月就問世了,且與 GPT-5.3-Codex 同日發布。兩者都比其前輩有了實質性的升級。
如果獲得 Claude Opus 4.7 需要超過兩個月的時間,那將令人驚訝。
AI 正在日益加速 AI 的發展。這就是「慢啟動」初期的樣子,它可能迅速轉變為「快啟動」。隨著進步接踵而至,以及我們跨越實現新使用案例的各個關鍵門檻,請做好事情迅速升級的準備。
AI 代理正在編碼和其他領域大顯身手。Opus 4.5 是 Claude Code 的門檻時刻,且幾乎好到足以讓 OpenClaw 之類的東西變得有意義。看起來 Opus 4.6 還沒能讓我們實現另一個階梯式變化,但再給它幾週時間。我們至少已經接近了。
如果你正在做大量工作,特別是定制化工作,以試圖從本月的模型中獲取更多收益,那麼只有在這些工作能延續到下一個模型時,這才有意義。
還有一個小問題,這一切都將改變世界,而且可能相對迅速地改變,且很有可能殺死所有人或讓 AI 控制未來。我們不知道還有多少時間,但如果你想防止這種情況發生,很有可能你的時間不多了。這肯定感覺不像我們面前還有十個非變革性的年份。
相關文章