newsence
揭秘 OpenAI 追趕 Claude Code 的競賽內幕

揭秘 OpenAI 追趕 Claude Code 的競賽內幕

Wired - backchannel·25 天前

為什麼 AI 領域最知名的公司在 AI 程式碼革命中落後了?這篇文章深入探討 OpenAI 如何在競爭對手 Anthropic 的 Claude Code 取得巨大成功後,正急於追趕這場程式碼代理人的競賽。

Sam Altman 盤腿坐在辦公椅上,深情地凝視著天花板。公平地說,位於舊金山米申灣(Mission Bay)的新 OpenAI 總部——一座由玻璃和淺色木材構成的殿堂——似乎正是在邀請這種沉思。接待處後方的書報亭擺放著描述「AI 時代」的小冊子,彷彿那是通往啟蒙之路的階梯。樓梯間的報貼標記著 AI 的里程碑式勝利,例如成千上萬的人透過直播觀看機器在《Dota 2》中擊敗頂尖電競團隊。走廊上,研究人員穿著帶有神聖感的週邊服飾走過。一件襯衫上寫著:「好的研究需要時間。」理想情況下,不要太久。

Altman 和我身處一間巨大的會議室。我向他提出的問題關於 AI 程式碼革命——以及為什麼 OpenAI 似乎並未處於領先地位。數百萬名軟體工程師已開始將編程任務委託給 AI,這迫使矽谷的許多人首次正視自己工作被自動化的現實。程式碼代理(Coding agents)已成為企業願意為 AI 支付高額費用的少數領域之一。這個時刻本可以、也理應成為 OpenAI 樓梯間下一張勝利的標誌海報。但現在,佔據大標題的名字屬於別人。

Anthropic 是一家由 OpenAI 叛逃者創立的規模較小的競爭對手,其編程代理 Claude Code 取得了巨大的成功。該公司在 2 月表示,該產品佔其業務的近五分之一,年化收入超過 25 億美元。據一位知情人士透露,截至 1 月底,OpenAI 的版本 Codex 的年化收入僅略高於 10 億美元。這是怎麼回事?

「先發優勢價值巨大,」Altman 終於開口道。「我們在 ChatGPT 上擁有這種優勢。」但他表示,現在是 OpenAI 全力投入程式碼領域的時機。他認為公司的 AI 模型現在已經足夠強大,可以驅動非常能幹的程式碼代理。(當然,公司花費了數十億美元將它們訓練成那樣。)「這將是一個巨大的業務——光是其經濟價值,以及程式碼能解鎖的通用用途,」Altman 說。「我不會輕易說出這句話,但我認為這是罕見的數兆美元市場之一。」此外,他表示,Codex「可能是實現通用人工智慧(AGI)最可能的路徑」。根據 OpenAI 的定義,AGI 是指在大多數具有經濟價值的領域中表現優於人類的 AI 系統。

Sam Altman

Sam Altman,OpenAI 執行長。

然而,儘管 Altman 在安詳的盤腿姿勢中發表著自信的宣言,公司過去幾年的現實情況卻更為混亂。為了了解內幕,我採訪了 30 多人,包括在公司批准下參與的 OpenAI 現任領導者和員工,以及其他要求匿名以討論私營公司內部運作的人士。他們的敘述描繪出 OpenAI 處於一個罕見的境地:奮力追趕。

回到 2021 年,Altman 和其他 OpenAI 領導者邀請《連線》(WIRED)記者 Steven Levy 前往他們位於舊金山米申區的原辦公室,展示一些新東西。那是 OpenAI GPT-3 模型的衍生產品,使用了來自 GitHub 的數十億行開源程式碼進行訓練。在演示中,高管們展示了這款名為 Codex 的工具如何接收英文指令並輸出簡單的程式碼片段。

「它實際上可以代表你在電腦世界中採取行動,」OpenAI 總裁兼聯合創始人 Greg Brockman 當時表示。「你實際上擁有一個可以執行命令的系統。」即便在當時,OpenAI 的研究人員也認為 Codex 顯然將是開發「超級助手」的關鍵。

那段時間,Altman 和 Brockman 的生活圍繞著與 OpenAI 最大投資者微軟(Microsoft)的會議展開。這家軟體巨頭正利用 Codex 來驅動其首批商業 AI 產品之一:GitHub Copilot,這是一款在程式設計師日常環境中運行的程式碼自動補全工具。一位 OpenAI 的早期員工告訴我,Codex 在那個階段「除了自動補全之外做不了太多事」,但微軟的高管們將其視為 AI 未來的預兆。當 GitHub Copilot 於 2022 年 6 月公開發布時,在幾個月內就吸引了數十萬用戶。

Greg Brockman

Greg Brockman,OpenAI 總裁。

OpenAI 的第一支 Codex 團隊隨後轉向了其他專案。該員工表示,公司計劃將程式碼能力融入未來的模型中,認為沒有必要進行單獨的開發。一些工程師被重新分配到圖像生成器 DALL-E 2。其他人則轉向訓練 GPT-4,這被認為是讓 OpenAI 更接近 AGI 的最佳途徑。

接著,ChatGPT 於 2022 年 11 月發布,並在兩個月內獲得了超過 1 億用戶。所有其他專案都停擺了。在此後的幾年裡,OpenAI 沒有專門的團隊開發 AI 程式碼產品。一位前 Codex 團隊成員表示,這似乎超出了公司新確立的消費者重心。他們接著說,這也讓人覺得「該領域已被 GitHub Copilot 覆蓋」。OpenAI 會提供新模型來驅動該工具,但那是微軟的領地。

OpenAI 在 2023 年和 2024 年的大部分時間裡轉而投資於其多模態 AI 模型和代理——旨在理解文本、圖像、影片和音訊,並能像人類一樣控制游標和鍵盤。這項努力似乎更符合 AI 行業的發展方向。新創公司 Midjourney 因其 AI 圖像模型而走紅,當時盛行的一種觀念是,大型語言模型(LLM)需要看見和聽見世界才能獲得真正的智慧。

Anthropic 則走了一條不同的路。它也涉足聊天機器人和多模態模型,但該公司似乎比 OpenAI 更早意識到程式碼的前景。在最近的一次播客中,Brockman 稱讚 Anthropic 從早期階段就「非常專注於程式碼」。他指出,Anthropic 不僅在學術競賽的困難編程問題上訓練其 AI 模型,還在來自混亂程式碼庫的現實問題上進行訓練。「那是我們延誤了的一個教訓,」Brockman 說。

2024 年初,Anthropic 正在利用其中一些混亂的程式碼庫訓練 Claude Sonnet 3.5。當該模型於當年 6 月發布時,許多用戶對其編程能力印象深刻。在一份名為 Cursor 的新創公司中尤其如此,該公司由一群二十多歲的年輕人創立,讓開發者可以透過簡單的英語要求更改來進行 AI 編程。據一位接近該公司的人士透露,當該公司整合了 Anthropic 的新模型後,Cursor 的使用量開始飆升。幾個月內,Anthropic 開始內部測試其自己的版本:Claude Code。

隨著 Cursor 的普及,OpenAI 曾接洽該公司商討收購事宜。接近該公司的人士告訴我,創始人在談判進入高級階段之前就拒絕了提議。他們看到了編程行業的潛力,並希望保持獨立。

Andrey Mishchenko

Andrey Mishchenko,OpenAI Codex 研究負責人。

當時,OpenAI 正在訓練其首個所謂的推理模型 o1,該模型可以在給出答案之前逐步解決問題。發布時,OpenAI 表示該模型「擅長準確生成和調試複雜程式碼」。OpenAI 的 Codex 研究負責人 Andrey Mishchenko 表示,AI 模型在程式碼方面變得更好的關鍵原因在於這是一項可驗證的任務。程式碼要麼能運行,要麼不能——這在模型出錯時給予了明確的信號。OpenAI 利用這種反饋循環在日益困難的編程問題上訓練 o1。「如果沒有在程式碼庫中爬行、實施更改並測試自己工作的能力——這些都屬於推理範疇——程式碼代理的能力絕不會達到今天的水平,」他說。

到 2024 年 12 月,OpenAI 內部的幾個小組開始專注於 AI 程式碼代理。其中一個小組由 Mishchenko 和 Thibault Sottiaux 領導,後者曾是 Google DeepMind 的研究員,現在是 OpenAI 的 Codex 負責人。最初,他們對程式碼代理最感興趣的是將其作為加速 AI 研究的一種方式——自動化管理訓練運行和監控 GPU 集群的繁瑣工作。另一項努力由 Alexander Embiricos 領導,他之前負責 OpenAI 的多模態代理,現在是 Codex 的產品負責人。Embiricos 創建了一個名為 Jam 的演示,在公司內部廣為流傳。

Thibault Sottiaux

Thibault Sottiaux,OpenAI Codex 負責人。

Jam 並非透過游標和鍵盤控制電腦,而是直接訪問其命令行。2021 年的 Codex 演示展示的是一個可以輸出程式碼供人類運行的 AI,而 Embiricos 的版本可以自己運行程式碼。他發現自己看著筆記型電腦上一個追蹤 Jam 行動的網頁不斷自我更新,感到驚嘆不已。

「有一段時間,我一直認為多模態交互可能是我們實現使命的方式——就像我們整天都在與 AI 共享螢幕一樣,」Embiricos 說。「然後事情變得很清楚:也許賦予模型對電腦的程式化訪問權限才是我們實現目標的方式。」

這些專案花了幾個月的時間才合併成一項統一的努力。當 OpenAI 在 2025 年初完成 o3 的訓練時——這是一個比 o1 更針對程式碼優化的模型——它終於擁有了構建真正 AI 程式碼產品的基礎。但 Claude Code 當時已經準備好公開發布了。

在 Claude Code 問世之前——最初於 2025 年 2 月作為「有限研究預覽」發布,隨後於 5 月正式發布——當時的技術水平被稱為「氛圍編程」(vibe coding)。人們花費數億美元購買工具,讓人類程式設計師引導編程專案,而 AI 則在過程中填補細節。但 Anthropic 的新產品,就像 Jam 演示一樣,直接從電腦的命令行工作,這意味著它可以訪問開發者的所有文件和應用程式。這不再是氛圍編程;開發者可以完全將工作卸載給 AI 代理。

OpenAI 當時正倉促建立競爭產品。Sottiaux 告訴我,他在 2025 年 3 月組建了一個「衝刺團隊」,任務是整合 OpenAI 的內部小組,並在短短幾週內交付一款 AI 程式碼產品。與此同時,Altman 探索了另一項有助於 OpenAI 實現跨越式發展的收購——以 30 億美元收購 AI 程式碼新創公司 Windsurf。OpenAI 領導層認為 Windsurf 將提供成熟的 AI 程式碼產品、一個懂得如何在其基礎上構建的團隊,以及現成的企業客戶群。

但 Windsurf 的收購案擱置了數月。據《華爾街日報》報導,延誤的原因是 OpenAI 在各方面的超級合作夥伴微軟希望獲得 Windsurf 的知識產權。這家雲端巨頭自 2021 年以來一直使用 OpenAI 的模型來驅動 GitHub Copilot,該產品已成為微軟財報電話會議的亮點。但隨著 Cursor、Windsurf 和 Claude Code 提供新的代理式編程體驗,GitHub Copilot 開始讓人覺得停留在早期的 AI 時代。OpenAI 再推出一款程式碼產品對此並無幫助。

Windsurf 交易發生在 OpenAI 與微軟關係特別緊張的時期。兩家公司正在重新談判合作夥伴關係,OpenAI 試圖放鬆微軟對其 AI 產品和計算資源的控制。Windsurf 交易成為了這一過程的犧牲品,OpenAI 收購該新創公司的交易在 7 月宣告破裂。那時,Google 最終聘請了 Windsurf 的創始人;團隊的其他成員則被另一家程式碼新創公司 Cognition 收購。

「我很想完成那筆交易,」Altman 說。「你無法控制每一筆交易。」雖然他曾希望收購 Windsurf「能在某種程度上加速我們的進程」,但 Altman 表示他對 Codex 團隊的發展軌跡印象深刻。Sottiaux 和 Embiricos 在談判期間一直在持續構建和發布更新。Altman 說,到 8 月,OpenAI 按下了加速鍵。

Alexander Embiricos

Alexander Embiricos,OpenAI Codex 產品負責人。

Greg Brockman 最喜歡衡量 AI 性能的方法是使用他發明的一款名為「反向圖靈測試」的電腦遊戲。他多年前親手編寫了這款遊戲,現在則挑戰 AI 代理從零開始構建自己的版本。他給出基本規則:兩個人在各自的電腦上,螢幕上各看到一對聊天窗口。一個窗口連接到另一個人,另一個連接到 AI。遊戲目標是猜測哪個窗口是 AI,同時誤導對手認為你才是 AI。

Brockman 說,在去年大部分時間裡,公司最好的模型需要花費數小時才能構建出這樣一款遊戲,且過程中需要明確的人類指令和幫助。但到了 12 月,Codex 能夠利用新的 GPT-5.2 模型作為引擎,僅憑一個構思良好的提示詞就創建出一個功能完備的遊戲。

不只是 Brockman 注意到了這種轉變。全球的開發者都注意到 AI 程式碼代理突然變得明顯更強。這場討論——主要圍繞著 Claude Code 展開——衝出了矽谷,成為主流新聞故事。沒有編程經驗的普通人開始啟動量身定制的軟體專案。

這種使用量的激增並非偶然。Anthropic 和 OpenAI 在此期間投入巨資為其 AI 程式碼代理獲取新客戶。幾位開發者告訴《連線》,他們每月 200 美元的 Codex 和 Claude Code 方案能夠提供價值遠超 1,000 美元的使用量。這些慷慨的額度限制是為了讓開發者在工作場所使用 AI 程式碼產品,隨後 OpenAI 和 Anthropic 就可以按使用量收費。

據知情人士透露,回到 2025 年 9 月,Codex 的使用量僅為 Claude Code 的 5%。消息人士稱,到 2026 年 1 月,Codex 的用戶群已飆升至 Claude Code 的近 40%。

George Pickett 是一位在科技新創公司工作了 10 年的開發者,他最近開始圍繞 Codex 組織聚會。「我認為很明顯,我們將用代理取代白領工作,」Pickett 說。「在社會層面上,誰知道這意味著什麼。這將具有破壞性,但我對正在發生的事情感到相當樂觀。」

價值 110 億美元的生產力新創公司 Notion 的聯合創始人 Simon Last 表示,他和他的頂尖工程師在 GPT-5.2 發布前後轉向了 Codex,很大程度上是因為可靠性。「我發現 Claude Code 會對我撒謊,」Last 說。「它說它在工作,但實際上並沒有。」

Katy Shi

Katy Shi,OpenAI 研究員,負責模型行為。

在 OpenAI 負責 Codex 行為研究的 Katy Shi 表示,雖然有些人將其預設個性描述為「乾巴巴的麵包」,但許多人已開始欣賞其不那麼諂媚的風格。「大量的工程工作在於能夠接受批評性的反饋,而不將其解讀為惡意,」Shi 說。

幾家大型企業也已簽約使用 Codex。「ChatGPT 是 AI 代名詞這一事實,在 B2B 市場給了我們巨大的優勢,」OpenAI 應用執行長 Fidji Simo 說。「公司希望使用員工已經熟悉的技術。」Simo 表示,OpenAI 銷售 Codex 的策略很大程度上是將其與 ChatGPT 及其他 OpenAI 產品打包在一起。

思科(Cisco)總裁兼首席產品官 Jeetu Patel 表示,他已告訴員工不要擔心使用 Codex 的成本,因為他們需要熟悉這款工具。當員工詢問「他們是否會因為使用這些工具而失業」時,Patel 說:「我們必須告訴員工,不會,但我保證如果你不使用它們,你就會失業,因為你將不再具有競爭力。所以你會出局。」

如今,圍繞 AI 程式碼代理的恐慌已遠遠超出了矽谷。《華爾街日報》將上個月 1 兆美元的科技股拋售歸咎於 Claude Code,因為投資者擔心軟體很快將完全過時。幾週後,在 Anthropic 宣佈 Claude Code 可用於現代化運行 COBOL(常見於 IBM 機器)的遺留系統後,IBM 的股價遭遇了 25 年來最糟糕的一天。OpenAI 則不遺餘力地讓其 AI 程式碼代理成為社會話題的一部分,花費數百萬美元在超級盃上投放關於 Codex 而非 ChatGPT 的廣告。

在米申灣的殿堂裡,沒有人需要被推銷 Codex。我採訪過的許多 OpenAI 工程師表示,他們現在幾乎不再親自輸入程式碼。他們整天都在與 Codex 交談。有時他們還會聚在一起集體這麼做。

在總部,我參加了一場 Codex 黑客松——大約 100 名工程師擠在一間大教室裡。每個人有四個小時的時間利用 Codex 構建最佳演示。一位 OpenAI 的高級領導站在房間前方,從手中的筆記型電腦前轉過身,對著麥克風喊出團隊名稱。團隊代表緊張地走向講台,用顫抖的聲音簡短介紹他們的 AI 專案。獲勝者獲得了 Patagonia 背包。

許多專案既是用 Codex 創建的,也是為了幫助工程師更好地使用 Codex。一組人構建了一個將 Slack 訊息總結為週報的工具。另一組人構建了一個 AI 生成的 Wikipedia 風格的 OpenAI 內部服務指南。這些演示中的許多專案以前需要幾天或幾週才能啟動,但現在一個下午就能完成。

在我出門的路上,我遇到了 Kevin Weil,這位前 Instagram 高管現在負責 OpenAI for Science,這是公司為研究人員構建 AI 產品的新部門。他告訴我,Codex 正在徹夜為他處理一些專案,他會在早上檢查進度。這已成為 Weil 和數百名其他員工的日常習慣。OpenAI 2026 年的目標之一是開發一個自動化實習生,負責研究(還能是什麼?)AI。

Simo 告訴我,公司希望 Codex 最終能驅動 ChatGPT 及其所有產品的功能——不是為了編程,而是為了替人們完成任務。Altman 說他很想發布一個通用版本的 Codex,但他擔心安全影響。他說,在 1 月底,他的一位非技術背景的朋友要求他幫忙設置 OpenClaw,這是一個走紅的 AI 程式碼代理。Altman 告訴我他拒絕了,因為這「顯然還不是個好主意」,因為 OpenClaw 可能會刪除重要文件。在 Altman 告訴我這件事幾週後,OpenAI 宣佈聘請了 OpenClaw 的創作者。

我採訪過的許多開發者表示,Codex 和 Claude Code 之間的競爭從未如此激烈。但隨著這些工具變得更加強大——並被追求效率的企業領導者更廣泛地強制推行——社會面臨著比「使用哪款程式碼代理」更重大的問題。

Amelia Glaese

Amelia Glaese,OpenAI 研究副總裁兼對齊負責人。

一些監管機構擔心,OpenAI 追趕 Claude Code 的競賽會將安全性置於次要地位。一個名為 Midas Project 的非營利組織指責 OpenAI 在 GPT-5.3-Codex 上背棄了其安全承諾,未能妥善概述該模型的網絡安全風險。OpenAI 的對齊負責人 Amelia Glaese 否認了為了 Codex 而犧牲安全性的說法,OpenAI 則表示 Midas 誤解了公司的承諾。

即使對於 Brockman 來說——他去年分別向一個支持 AI 的超級政治行動委員會(super PAC)和一個支持川普的委員會捐贈了 2,500 萬美元以推進 OpenAI 的使命,並樂觀地表示我們「正按計劃」實現 AGI——新的現實也喚起了複雜的情感。在矽谷的工程師中,他一直以痴迷著稱,是那種會在產品發布前晚深入研究程式碼庫的老闆。他說,在許多方面,這個新的「甩手掌櫃」時代「非常令人放鬆,因為你意識到你的大腦一直被一堆不必要的細節所負擔」。然而,當你成為「這支由數十萬個正在完成你的目標、願景的代理組成的艦隊的 CEO」時,他說,「你就不再那麼深入了解事情具體是如何解決的了。」Brockman 說,在某些方面,這種新的工作方式會讓你「覺得自己正在失去對問題的敏銳感知」。

https://wired.com/story/openai-codex-race-claude-code/