Anthropic 公司近九成程式碼由 AI 編寫嗎？

Lesswrong·6 個月前

這篇文章探討了 Anthropic 執行長 Dario Amodei 聲稱公司 90% 的程式碼由 AI 編寫的說法，並指出雖然這在部分團隊屬實，但整體平均比例可能低得多，且該指標並非衡量實際生產力提升的良好標準。

2025 年 3 月，Anthropic 執行長 Dario Amodei 表示，他預計 AI 將在 3 到 6 個月內編寫 90% 的程式碼，且 AI 可能在 12 個月內編寫基本上所有的程式碼。^([1])

這個預測最終成真了嗎？我們寬容地將此預測解讀為針對 Anthropic 公司本身。最近，多篇文章聲稱 Dario 說過 AI 正在編寫 Anthropic 90% 的程式碼（這是在「3-6 個月」預測提出的 7 個月後）。這是對 Dario 與 Marc Benioff 對談內容的一個合理總結，但我目前的理解是，AI 正在編寫 Anthropic 90% 程式碼的說法並非事實。

這些文章所引用的確切文字如下：

Dario：6 個月前我做了這個預測，你知道，在 6 個月內 90% 的程式碼將由 AI 模型編寫。有些人認為那個預測是錯誤的，但在 Anthropic 內部以及我們合作的許多公司中，這絕對是真的。

Marc：嗯，現在 90%……所以你是說今天在 Anthropic，所有程式碼中有 90% 是由模型編寫的——

Dario：在許多團隊中是這樣，你知道，並非全部統一。

我目前的理解（基於這段文字和其他來源）是：

在 Anthropic 確實存在一些團隊，其合併（merged）的程式碼行數^([2])約有 90% 是由 AI 編寫的，但這只是少數團隊。
整個 Anthropic 由 AI 編寫的合併程式碼行數平均值遠低於 90%，更接近 50%。
如果你把所有「曾有用途」的程式碼都算進去（包括只執行一次的腳本等），AI 在 Anthropic 編寫的比例會更高，可能更接近 90% 而非 50%，但這很難衡量，且具體納入哪些內容會對最終數據產生巨大影響。將所有曾有用途的程式碼納入計算，通常不是人們在談論軟體工程師寫了多少行程式碼時的意思，我猜這也不是大多數人對 Dario 言論的理解。^([3])

因此，當 Dario 說「這絕對是真的」時，我並不認同：我不認為預測已經實現。事實上，Dario 在隨後稍微收回了這番話（說「在許多團隊中」），但並沒有明確澄清紀錄，因此記者們（非常合理地）採用了第一種說法。

我還應該指出，我認為 AI 在 Anthropic 編寫 90% 的程式碼，其令人印象深刻的程度可能不如聽起來那麼高：

這對工程師帶來的生產力提升可能遠低於 10 倍，我猜測甚至低於 2 倍。（如果 AI 編寫程式碼的比例上升，是因為人們為了學習如何利用 AI 或為了吃自家狗糧（dogfooding）而盡可能使用 AI，那麼提升會特別低。）在特定的程式碼生成比例下，生產力提升並不會那麼高，因為 AI 讓研發人員能廉價地生成大量低價值的程式碼（這推高了 AI 生成的比例，但僅微幅增加產出）。
這距離 Anthropic 軟體/研究工程的完全自動化，可能還有很長一段路（在時間^([4])、有效算力和定性能力方面）。
確切的比例可能很大程度上取決於你具體納入什麼，這使得該指標意義較小且難以解讀。（例如：你是否包含一次性腳本或僅使用一次的 bash 指令？）

更廣泛地說，我認為 AI 編寫程式碼的比例並不是衡量 AI 帶來自動化和生產力提升的好指標，因為我們不知道 AI 編寫比例與工程師有效加速之間的轉換關係。話雖如此，這個指標的某些版本（例如：AI 編寫的合併程式碼行數）確實具有某種預測信號，且可能值得追蹤，因為它們比總體加速更容易衡量。

核心結論

首先，值得注意的是，這個預測在直觀意義上可能是錯誤的，但 Dario 似乎仍聲稱該預測「絕對是真的」而沒有明確撤回。我不認為這完全是記者的錯；Dario 本可以做得更好，以避免做出錯誤的陳述。相應地，我認為我們不應該過度信任 Dario 隨口說出的言論，即使是關於「Anthropic 有多少比例的程式碼是由 AI 編寫的」這種相對直接的問題，除非有更正式且精確的數據支持。我猜測，如果 Dario 有動機在情況上誤導他人，隨口說出的言論就更不可靠；在這種情況下，他有動機暗示他的預測是正確的，也有動機暗示 AI 的進展更快。^([5])

儘管如此，我確實認為如果你仔細觀察該主張的周邊語境（特別是包括 Dario 的澄清），你可能會得到一個接近正確的理解。所以另一個結論是，查看 Dario 確切說了什麼非常重要：他經常被直接誤解！他最初的預測也經常被誤解；值得注意的是，他說的是「在 12 個月內，我們可能處於一個 AI 撰寫基本上所有程式碼的世界」，而不是說他預計 AI 在 12 個月內會撰寫基本上所有的程式碼！

既然 Anthropic 認為 AI 編寫程式碼的比例是內部自動化的一個重要指標^([6])，他們應該在更具公信力的公開產出（例如系統卡^([7])）中說明這個數字，並更具體地說明這是如何衡量的以及包含哪些內容。我目前傾向於相信 Anthropic 在系統卡中提出的具體、精確且非推測性的主張，因為那裡有更多防止造假的機制。

我認為這是一些證據，顯示 Dario 正在對 AI 的發展軌跡做出過於激進且帶有炒作性質的預測，並且在預測出錯時不會直接承認。比起做出激進預測，我更擔心他不承認錯誤。特別是，我擔心 Anthropic（和 Dario）不會承認他們對於 2027 年初出現強大 AI 的預期是錯誤的，或者至少他們會很晚才承認，而不是在 2026 年的某個時候修正預測。不幸的是，Anthropic 有動機炒作 AI 進展並聲稱他們的預測基本正確，但與此同時，他們減輕 AI 災難性風險的故事，部分取決於他們在當前（及預期未來）能力水平與風險方面，是一個受信任（且值得信賴）的溝通者。

（我應該指出，我認為社會對強大 AI 系統帶來的災難性風險準備嚴重不足，包括有相當大的機會（約 20%）失調的 AI 系統會在 10 年內真正接管世界。）

這個預測到底錯得有多離譜？同樣地，我們寬容地將預測解讀為針對 Anthropic——儘管我確實認為將預測視為針對所有專業軟體工程是合理的，在這種情況下，預測看起來會糟糕得多。Dario 預測 3-6 個月內達到 90% 的程式碼，這意味著他的中位數大約在 3 到 6 之間，或許是 4.5 個月。從預測提出到撰寫本文時已過去 7 個多月，而這並未發生，儘管或許 Anthropic 的大部分程式碼是由 AI 編寫的，且確實存在 90% 程式碼由 AI 編寫的團隊。此外，如果你極大化地擴展納入範圍（例如包含 AI 執行一次的腳本），它可能是真的。從量化角度來看，我們可以將 Dario 的話解讀為：在初始預測後的 6 個月內，這大約有 65% 的可能性發生（假設他的中位數確實是 4.5 個月左右），而目前在我看來，對於該預測的一個合理操作化定義，可能需要 9 到 15 個月才能實現。我曾預測這不會發生，我猜如果我當時給出一個整體的機率分佈，我會從 Dario 那裡贏得一點點（超過 1 bit）的認識論信用（epistemic credit）。

做出預測是好事

我確實認為 Dario 表達他的觀點並做出（一些）預測是好事。我會很樂見 Anthropic（或 Dario）做出具有相對明確判定標準的短期預測（例如關於未來 3 到 12 個月），特別是如果這些預測是關於更有意義的指標/屬性。例如：AI 將能夠自主完成哪些類型的軟體工程任務？AI 將在多大程度上加速 Anthropic 的工程師（在我們可以衡量的範圍內）？做出中期預測似乎特別重要，因為 Anthropic 預測在 16 個月內會出現具有變革性力量的 AI 系統。

我有點擔心這篇文章會促使人們產生「不要做任何具體預測」的動機。因此，我會盡力去讚揚那些做出有意義短期預測的 AI 公司執行長（如果這發生的話）。我們應該嘗試創造一種激勵機制，鼓勵人們做出許多可裁定的有意義預測，並在預測未實現時坦然承認。

[感謝 Buck Shlegeris、Ajeya Cotra 和 Daniel Kokotajlo 的評論。]

附錄：相關來源與預測判定

以下是我關於此預測的來源：

Dario 最初在這場訪談中做出預測：「如果我觀察 AI 進展最快的領域之一——編碼、程式設計，我們發現我們離那個世界不遠了——我認為我們將在三到六個月內達到那裡——屆時 AI 將編寫 90% 的程式碼。然後在十二個月內，我們可能處於一個 AI 撰寫基本上所有程式碼的世界。但程式設計師仍然需要指定，你知道，你正在做的事情的條件是什麼，你知道，你試圖製作的整體應用程式是什麼，整體的設計決策是什麼？」
在 9 月（初始預測後的 6 個月），Dario 說：「在 Anthropic 編寫的程式碼中有 70, 80, 90% 是由 Claude 編寫的。我在 3 或 6 個月前說過類似的話，人們認為這被證偽了，因為我們沒有解雇 90% 的工程師。」這再次誤導性地暗示預測成真了，同時又說它可能沒成真（值得注意的是，70% 與 90% 有很大不同）。我認為這裡發生的情況是，Dario 對 AI 編寫程式碼的比例有一個模糊的感覺，然後以一種帶有誤導性/炒作性的方式表達了出來。
這是 Marc Benioff 採訪 Dario 的來源，如上文所述。
在 The Curve 活動中，一名 Anthropic 員工聲稱 Anthropic 90% 的程式碼是由 AI 編寫的。我現在認為這顯然是錯誤的。
與 Anthropic 員工的其他私人討論。

我判定此預測時，假設 Dario 的意思是：「在人類員工有時會做或可能做的工作過程中，於 Anthropic 編寫的程式碼，可能以提交到相關儲存庫的內容來衡量，因此不包括 AI 在 RL 訓練期間生成的程式碼，不包括更適合描述為合成數據的內容，且可能不包括未合併的一次性程式碼」。理想情況下，我們會包含某些通常不合併的程式碼類型（儘管這很難衡量），但絕非字面意義上輸出的「所有」程式碼行（無論是人類還是 AI 輸出的）。這可能不包括像 AI 程序化生成 RL 環境之類的內容（這可能更適合描述為合成數據），但會包括 AI 開發 RL 環境，只要該公司的工程師（非外包人員）原本可能會做這項工作。這裡肯定存在一些潛在的歧義，如果我們只排除負責生成 RL 環境和合成數據的團隊，並僅計算合併的程式碼，預測會最清晰。即使這包含大量原本不會編寫、但屬於人類可能會做的那類程式碼，也應計入 AI 生成的 90%。因此，即使人類員工正在做更多某種類型的工作（例如：為查看實驗結果而編寫網頁介面的 Vibe Coding），這也算數；但如果那是人類員工幾乎完全不會去做的事情，則不算數。

確切引用為：「我認為我們將在三到六個月內達到那裡——屆時 AI 將編寫 90% 的程式碼。然後在十二個月內，我們可能處於一個 AI 撰寫基本上所有程式碼的世界。」 ↩︎
指被合併到其他員工可能使用或可能以某種方式部署的程式碼庫中。 ↩︎
談論這個指標是合理的，但前提是必須明確這就是正在討論的指標。預設情況下，我認為人們心目中的指標更接近「合併的程式碼行數」，可能也包括為了運行有價值的實驗而編寫的程式碼，即使這些程式碼沒有被合併。 ↩︎
對於領先的 AI 公司實現研究工程的完全自動化，我的中位數預測大約在 2032 年初，但在 2029 年之前發生似乎也是可能的。 ↩︎
我認為存在一種模式，即存在一些對 Anthropic 領導層有利的誤解，儘管（部分）領導層知道這些是錯誤的，卻沒有得到糾正。我認為其中最常見且最強烈的情況是 Anthropic 員工之間的誤解，這些誤解從 AI 安全的角度讓 Anthropic 看起來更好。我認為其中最大的誤解一直是「Anthropic 不會推動前沿技術」和「Anthropic 不會帶來巨大風險，因為我們會遵守我們的 RSP」。（或者至少，這些誤解天真地讓 Anthropic 看起來更好；在考慮權衡的非天真視角下，它們可能看起來只是糟糕的選擇。） ↩︎
我認為這沒問題，且隨時間追蹤會挺有趣的。 ↩︎
系統卡對於包含此類信息來說是一個有點奇怪的地方，但它與 Sonnet 4.5 系統卡中「內部模型評估與使用調查」章節討論的信息非常相似。如果 Anthropic 定期產出或更新其他透明度報告，那麼放在那裡會比放在系統卡中更合適。 ↩︎

— Lesswrong

你的個人知識庫

Anthropic 公司近九成程式碼由 AI 編寫嗎？

核心結論

做出預測是好事

附錄：相關來源與預測判定