分析Anthropic預測2027年初實現AGI的說法

Lesswrong·6 個月前

這篇文章分析了 Anthropic 對於「強力人工智慧」（被描述為資料中心裡的精英國家）將於 2027 年初出現的預測，但我認為這個時間表極不可能實現，機率僅約 6%。雖然我認為變革性 AI 在十年內是有可能實現的，但我希望透過具體化 Anthropic 的主張，說明為何他們對 2027 年的預測過於樂觀。

據我所知，Anthropic 是唯一一家擁有官方 AGI 時間表的 AI 公司
^([1])
：他們預計 AGI 將在 2027 年初出現。在他們向 OSTP 提交的（2025 年 3 月）關於 AI 行動計劃的建議中，他們表示：

正如我們的執行長 Dario Amodei 在《Machines of Loving Grace》中所寫，我們預計強大的 AI 系統將在 2026 年底或 2027 年初出現。強大的 AI 系統將具備以下特性：

在大多數學科（包括生物學、電腦科學、數學和工程學）中，智力水平達到或超過諾貝爾獎得主。

[...]
他們經常將這種能力水平描述為「資料中心裡的一個天才國家」。

這一預測在其他地方也被反覆提及，且 Jack Clark 證實這類觀點仍是 Anthropic 的看法（截至 2025 年 9 月）。當然，僅僅因為這是 Anthropic 的官方預測
^([2])
並不意味著 Anthropic 的所有甚至大多數員工都持有相同的觀點。
^([3])
然而，我認為可以合理地說，Dario Amodei、Jack Clark 以及 Anthropic 本身都在做出這一預測。
^([4])

我認為，創造出具有變革性力量的 AI 系統——即能力達到或超過 Anthropic 所定義的「強大 AI」的系統——在 5 年內是可能的，而在 10 年內發生的機率大於不發生的機率。相應地，我認為社會對這類 AI 系統相關風險的準備嚴重不足。

然而，我認為 Anthropic 的預測極不可能實現（根據我下文給出的強大 AI 操作化定義，我認為 2027 年初出現強大 AI 的機率約為 6%）。我確實認為他們願意做出預測是值得肯定的（儘管我希望預測能更精確、有更好的操作化定義，並且在強大 AI 出現之前也提供一些中期預測）。在這篇文章中，我將嘗試更精確地操作化 Anthropic 的預測，以便對其進行證偽或證實；討論我認為若要使該預測成真，到 2027 年的時間線需要呈現什麼樣子；並解釋為什麼我認為該預測不太可能實現。

［感謝 Ajeya Cotra、Ansh Radhakrishnan、Buck Shlegeris、Daniel Kokotajlo、Eli Lifland、James Bradbury、Lukas Finnveden 和 Megan Kinniment 提供的評論與討論。］

「強大 AI」是什麼意思？

Anthropic 在幾個不同地方都談到了強大 AI 的含義。引用自 Dario Amodei 的文章《Machines of Loving Grace》
^([5])
：

就純粹的智力而言，它在大多數相關領域（生物、程式設計、數學、工程、寫作等）比諾貝爾獎得主更聰明。這意味著它可以證明未解決的數學定理、撰寫極其優秀的小說、從零開始編寫困難的程式碼庫等。

除了僅僅是一個可以對話的「聰明事物」之外，它還擁有虛擬工作的人類所能使用的所有「介面」，包括文字、音訊、視訊、滑鼠和鍵盤控制以及網路存取。它可以進行該介面所能實現的任何行動、通訊或遠端操作，包括在網路上採取行動、向人類發出或接受指示、訂購材料、指導實驗、觀看影片、製作影片等等。同樣地，它完成所有這些任務的技能都超過了世界上最有能力的人類。

它不只是被動地回答問題；相反，它可以被賦予需要數小時、數天或數週才能完成的任務，然後像一名聰明的員工一樣自主地去完成這些任務，並在必要時尋求澄清。
^([6])

用於訓練模型的資源可以重新調整用途，以運行數百萬個模型實例（這與 2027 年左右預計的集群規模相符），且模型吸收資訊和產生行動的速度大約是人類速度的 10 倍到 100 倍。不過，它可能會受到物理世界或與其互動的軟體反應速度的限制。

我們可以將其總結為「資料中心裡的一個天才國家」。

目前尚不完全清楚「強大 AI」一詞是指某個相當廣泛的能力範圍（預測旨在指代該範圍的起點），還是《Machines of Loving Grace》中的這段文字是指該範圍的核心或上限。然而，向 OSTP 提交的建議中的討論非常相似，這意味著該預測對應的是符合此描述的「強大 AI」版本。考慮到 Anthropic 的對外溝通，如果這不是該預測所對應的大致描述，那將會非常具有誤導性。

雖然「強大 AI」的某些方面很明確，但給出的描述並未完全釐清這種能力水平的關鍵面向。因此，我將進行一些推論，並嘗試使描述更精確。如果我對預測內容的理解有誤，希望有人能糾正我！
^([7])

特別是，更精確地操作化強大 AI 可以自動化哪些事情似乎很重要。根據 Dario 的描述（其中包括極高的能力門檻，並包括能夠以極高速度運行多個副本），我認為強大 AI 將能夠：

完全或幾乎完全自動化 AI 研發（AI R&D）。也就是說，它能夠在沒有人類幫助的情況下
^([9])
自主推動 AI 進步
^([8])
，其速度至少與人類勞動力推動 AI 進步的速度相當。
^([10])
能夠完全或幾乎完全自動化大多數相關領域中，大多數公司/實驗室內部可以遠端完成的科學研發工作（在獲得足夠的背景資訊後）。這不一定意味著能同時自動化所有此類公司，但對於大多數相關領域，AI 幾乎可以完全自動化任何給定單一公司（或至少絕大多數此類公司）可遠端完成的工作。相應地，AI 將能夠自動化整個經濟體中研發所涉及的至少大部分認知勞動（儘管不一定有足夠的算力同時自動化所有這些工作）。
能夠自動化絕大多數可以遠端完成的白領工作（或白領工作中可以遠端完成的任務）。同樣，這並不意味著所有此類工作都能同時被自動化，因為可能沒有足夠的算力，但根據 Dario 的描述，似乎會有足夠的 AI 實例，使得美國相當大比例（>25%?）可遠端完成的白領工作可以被自動化（如果 AI 產能被用於此且法規未阻止的話）。

假設做出這一預測的人不反對這種定性，那麼如果到 2027 年 7 月初，AI 顯然不具備其中任何一項能力，我們就可以認為該預測已被明確證偽。
^([11])
至少，我認為 AI 完全或幾乎完全自動化 AI 研發的能力似乎是預料之中的，這對於 AI 公司的員工來說應該相對容易判定。其他類型的自動化判定可能會更混亂且緩慢
^([12])
，且如果最強大的 AI 沒有（迅速）對外部署，基於公開證據的判定可能會延遲。
^([13])

無論如何，我目前預計該預測到 2027 年年中將被明確證偽。我確實預計到 2027 年初我們會看到非常令人印象深刻的 AI 系統，它們或許能將前沿 AI 公司內部的研究工程效率提高約 2 倍
^([14])
，並且在自主執行任務方面，如果該任務原本需要公司內一名技術熟練（但對該特定任務背景了解不多）的研究工程師花費一整天的工作時間，AI 成功的機率將大於失敗。
^([15])

另一個值得釐清的問題是 Anthropic 為這一預測分配了多少機率。Anthropic 和 Dario 的一些言論聽起來更像是 >50% 的機率（例如「我們預計」）
^([16])
，而另一些言論則聽起來像是預測有很大機會（>25%?），使用了「可能」或「進展順利」等詞。目前，我假設他們的意圖是 2027 年初出現強大 AI 的機率約為 50%。一個校準後的 50% 機率預測有很大機會出錯，因此我們不應僅因這一預測被孤立地證偽就過度修正觀點。然而，如果預測最終未能實現，我認為預測的支持者承認其被證偽並進行修正，是非常重要的。
^([17])

較早期的預測

遺憾的是，等到 2027 年年中才來判定這一點並不理想。如果預測是錯誤的，我們理想上希望能更早證偽它。而如果它是正確的，那麼希望能更早得到一些跡象，以便我們能根據「極具變革性（且危險）的 AI 系統可能在 2027 年初被創造出來」這一事實來調整計劃。是否有較早期的預測能對此提供啟發？理想情況下，我們會有一些較早期的預測，是我（及其他人）預計不會實現，但 Anthropic 預計會實現的，且理想情況下，這些預測也足以讓我（及其他人）大幅轉向 Anthropic 對強大 AI 時間線的看法。

Dario 曾表示（來源），他預計在 2025 年 6 月至 2025 年 9 月之間的某個時間，90% 的程式碼將由 AI 編寫，並且到 2026 年 3 月左右，「我們可能處於一個 AI 基本上編寫所有程式碼的世界」。
^([18])
我的理解是，「90% 的程式碼將由 AI 編寫」這一預測並未實現，儘管情況有些複雜。我在這裡對此進行了更多討論。

無論如何，我認為「AI 編寫程式碼的比例（行數）」並不是一個很好的指標：它很難解讀，因為 AI 編寫的行數比例與 AI 增加有用產出的程度之間沒有明確的關係。例如，Anthropic 的員工表示，根據 Sonnet 4.5 系統卡中的一些結果，儘管 AI 編寫了相當高比例的程式碼（可能佔提交程式碼的大多數，在單次使用腳本等方面的比例更高），但 Claude 僅將他們的速度提高了 20-40%。而「AI 基本上編寫所有程式碼」與一系列在生產力影響上各異的可能性是相容的。

遺憾的是，Anthropic（和 Dario）尚未（據我所知）針對如果他們關於 2027 年初出現強大 AI 的預測是正確的，那麼到 2026 年初預計會發生什麼做出任何其他預測。如果他們能做出一些預測就太好了。在缺乏這些預測的情況下，我將嘗試建立這一觀點的「稻草人」版本（譯註：此處應指「最強版本/Steelman」），並討論在這一觀點下，我們應該預期在各個時間點發生什麼。我將假設他們預期的是相當平滑/連續的進展，而不是因為預期會有巨大的演算法突破或其他會導致進展大幅跳躍的事情，才預測 2027 年初會出現強大 AI。因此，我們應該能夠從 2027 年初出現強大 AI 往回推導出較早期的預測。

一個 Anthropic 可能預期的擬議時間線

我將首先勾勒出一個時間線，其中強大 AI 發生在 2027 年開始後不久（假設在 2027 年 3 月初完全完成訓練），並包含一些可能的預測。值得注意的是，如果他們的觀點是 2027 年初出現強大 AI 的機率（大於）50%，那麼想必這個機率分佈至少是分散的，且他們認為在 2027 年之前發生的機率也相當大。相應地，我勾勒的時間線相對於他們的預期而言，在激進程度上大概處於中位數（假設他們確實認為 2027 年初出現強大 AI 的機率 >50%），而他們必然對更激進的時間線（即強大 AI 在 2026 年 10 月之前發生，距今約 11 個月）抱有相當大的權重（推測 >25%）。

我將從 2027 年 3 月初完成強大 AI 訓練開始往回推導。我生成此時間線的主要方法是採用 AI 2027 場景中的時間線，然後將其壓縮至 60% 的時間，以應對我們目前落後於 AI 2027 對 2025 年底預測的事實，以及在 AI 2027 場景中強大 AI 出現的時間比 2027 年 3 月稍晚。我在「附錄：推導與 Anthropic 預測一致的時間線」中進一步解釋了我的過程。

圖 1：我繪製了擬議時間線中 AI 能夠自主完成的 AI 公司內部工程任務時長的預測，並結合了基於 METR 時間跨度數據對該數值的歷史估計。雖然這些估計基於 METR 的數據，但估計的對象並不相同（內部工程任務而非基準測試結果），因此數值有所偏差。我通過乘以 0.5，將 METR 的時間跨度轉換為對「內部工程任務時間跨度」的猜測。
^([19])
如果這在未來仍然是一個合理的近似值（且現在也是），那麼可以通過將未來 50% 可靠性的時間跨度乘以 0.5 並進行比較來測試這些預測。

這是一個定性的時間線（倒推）：

2027 年 3 月：強大 AI 建成（見上文的操作化定義）。達到這一里程碑需要如時間線早期部分所述的 AI 研發進展的大幅加速。
2027 年 2 月：AI 現在可以完全（或幾乎完全）自動化 AI 研發。由於這種自動化，AI 研發進展快得多，甚至在完全自動化之前就已經有了大幅加速。AI 在 AI 研發以外領域的表現略微滯後，但隨著 AI 加速 AI 開發，AI 在某些領域表現良好所需的數據量正在迅速減少（這既歸功於通用學習能力，也歸功於特定領域的適配），且 AI 也在加速獲取相關數據的過程。
2026 年 12 月：AI 現在可以完全（或幾乎完全）自動化研究工程，並且能以比人類快得多、規模大得多的方式完成工作。
^([20])
這需要修補 AI 技能組合中剩餘的漏洞，但在 AI 勞動力的加速下，這可以迅速發生。AI 研發大幅加速，且這種加速從此處開始顯著提升，使我們能夠在短短 3.5 個月後迅速達到強大 AI。在此之前不久（或許在 10 月或 11 月），AI 變得能夠通常完成大規模、從零開始、易於檢查的軟體專案，例如用 C 語言從頭重新實現 Rust 編譯器，並達到類似的性能（在編譯時間和執行檔性能方面）。
^([21])
2026 年 9 月：研究工程師現在被加速了約 5 倍
^([22])
，其他類型的工作也開始從 AI 自動化中顯著獲益。在大多數情況下，AI 能成功完成（隨機抽樣的）
^([23])
AI 公司內部的工程任務，而這些任務原本需要優秀的人類工程師花費數月時間；且 AI 能完成絕大多數（90%）需要幾週時間的任務。這些數字假設我們對比的人類工程師沒有任務的特殊背景資訊，但具備完成任務所需的技能組合。
^([24])
AI 仍然無法完成許多只有最優秀的軟體工程師才能在一週內完成的任務，且其技能組合中仍有一堆漏洞，阻礙了即使是相當小的任務的完美可靠性。但它們現在非常擅長察覺自己何時失敗或將無法完成某項任務。因此，只需少量的管理，它們就能在功能上自動化初級研究工程師的工作（儘管它們在少數地方需要人類員工通常不需要的幫助，但在速度和其他維度上比人類員工好得多）。
2026 年 6 月：研究工程師被加速了近 3 倍。當被賦予相當困難但相對獨立的任務時，例如「為 Amazon 開發的 AI 晶片 Trainium 編寫一個高效且生產就緒的 Deepseek V3 推論棧」，AI 通常能成功。
^([25])
AI 在通常需要員工花費 2 週時間的工程任務上，大部分時間都能成功；在需要一兩天的任務上，絕大多數時間都能成功。AI 現在在 AI 公司內部小型（例如 30 分鐘）、獨立且相對易於檢查的任務上極其可靠，儘管尚未完全完美；即使給予人類工程師更多時間（例如 1 週），AI 在這類任務上的可靠性也高於絕大多數人類工程師。
2026 年 3 月：研究工程師被加速了 1.8 倍。AI 在原本需要工程師花費一天的任務上，大部分時間都能成功，而在特別獨立且易於檢查的任務上表現更佳。例如，AI 通常能成功地在公司實際的程式碼庫中自主進行顯著的端到端訓練或推論優化（在人類專家能在幾天內達到類似優化水平的情況下）。
^([26])
AI 已獲得大量程式碼庫背景資訊，使其能夠相當可靠地「零樣本」（zero-shot）完成那些非常熟悉相關程式碼庫的人也能零樣本完成的小型獨立任務。工程師已經學會如何更好地與 AI 合作，並避免了先前拖慢進度的 AI 增強型軟體工程中的許多生產力問題，且由上而下的努力已成功將此推廣到全公司。現在，人類手動編寫的程式碼非常少，而是在管理 AI。
2025 年 10 月：研究工程師或許被加速了 1.3 倍。這就是現在。（這個生產力乘數比我現在預期的要高一些，但或許符合 Anthropic 的預期？）

這是一個定量的時間線。請注意，這個時間線涉及的生產力乘數高於我在給定能力/自動化水平下的預期，但我認為這與 Anthropic 的預期更一致。

日期	定性里程碑	工程乘數 ^([27])	AI 研發乘數 ^([28])	內部工程任務的 50%/90% 可靠性時間跨度 ^([29])
2027 年 3 月	強大 AI	600x	100x ^([30])	∞/∞
2027 年 2 月	AI 研發完全自動化	200x	35x	∞/∞
2026 年 12 月	研究工程完全自動化	50x	6x	∞/∞
2026 年 9 月	絕大多數已自動化	5x	2x	10 個月 / 3 週 ^([31])
2026 年 6 月	大多數工程已自動化	3x	1.5x	2 週 / 1.5 天
2026 年 3 月	大規模 AI 增強	1.8x	1.25x	1 天 / 1 小時
2025 年 10 月	顯著 AI 增強	1.3x	1.1x	1.5 小時 / 0.2 小時 ^([32])

我專注於加速工程（進而日益加速 AI 研發），因為我認為這是 Anthropic 觀點的關鍵部分，同時也相對容易追蹤。加速和自動化工程也是我觀點中的關鍵，儘管可能不那麼核心。

為什麼 2027 年初出現強大 AI 對我來說似乎不太可能

如前所述，我認為 2027 年初出現強大 AI 的機率約為 6%，因此非常不可能。
^([33])
（我認為這麼快實現強大 AI 可能需要一項演算法突破，導致 AI 進步速度遠快於當前趨勢。
^([34])
）需要明確的是，這個機率仍然高到令人非常擔憂！

趨勢顯示需要更長時間

我認為這不太可能的主要原因是，這需要比各種趨勢所顯示的快得多的進展。

METR 的研究證明，在 AI 能夠完成一半時間的軟體工程任務長度方面，存在一個相當長期的指數增長趨勢。
^([35])
這一趨勢預測，到 2026 年底，AI 將能夠在大約 50% 的時間內完成 METR 任務套件中需要 16 小時的易於檢查的基準測試型任務，並在大約 80% 的時間內完成需要 3 小時的任務。雖然 METR 的任務套件並不完美，但我的理解是，在其他至少有些現實的軟體工程任務分佈中（包括人們嘗試使用 AI 輔助工作），我們觀察到大致相似或更低的時間跨度。天真地想，我預計 AI 在 AI 公司內部隨機選擇的工程任務上的表現，會比在 METR 任務套件上的表現差得多。（為了獲得任務的人類耗時，我們看公司工程師在沒有特殊背景但具備相關技能的情況下需要多長時間。）因此，趨勢外推預測 2026 年 12 月的情況遠不如上述時間線（研究工程完全自動化）那麼激進，更廣泛地說，趨勢預測強大 AI（發生在工程自動化之後）還很遙遠。

圖 1（見上文）顯示了擬議的時間線如何要求遠超趨勢的進展。

其他趨勢也支持我們不太可能在 2027 年初看到強大 AI。這是基於 AI 用途和基準測試的定性外推（也就是說，感覺再過一年左右的進展不足以讓我們如此接近強大 AI）。我還認為，比自動化 AI 公司內部工程簡單得多的基準測試（例如 SWE-bench、RE-bench、terminal-bench）的天真基準測試外推看起來可能還需要一年或更長時間才能飽和。我預計在飽和這些簡單基準測試與完全自動化 AI 公司工程之間存在巨大差距（按目前的進展速度，不到一年似乎不太可能，幾年似乎是合理的）。

我對「趨勢外推會低估進展」論點的反駁

對這些趨勢外推的一個可能反對意見是，你預計 AI 研發在工程完全自動化之前就會大幅加速，從而導致超出趨勢的進展。我對這一論點持懷疑態度，正如我在之前的文章中所討論的。簡而言之：在導致 AI 進步速度發生巨大變化之前，AI 可以大幅提高工程速度，而要讓這在 2027 年初產生強大 AI，你確實需要相對較快地獲得非常巨大的加速。

需要明確的是，我確實認為強大 AI 的時間線會因為 AI 研發自動化大幅加速進展的可能性而縮短；我只是認為，我們只有在更高、更遙遠的能力水平上才能看到巨大的加速。（這種巨大的加速並非保證，但在我看來很有可能，這使得更短的時間線更有可能發生。）

另一個可能的反對意見是，我們還沒有做好擴展強化學習（RL）的優質版本，一旦人們在明年年初弄清楚這一點，我們將看到超出趨勢的進展。我在另一篇文章中反駁了這一點。

另一個反對意見是，你預計時間跨度趨勢中存在固有的超指數性，並且你預計這將在未來 12 個月內強烈發揮作用（推測在 2 小時到 8 小時的 50% 可靠性時間跨度之間），從而在 2026 年底實現研究工程的完全自動化。這需要非常強大的超指數性，且幾乎完全在接下來的兩次翻倍中發揮作用，因此在我看來不太可能。我認為這可以通過一些過度擬合的參數與歷史趨勢大致保持一致，但它仍然要求在時間跨度曲線的一個非常小（且特定！）的部分內偏離更簡單且更符合歷史趨勢的擬合。

另一個反對意見是，你預計會有一項巨大的演算法突破，導致在 2027 年之前出現遠超趨勢的進展。這是一個關於進展快於預期的非常具體的說法，所以我預設持懷疑態度。我認為一些實質性的進展已經被計入現有的趨勢中。基準率（base rate）也不高：在 AI 領域，重大的（打破趨勢的）突破發生率似乎很低，至少在軟體工程自動化方面是如此（更像是每 10 年一次，而不是每隔幾年一次）。
^([36])

我最近聽到的另一個我比較同情的反論點大致如下：

聽著，就在 1.5 年前，AI 基本上完全無法進行代理式（agentic）軟體工程。
^([37])
而現在，它們在各種代理式軟體工程方面其實都還不錯。這是一個瘋狂的進步速度，當我進行定性外推時，在我看來，再過 1.5 年左右，AI 就能自動化工程。我並不真的買帳這個時間跨度趨勢或其他趨勢。畢竟，你能提到的每個具體基準測試似乎都會在一兩年內飽和，而你的論點依賴於使用我不買帳的抽象概念（如時間跨度）來外推這些基準測試之外的情況。此外，公司還沒有真正針對時間跨度進行優化，所以一旦它們讓 AI 在短跨度任務上成為不錯的代理（這已經很接近了），它們就會明確地優化讓 AI 擅長完成更長跨度的任務，這將會迅速發生。畢竟，當我看著這些 AI 時，它們似乎已經很接近了，而一年的進展真的很多。

我對這種懷疑趨勢外推的觀點有些同情，因為 AI 認真從事代理式軟體工程的時間還不長（要獲得更長期的趨勢，需要觀察那些幾乎無法進行代理式軟體工程的模型）。更廣泛地說，我們不應該把太多權重放在「時間跨度抽象是外推的好方法」上（例如，該趨勢僅在短時間內做出了預測，且在發現這種趨勢時的選擇效應可能很顯著）。這促使我變得更加不確定，並在「到 2026 年底 AI 將大幅（>10 倍）加速 AI 公司工程」的情境中放入更多權重。
^([38])

即便如此，即使 AI 在 2026 年底完全自動化了 AI 公司的工程，我仍然認為 2027 年初出現強大 AI 的機率小於 50%。更廣泛地說，我認為有理由預期會有額外的延遲，正如我將在下一節討論的那樣。

天真地將趨勢外推至工程完全自動化，然後預期緊接著出現強大 AI，這可能過於激進

一種預測策略是假設一旦 AI 能可靠地完成數月的任務，就能完全自動化工程，使用 METR 趨勢外推到這一點，然後預期在此之後不久出現強大 AI。我認為這會導致過於激進的預測。我實際上是在將這種策略作為強大 AI 最早何時出現的寬鬆/近似下限，但我認為有充分理由認為事情可能需要更長時間。

一個重要因素是，METR 任務套件上的時間跨度可能大幅高於在實踐中圓滿完成 AI 公司內部（可能很混亂的）現實世界任務的時間跨度。（例如，參見這裡和這裡。）一個複雜因素是，AI 可能會被特別優化以擅長 AI 公司內部的任務（通過在 AI 公司的程式碼庫上微調 AI 以及將 RL 重點放在 AI 研發任務上等機制）。

另一個相關因素是，時間跨度是相對於相當優秀的人類軟體工程師測量的，但不是相對於最優秀的人類研究工程師。完全自動化工程需要擊敗最優秀的人類工程師來完成最困難的任務，甚至僅僅是大幅加速整體工程（例如提高 10 倍）也可能需要同樣的能力。部分原因是某些任務比其他任務更難（至少對人類而言），需要更優秀的工程師才能完成，或者至少是在合理的時間內完成。因此，相對於普通人類工程師的 50% 可靠性時間跨度，可能仍然意味著在同樣的時間跨度內，AI 在困難任務上的表現遠遜於 AI 公司中最優秀的研究工程師。一般來說，AI 從擊敗普通人類專業人士到擊敗所有人類專業人士，往往需要一段時間（即一年以上）。

我還預計自動化會出現「最後一哩路」問題，需要投入大量精力讓 AI 擅長那些它仍然不擅長、但自動化工程、AI 研發或其他職業所需的剩餘事項（這可能已經計入像 METR 時間跨度趨勢這樣的趨勢中
^([39])
，也可能沒有）。另一種說法是，完全自動化可能需要一個相當長尾的技能/能力（這些技能在大多數中等長度的任務中並非必需），而使用現有方法讓 AI 擅長這些技能特別困難。這意味著在「AI 幾乎可以完成工程中的所有事情，並且可以做許多極其令人印象深刻的事情」與「AI 可以完全或幾乎完全自動化 AI 公司的工程」之間可能存在實質性的差距。我確實認為，由於 AI 通過部分自動化（特別是工程的部分自動化，但比這更廣泛）加速了 AI 研發，這一差距將比你預期的更快被跨越。然而，即使是讓工程師效率有效提高 10 倍的部分工程自動化（一個相當高的里程碑！），可能也只能讓 AI 進步速度加快約 70%。
^([40])

我還認為，在完全自動化工程與強大 AI 之間存在相當大的差距（例如 >1 年）是相當可能的，儘管我同情那些認為不會有大差距的論點。要讓強大 AI 在完全自動化工程後不久出現，主要故事將是：你在完全自動化工程後不久就實現了 AI 研發的完全自動化（因為所需的進一步進展很小，且/或完全自動化工程極大地加速了 AI 進步），並且 AI 研發的完全自動化允許迅速獲得幾乎能做任何事情的 AI（這是上述定義的強大 AI 所要求的）。但是，這個故事可能無法實現，我們可能在 AI 公司工程的完全或幾乎完全自動化與強大 AI 之間還有一段時間（1-4 年？）。

我的預期

下表將我對 2026 年的定量預測，與上文給出的與 Anthropic 預測一致的擬議時間線進行了對比：

日期	擬議：工程乘數	擬議：內部工程任務 50%/90% 可靠性時間跨度	我的：工程乘數	我的：內部工程任務 50%/90% 可靠性時間跨度
2026 年 12 月	50x	∞/∞	1.75x	7 小時 / 1 小時
2026 年 9 月	5x	10 個月 / 3 週	1.6x	5 小時 / 0.75 小時
2026 年 6 月	3x	2 週 / 1.5 天	1.45x	3.5 小時 / 0.5 小時
2026 年 3 月	1.8x	1 天 / 1 小時	1.35x	2.5 小時 / 0.35 小時
2025 年 10 月	1.3x	1.5 小時 / 0.2 小時	1.2x	1.5 小時 ^([41]) / 0.2 小時

圖 2：我的預測與擬議時間線預測的對比。請注意，基於 METR 數據的歷史值是對該數值的估計（詳見圖 1 說明的腳註）。

我的定量預測主要是嘗試外推趨勢。這對於 50%/90% 可靠性時間跨度來說最容易，因為我們對翻倍時間有一定的了解。
^([42])

值得注意的是，我的預測很快就開始與我之前給出的在 2027 年 3 月產生強大 AI 的擬議時間線產生巨大偏離。因此，如果我的時間線能合理刻畫 Anthropic 的觀點，那麼在整個 2026 年應該可以進行相當程度的修正。

至於更定性的預測，我通常預計 2026 年 12 月的情況會類似於我在上述擬議時間線（即符合 Anthropic 預測的時間線）中對 2026 年 3 月的描述。（我通常預計進展速度比符合 Anthropic 預測的擬議時間線慢大約 3-4 倍，至少在未來一兩年內以及在 AI 研發大幅加速之前是如此。）

我們在 2026 年應該做出哪些修正？

如果發生了類似我對 2026 年的中位數預期

假設我們在 2026 年看到的進展大致符合我的預期（中位數結果），即到 2026 年底，AI 能夠顯著加速 AI 公司的工程（提高 1.75 倍！），並且通常能執行接近一整天的任務。
^([43])
各方應該如何修正觀點？

我可能會轉向稍微更長的時間線
^([44])
，並降低看到快於趨勢進展的機率（在 AI 研發大規模自動化之前，例如接近研究工程的完全自動化）。這將使我在 2029 年之前看到 AI 研發完全自動化的機率降低不少（因為這可能需要快於趨勢的進展）。
^([45])
然而，我也會轉向認為當前範式將繼續以相當快的速度進步，這將推動我預期在當前範式下 15 年內（且很可能在 10 年內）出現強大 AI。

Anthropic 應該如何修正？我認為這將相當劇烈地證偽他們目前的觀點，因此他們應該轉向投入更多權重去弄清楚該外推哪些趨勢，特別是外推像時間跨度趨勢這樣的東西，並且總體上變得更保守一些。他們也應該承認自己的預測是錯誤的（並希望對他們現在對未來的預期做出更多預測，以便他們的觀點清晰）。到 2026 年底，他們應該很清楚自己將會出錯（基於他們掌握的資訊），而且很可能他們能更早（2026 年年中甚至現在？）獲得其預測錯誤的實質性證據。

在實踐中，判定我預測的各個面向（例如 AI 公司工程師的加速倍數）可能會很棘手。

如果到 2026 年 6 月為止，發生了類似擬議時間線（2027 年 3 月出現強大 AI）的情況

如果在 2026 年 6 月，AI 將研究工程師加速了約 3 倍（或更多），並且通常能成功完成 AI 公司內部為期數週的任務（或大致如此），那麼我會激進地轉向更短的時間線，儘管我對強大 AI 的中位數預測仍會在 2027 年初之後。這是我對自己將如何修正的猜測（儘管確切的修正取決於其他細節）：我會預計到 2026 年底 AI 可能會極大地加速工程（可能 >10 倍），我會有大約 20% 的機率認為到 2027 年初（5 月前）實現 AI 研發完全自動化，而我對 AI 研發完全自動化的中位數預測可能會提前到 2029 年年中左右。（我可能會給 2027 年初出現強大 AI 分配 15% 的機率，2028 年年中分配 25%，2031 年初分配 50%，儘管我對專門預測強大 AI 的思考較少。）

我並不確切知道 Anthropic 應該如何修正，但想必在他們目前的觀點下，他們應該對自己目前的看法獲得更多信心。

如果 AI 進步明顯慢於我的預期

AI 進步在 2026 年顯然更慢，或者我們判定即使到 2026 年底 AI 也沒有認真加速 AI 公司的工程師（甚至可能拖慢了他們），這看起來是合理的。在這種情況下，我會轉向更長的時間線，並認為短期內不會看到強大 AI 的機會更高。想必 Anthropic 的修正應該比我的預期發生時更為劇烈。（這也有可能對應 AI 公司的嚴重財務問題，儘管我猜測即使進步比我預期的稍慢，也足以維持高水平的投資。）

如果 AI 進步明顯快於我的預期，但慢於擬議時間線（2027 年 3 月出現強大 AI）

如果進步比我預期的快一些，我會轉向認為 AI 進步的加速比我預期的更早、程度更大（即在我的趨勢/指標中表現為加速；如果你追蹤的是正確的底層指標，它可能不會被理解為加速）。我通常會轉向更短的時間線，並認為當前範式（或類似範式）產生強大 AI 的機率更高。我認為 Anthropic 應該轉向更長的時間線，但這可能取決於細節。

附錄：推導與 Anthropic 預測一致的時間線

我將從 AI 2027 的時間線和起飛軌跡中提取一些內容，因為我的理解是這種起飛軌跡大致符合 Anthropic/Dario 的預期（至少在達到強大 AI 級別的能力之前，Anthropic 可能預期更慢的工業起飛）。即使他們拒絕 AI 2027 起飛軌跡的其他面向，我認為要看到 2027 年初出現強大 AI，極大加速 AI 研發（或某種其他類型的自我改進循環）是非常必要的，因此至少可以安全地假設 AI 2027 軌跡的這一面向。（希望 Anthropic 注意到他們關於時間線的觀點也意味著極高機率會發生激進的純軟體智慧爆炸，並且他們在計劃中考慮到了這一點！）

根據我之前的操作化定義，強大 AI 比 AI 2027 中使用的「超人類 AI 研究員」（Superhuman AI Researcher）概念更強大，但比「超人類遠端工作者」（Superhuman Remote Worker）概念稍弱。我會說強大 AI 介於這兩種能力之間，而在 AI 2027 場景中，這個中間點發生在 2027 年 9 月。我們需要相對於 AI 2027 大幅壓縮這個時間線，因為我們預計這將發生在 2027 年 3 月而不是 9 月（提前 6 個月），而且我們目前看到的能力水平（截至 2025 年 10 月）可能稍微落後於 AI 2027 場景（我認為大約落後 4 個月
^([46])
）。這意味著該時間線花費的時間約為 AI 2027 的 60%。
^([47])

在 AI 2027 中，「超人類程式設計師」級別的能力在強大 AI 出現前 6 個月達到，因此在我們的時間線中這將是 2027 年 3 月前的 3.5 個月。從這裡開始，我往回推導，填入相關里程碑以內插到超人類程式設計師，並假設進步隨時間推移而加快。在調整確切數字和細節時，我加入了一些個人見解。

最近（事實上是在我最初起草這篇文章之後），OpenAI 表達了在 2028 年 3 月實現自動化 AI 研究的預測/目標。具體來說，Jakub Pachocki 表示：「……預見到這一進展，我們當然會在內部圍繞它制定計劃。我們希望在思考過程中提供一些透明度。因此，我們想採取這個可能有些不尋常的步驟，分享我們對這些非常強大系統的內部目標和目標時間線。而且，你知道，這些特定的日期，我們絕對可能會錯得很離譜。但這就是我們目前的思考方式。這就是我們目前規劃和組織的方式。」目前尚不清楚 OpenAI 對這一預測表達了多少信心，以及它在多大程度上是一個預測而非僅僅是一個雄心勃勃的目標。我在本文中討論的論點大多也適用於這一預測。↩︎
在這篇文章中，我經常將 Anthropic 作為一個實體來談論（例如「Anthropic 的預測」、「Anthropic 認為」等）。我當然明白 Anthropic 並不是一個擁有連貫信念的單一統一實體，但我仍然認為這樣談論是合理的，因為 Anthropic 有表達「官方」預測的產出，而且 Dario 在許多方面代表並領導著該組織，且他本人確實擁有信念。如果你願意，可以想像在本文中我將 Anthropic 作為實體提及的地方，用「Dario」替換「Anthropic」。↩︎
事實上，除了 Jack Clark 和 Dario 之外，我不知道 Anthropic 還有誰的時間線這麼短，儘管我認為許多人預期時間線只會稍長一些，且本文的討論仍然適用於稍長的時間線。↩︎
Dario/Anthropic 有可能已經轉向更長的時間線，但如果是這樣，目前還沒有公開證據。↩︎
為了簡潔起見，我刪減了幾條看起來相關性較低的要點。↩︎
我不清楚 Dario 的意思是 AI 執行的任務原本需要經驗豐富的人類花費數小時/數天/數週，還是 AI 在沒有人類參與的情況下自主工作數小時/數天/數週（考慮到 AI 在擅長的任務上可能比人類工作得更快，這可能完成範圍大得多的任務）。↩︎
我通常會針對更具體的里程碑進行預測，例如「具備完全自動化 AI 研發能力的 AI」，但在本文中我將堅持使用「強大 AI」。↩︎
至少是在數據和算力供應固定的情況下的 AI 進步，如果從物理世界收集數據很重要，AI 不一定能自動化這一過程。我對這是否如此重要持懷疑態度。我也認為 Anthropic 不認為這有那麼重要，至少我的猜測是，他們可能不認為為了達到極高水平的能力，必須花費大量時間獲取額外數據。↩︎
除了例如極少數情況下詢問人類如何解決優先事項之間出現的各種權衡。或者可能是人類極少參與，且不會實質性地瓶頸進展。↩︎
也許 Dario 意指的「比諾貝爾獎得主更聰明」並不包括大型公司內部的認知多樣性，而他同時認為這種認知多樣性對於 AI 進步或其他科學領域的進步至關重要。在這種情況下，AI 將能夠自動化任何特定的工作，但如果沒有大量人類幫助，就無法自動化整個公司。我將假設這不是 Dario 的意思，因為這與使用「資料中心裡的一個天才國家」一詞不相稱。↩︎
我將「2027 年初」解讀為「2027 年的前三分之一內」，但我們也可以寬容地將「2027 年初」解讀為「2027 年上半年內」。↩︎
這是因為賦予 AI 相關知識來完成這些工作可能需要一些時間，且擴散可能不會發生得那麼快（而我預計 AI 公司會盡其所能儘早嘗試自動化 AI 研發）。（如果 AI 最終的能力遠超自動化大多數相關領域科學研發所需的能力，那麼仍然可以很容易地迅速做出判定。）↩︎
值得釐清的是，Anthropic 做的預測（據我所知）並不是強大 AI 一定會在 2027 年初對外部署（它們可以被秘密保存在 AI 公司內部），但我目前預計無論如何，在短時間內都會有這些能力的強大公開證據。這既是因為我預計強大 AI（或至少接近強大 AI 的系統）會在短時間內對外部署，而且即使沒有對外部署，我們也可能通過其他途徑（例如導致可靠證據的透明度）獲得強有力證據。↩︎
當我說將研究工程加速 2 倍時，我的意思是「對研究工程活動的加速對公司而言，其價值相當於讓所有研究工程師在從事相當核心的研究工程工作（包括他們工作中非編碼的部分，如高層軟體設計和會議，儘管 AI 不一定非要加速工作的每個部分才能達到整體 2 倍的提升）時的速度提高 2 倍」。請注意，將研究工程加速 2 倍所導致的整體 AI 進步加速遠低於 2 倍。參見這裡的討論。這也不同於我在此處定義的 AI 研發勞動力加速概念（連結文章中討論的概念是一個更廣泛的概念，包括所有勞動力，而不僅僅是工程）。另外，請注意，當我說「研究工程加速 2 倍」時，我的意思是「對最能被描述為研究工程工作的事物（但仍包括這些工作中混亂的面向，例如不僅僅是字面上的編碼）加速 2 倍」。↩︎
我還預計到 2027 年初（2027 年 5 月初），AI 公司的年化收入將達到約 1000 億美元，且 AI 公司之外的軟體工程有相當大比例將發生實質性變革，儘管程度低於 AI 公司內部。↩︎
奇怪的是，Anthropic 在關於向 OSTP 提交建議的部落格文章中，說法比在其他地方要強硬得多：「正如我們的執行長 Dario Amodei 在《Machines of Loving Grace》中所寫，我們預計強大的 AI 系統將在 2026 年底或 2027 年初出現」。Dario 在《Machines of Loving Grace》中並沒有這麼說，相反，他給出了一個實質上較弱的陳述：「我認為它最早可能在 2026 年出現，儘管也有可能需要更長的時間。」此外，在他們實際提交給 OSTP 的文件中，他們說：「基於目前的研究軌跡，我們預計強大的 AI 系統可能最早在 2026 年底或 2027 年出現。」這也較弱。提交給 OSTP 的文件確實說過「強大的 AI 技術將在本屆政府任期內建成」，這意味著在 2029 年 1 月之前出現強大 AI 的機率相當高（也許 80%？），因此到 2027 年年中（僅早 1.5 年）的機率也相當大，儘管這可能與認為 2027 年初出現強大 AI 僅是「可能」（例如 25% 的機率）相一致。↩︎
如果相關支持者能做出中期預測（例如針對 2026 年初/年中），並且在這些預測被證偽的情況下予以承認，我也會感到更有同情心（並對相關人員的觀點保留更多權重）。請注意，即使與更短時間線一致的中期預測被證偽，也不一定會導致（大幅）延長時間線，因為可能會有其他更強大的修正指向更短的時間線。↩︎
完整引文為：「我認為我們將在三到六個月內達到那個目標——AI 編寫 90% 的程式碼。然後在十二個月內，我們可能處於一個 AI 基本上編寫所有程式碼的世界。」↩︎
由於 METR 並不直接測量相對於 AI 公司工程師的內部工程任務時間跨度（而是在其任務套件上以承包商為人類基準進行測量），我們需要轉換這些數值。我通過乘以 0.5 來做到這一點，這是我對給定模型在這些數字之間對應關係的猜測，至少在過去 6 個月左右是如此。（這與 10 月份內部任務 50% 可靠性時間跨度 1.5 小時的初始值一致。）目前還不清楚未來這些數字之間的對應關係將如何變化。↩︎
這對應於 AI 2027 中的「超人類程式設計師」能力水平。↩︎
並且完成這些專案的速度比小型人類團隊快約 30 倍，這使得這成為一個有些可行的基準測試。↩︎
如前所述，當我這麼說時，我的意思是「研究工程師的生產力相當於他們在從事研究工程工作（包括會議等非編碼活動，儘管 AI 不必加速工作的所有面向即可實現 5 倍的整體加速）時的速度提高了 5 倍」。我不一定是指他們的產出增加了 5 倍，因為這在某些情況下可能取決於算力等其他投入。↩︎
將任務分解為較小的任務然後進行抽樣可能會很混亂。我將忽略這些細節，並假設存在某種合理的選擇。↩︎
儘管如此，對於這個時間線，在 2026 年 9 月這個時間點，AI 可以快速且輕鬆地獲取相關背景資訊。↩︎
一個更通用的操作化定義是：AI 可以在現有程式碼庫的背景下，利用現有示例和該新 AI 的另一種（針對不同硬體的）可探測實現，為一個新的（架構有重大差異的）AI 實現生產就緒的推論，且這些 AI 達到的性能（和穩定性等）與經過良好優化的人類實現相似。該實現需要能夠按原樣合併，但不一定需要處理實際完全可部署的問題。↩︎
也許我們可以將其操作化為：在人類基本完成推論/訓練實現並實施了良好的正確性測試後，AI 對實現的改進程度能達到專家級人類在幾天內所能達到的程度，且其 PR 至少與典型的人類 PR 一樣可合併，成功率超過一半。↩︎
AI 對工程生產力的提升相當於公司工程師工作速度提高了 X 倍。例如，10 倍意味著其效果相當於所有工程師的思考、打字、談話等速度都提高了 10 倍。↩︎
我使用的是與 AI 2027 相同的 AI 研發乘數概念。即在給定時間點的算力和人類勞動力基礎上，演算法進步對報酬遞減前的乘數。請注意，這不是整體 AI 進步的乘數，整體進步還受到擴展算力和擴展數據支出的驅動。我也在很大程度上基於 AI 2027 的這些數字，但假設了基於 Anthropic 預測更快起飛的更激進數字。我個人預計乘數會更低。↩︎
這是針對公司內部隨機抽樣的工程任務，與具備相關技能但沒有特殊背景的典型/正常工程師進行比較。我同時給出了 50% 可靠性數值和 90% 可靠性數值。↩︎
Anthropic 有可能預期強大 AI（以及 AI 研發的完全自動化）帶來的 AI 研發加速較少，而是預期從「研究工程完全自動化」到「強大 AI」所需的額外努力並不多。我通過假設 Anthropic 認為加速會比 AI 2027 預測的更激進（以符合其更激進的預測）來引入 AI 研發加速數字。我個人預計乘數會更低。↩︎
我暫且認為，當 AI 是非常強大且優秀的長跨度代理、但仍有一些事情做不到時，50% 和 90% 可靠性之間的差距會增加。這是因為有許多非常長/大的任務至少有些專業化，或者至少避開了潛在的弱點，但在隨機抽樣任務時，大量任務仍會觸及弱點。（另一種說法是，任務在所需技能組合上會有所聚集，許多/大多數大任務的多樣性不足以觸及 AI 的所有弱點。）↩︎
目前內部工程任務的 90% 可靠性時間跨度實際上可能大幅降低，這是有可能的；我對這個數字沒有強烈的看法，它可能受到當前 AI 非常不擅長的一小部分任務的驅動。我不認為這會對預測產生巨大影響。↩︎
這是我在考慮了預測極短時間線的人員觀點（包括 Dario/Anthropic 的預測權重）後的看法。↩︎
需要明確的是，這項演算法突破很可能涉及擴展某種需要收集新型數據的新型訓練。（例如，參見最近在 RLVR 方面的進展。）因此，雖然突破必須是演算法上的才能足夠快，但進步也可能涉及大量數據收集和擴展訓練工作，這些工作在一段較長的時間內發生，從而平滑了進展（儘管這必須發生得相當快）。一般來說，我猜測大型突破往往會因為迭代和弄清楚如何最好地利用新事物而在一段時間內被平滑掉。↩︎
從 GPT-3.5 開始計算該趨勢是合理的，在這種情況下趨勢大約有 3.5 年；或者從 GPT-2 開始，在這種情況下趨勢大約有 6.75 年。（對 GPT-2 和 GPT-3 的測量較為可疑，所以我傾向於忽略這些模型。）↩︎
也有充分理由認為，隨著 AI 領域的發展，導致超出趨勢進展的重大突破/範式轉變的發生率應該隨時間下降。這是通過大數法則實現的；然而，研究進展可能是厚尾分佈，這使得該論點變得複雜。↩︎
Sonnet 3.5 是在 1.5 年前發布的，我將其稱為第一個能稍微進行代理式軟體工程的 AI。↩︎
我認為到 2026 年底，「使用 AI 加速工程的效果相當於讓公司所有工程師的速度提高 >10 倍」的機率約為 15%。↩︎
它可能已經被計入時間跨度趨勢中，因為越來越長的任務需要能夠完成越來越困難且多樣化的子任務。參見這裡對該觀點的討論。即使它已經被計入，這確實意味著你可能只有在達到令人驚訝的高時間跨度時才能實現工程的完全自動化（而不是在趨勢中看到固有的超指數性）。例如，也許當趨勢預測 AI 能可靠地完成從 AI 公司內部混亂任務分佈中選出的長達一年的任務時，你才能實現完全自動化。這是因為長跨度對應於解決了最後的最後一哩路問題。↩︎
參見這裡的討論，以及該文章的其餘部分中更廣泛的論點。↩︎
我預計會略低於 1.5 小時，但如果我將我的預測初始值對齊並使用相同的轉換因子，比較會最清晰。↩︎
儘管我們不一定知道 METR 任務套件（包含相對可基準測試的任務）上的表現與 AI 公司內部實際任務表現之間的轉換關係。這些在翻倍時間或初始時間跨度上可能有所不同。我還在觀察 90% 可靠性，而 METR 測量的是 80% 可靠性，儘管有一部分任務可能是無效/不可能完成的，這意味著 METR 任務套件上的 80% 可靠性在實踐中可能更接近 85% 左右。↩︎
到 2026 年底，METR 的任務套件可能因為沒有足夠的代表性分佈中的困難任務而不再有意義。無論如何，我們應該能夠通過其他基準測試和定性報告來了解 AI 在自主軟體工程方面的能力。↩︎
在中位數結果中，我預計會轉向更長的時間線，但這並不違反預期證據守恆，因為我有一定的機會轉向更短的時間線。（換句話說，我的修正分佈是不對稱的。）另見 Joe Carlsmith 關於可預測修正的部落格文章。↩︎
然而，我仍然認為在 2029 年之前實現 AI 公司內部工程的大規模自動化（加速工程 >5 倍）是完全可能的，這可能會帶來來自失調 AI 的實質性破壞風險。↩︎
AI 2027 預測 10 月份 AI 研發加速約為 1.25 倍，而我認為目前的加速可能更接近 1.1 倍或更低。就能力的定性描述而言，我們似乎有些落後，儘管落後得並不遠。↩︎
我們處於 AI 2027 軌跡中相當於 2025 年 6 月的位置，這是在 2027 年 9 月之前的 27 個月，而我們從這個軌跡中削減了 10 個月，這意味著軌跡是 (27-10) / 27 = ~0.6。↩︎

— Lesswrong

其他收藏 · 0