追趕型演算法進展可能每年高達 60 倍

追趕型演算法進展可能每年高達 60 倍

Lesswrong·

我分析了 2023 年至 2025 年間的 AI 模型,發現「追趕式」演算法進步(即達到特定能力水準所需的運算量減少)每年可能高達 16 到 60 倍,這比之前的估計要快得多。

認知狀態:這是一份可能存在重大錯誤的快速分析。我目前認為這裡有一些真實且重要的發現。我分享這份內容是為了徵求回饋,並在需要更新時告知他人,若有錯誤也希望能藉此學習。

摘要

關於演算法進步(Algorithmic Progress)的權威論文是由 Ho 等人(2024)撰寫的,他們發現從歷史上看,達到特定 AI 能力水準所需的預訓練算力每年約減少 3 倍。他們的數據涵蓋 2012-2023 年,且側重於預訓練階段。

在本篇文章中,我觀察了 2023-2025 年的 AI 模型,並發現根據我認為最直觀的分析,這段期間的「追趕式演算法進步」(catch-up algorithmic progress,包含後訓練階段)大約是每年 16 倍至 60 倍。

這種直觀分析的方法是:針對隨時間推移處於「訓練算力效率前沿」的模型畫出最佳擬合線,即在所有達到或超過某種能力水準的模型中,使用訓練算力最少的模型。我結合了 Epoch AI 對訓練算力的估計,以及 Artificial Analysis 智能指數(Intelligence Index)的模型能力評分。因此,每個能力水準都會從其擬合線產生一個斜率,這些斜率可以透過各種方式匯總,以確定整體的進步率。其中一種匯總方式是為每個能力水準分配主觀權重,並取能力水準斜率(以對數算力計)的加權平均值,得出演算法進步的整體估計:每年 1.76 個數量級,或算力效率提升約 60 倍,或者說達到特定能力水準所需的訓練算力減半時間為 2 個月。若看斜率的中位數,則為 16 倍,或減半時間為 2.9 個月。

基於這些證據和現有文獻,我對明年追趕式演算法進步的整體預期可能是 20 倍,80% 的置信區間為 [2倍–200倍],這比我最初想像的要高得多。

本文正文解釋了「追趕式」與「前沿式」演算法進步的區別,討論了數據分析和結果,以兩個 Qwen 模型作為常識檢查(sanity check),討論了現有的演算法進步估計,並在附錄中涵蓋了幾個相關主題。

我所說的「演算法進步」是什麼意思?

首先,讓我區分人們在討論「演算法進步」時關心的兩個不同概念:追趕速度,以及前沿領域的演算法效率提升。

追趕(Catch-up): 當一項能力首次使用 X 算力達成後,需要多長時間才能用 [少於 X 的某個量] 的算力達成該能力?方便的是,追趕速度可以直接使用相對簡單的指標來衡量:發布日期、基準測試分數和訓練算力估計。追趕速度影響 AI 能力的擴散/傳播,並間接反映了第二種演算法進步。

前沿領域的演算法進步定義較不明確。它探討的是:在給定的算力增長假設下,由於演算法的改進,AI 能力的前沿提升速度有多快?前沿效率或「有效算力」為 AI 研究自動化或智能爆炸的預測提供資訊;如果算力保持不變而研究投入激增,能力會提升多少?

Hernandez & Brown 對有效算力的定義如下:

我們認為最有用的概念是:想像一下,以浮點運算量(FLOPs)衡量,訓練 2018 年感興趣的模型,比將 2012 年的模型「擴展」(scale up)到當前的能力水準要高效多少。所謂「擴展」,我們指的是更多的算力、隨算力增加而增加的參數、避免過擬合所需的額外數據以及一些微調,但沒有更聰明的改進。

不幸的是,這並不容易衡量。它涉及一個反事實假設,即 2012 年有人大規模擴展了訓練算力。(如果他們真的那樣做了,那麼回過頭來看,我們衡量的就會是「追趕」速度!)常見的替代方案是經驗縮放定律(scaling laws):在 2012 年使用不同的算力但相同的數據集和演算法訓練一系列模型,比較它們的訓練算力和性能,並外推以估計它們在更多訓練算力下的表現。

有幾個因素會影響這兩個指標的相對速度。由於蒸餾(distillation)或合成數據,追趕速度可能會更快:一旦 AI 模型達到特定的能力水準,它就可以用來為較小的模型生成高質量的數據。追趕具有「快速跟隨者」或「概念驗證」效應:一家公司或一個項目實現了新的智能前沿,會讓其他所有人知道這是可能的,並激發跟進的努力(具體方法也可能被傳播)。另一方面,算力帶來的性能回報在前沿領域可能會迅速遞減。如果沒有更好的演算法,前沿能力的進步可能需要巨大的算力預算,這使得演算法效率成為一個特別大的進步乘數。然而,我不清楚這些回報在下游任務上遞減得有多嚴重(相對於語言模型損失,後者遞減非常劇烈)。參見例如 Owen 2024、Pimpale 2025 或 Llama-3.1 論文。

本篇文章討論的是「追趕式」演算法進步,而非前沿領域的演算法進步。

方法與結果

衡量追趕式演算法進步的直觀方法是:觀察隨著時間推移,訓練具有相似能力的模型使用了多少算力,然後觀察算力前沿的斜率。也就是說,觀察對於不同的能力水準,「達到該能力水準所需的最小算力量」隨時間變化的速度。

所以我這麼做了,並得到了 Claude 的大量幫助[1]。我使用 Epoch 的 AI 模型數據庫進行算力估計(儘管我做了一些修改以修正我認為的錯誤),至於能力,我使用 Artificial Analysis 的智能指數,這是 10 個廣泛使用的基準測試的平均值。這是最重要的圖表:

(圖表略)

以及隨附的表格:

結果表

能力閾值斜率 (log10/年)效率因子/年乘數/年主觀權重模型數量 (n)前沿模型數起始日期結束日期
51.2015.720.06458072023-03-152025-08-14
101.8570.020.01456732023-03-152024-04-23
151.0410.920.09285762023-03-152025-07-15
200.938.600.11695182023-03-152025-07-15
252.32210.240.00593972024-07-232025-07-15
301.2216.610.06083152024-12-242025-09-10
351.4125.910.03983052025-01-202025-09-10
401.2216.500.06182262025-01-202025-09-10
454.4829984.610.00081562025-02-172025-09-10
500.322.110.47301022025-08-052025-09-10
551.0511.250.0890622025-08-052025-09-22
600.7545.680.1760322025-08-052025-09-29
650212025-09-292025-09-29
平均值1.482531.510.099
加權平均1.763571.100.05168
加權對數轉換1.7657.100.018
中位數1.2116.100.062

核心結果: 根據一項合理的分析,過去兩年的追趕式演算法進步為每年 57 倍(算作 60 倍)。根據另一項合理的分析,則僅為 16 倍。

這對應的算力減半時間分別為 2 個月和 2.9 個月。

在此數據集中,只有三個能力水準的追趕速度每年低於一個數量級。

有很多合理的方法可以過濾/清洗數據。例如,我選擇只關注算力估計為「有信心」(Confident)或「可能」(Likely)的模型。從歷史上看,我發現算力估計的方法論通常不太穩固,而信心較低的算力估計似乎相當糟糕。為了匯總不同的能力區間,我設定了一些主觀權重。[2]

觀察數據的其他方式,例如考慮所有具有算力估計的模型,或僅考慮具有「有信心」估計的模型,產生的追趕速度大多在每年 10 倍至 100 倍的範圍內。我已將各種其他分析放在附錄中。

常識檢查:Qwen2.5-72B vs. Qwen3-30B-A3B

作為常識檢查,讓我們看看 Qwen2.5 和 Qwen3 之間的進展。為了簡單起見,我將只比較 Qwen2.5-72B-Instruct 和 Qwen3-30B-A3B (thinking)[3]。我選擇這些模型是因為它們都是非常強大的模型,且在發布時都接近算力效率的前沿,此外還有其他原因[4]。我手動計算了這兩個模型的近似訓練算力[5]。

模型Qwen2.5-72B-InstructQwen3-30B-A3B (thinking)
發布日期2024年9月18日2025年4月29日
訓練算力 (FLOP)8.6e247.8e23
Artificial Analysis 智能指數2936.7
運行 AAII 的近似成本 ($)[6]3.438

這兩個模型的發布時間相隔約 7.5 個月,後者的訓練算力少了一個數量級,但能力卻超過了前者——詳細的評估結果請見附錄。上述 60 倍/年的趨勢意味著,用 7.8e23 FLOP 達到 Qwen2.5-72B-Instruct 的能力水準需要 7.1 個月[7]。而 Qwen3-30B-A3B (thinking) 在 7.5 個月後超過了這一能力。(我不打算回答能力提升幅度與 2.5 相比是否符合趨勢。)因此,常識檢查通過了:從 Qwen2.5 到 Qwen3,我們看到了訓練算力效率的顯著提升。(我不打算分析推理成本的差異,儘管有趣的是,較小的模型反而更貴,因為每個 token 的成本相似,但其答案中使用了更多的 token!)

討論

這與最近在《AI 基準測試的羅塞塔石碑》(A Rosetta Stone for AI Benchmarks)中的分析相比如何?

目前已存在許多關於演算法進步的估計...

Lesswrong

相關文章

  1. 大型語言模型演算法進展的本質

    3 個月前

  2. 我對當前人工智慧現況的描繪

    16 天前

  3. 自動化對齊研究能否在AI起飛前實現?

    3 個月前

  4. 評估AI 2027的2025年預測

    2 個月前

  5. 2025年AI:格式塔

    5 個月前