強化學習的擴展性表現如何？

Lesswrong·6 個月前

大型語言模型的強化學習（RL）訓練擴展表現意外地差，需要 10,000 倍的運算量才能達到推論擴展僅需 100 倍即可實現的增長。因此，AI 推理能力的進步將主要源於推論擴展而非訓練，這將大幅增加部署成本，並改變 AI 治理與安全的策略。

摘要： 大型語言模型（LLM）的強化學習（RL）訓練在擴展性（scaling）方面的表現出奇地差。其大部分的進展來自於允許 LLM 有效地使用更長的思考鏈（chains of thought），讓它們能對問題進行更長時間的思考。雖然在固定答案長度的情況下性能有所提升，但不足以驅動 AI 的重大進展。鑑於預訓練算力的擴展也已停滯，我們將看到透過算力擴展帶來的 AI 進步比預想的要少，更多的進步將來自推理擴展（inference scaling），而這對世界有著不同的影響。這延長了 AI 發展的時間線，並影響了 AI 治理與安全的策略。

當前利用強化學習（透過可驗證的獎勵）提升 AI 能力的時代涉及兩種關鍵的擴展類型：

擴展訓練期間用於 RL 的算力規模
擴展部署期間用於推理的算力規模

我們可以將 (1) 視為訓練 AI 掌握更有效的推理技巧，將 (2) 視為允許模型思考更久。我將前者稱為 RL 擴展（RL-scaling），後者稱為 推理擴展（inference-scaling）。這兩種新的擴展方式早在 OpenAI 發布其首個推理模型 o1 時就已出現，當時他們展示了這張著名的圖表：

我先前曾指出，在從基礎模型轉向推理模型的初始階段，大部分的性能提升來自於解鎖了推理擴展。RL 訓練確實顯著提升了性能，即使在思考鏈的標記（token）數量固定的情況下也是如此。你可以在下圖中看到這種 RL 提升，即左側將基礎模型推高至推理模型趨勢線的小藍色箭頭。但這種 RL 也解鎖了有效使用更長思考鏈的能力（在此範例中約長 30 倍）。而這些更長的思考鏈貢獻了更大的性能提升。

*能力提升的來源問題非常重要，因為擴展推理算力與擴展訓練算力的影響截然不同。在第一代推理模型中，與預訓練算力相比，它們使用的 RL 訓練算力非常少，這意味著總訓練成本僅比基礎模型高出約 1.01 倍。但如果大部分亮眼的性能結果需要 30 倍的推理算力，那麼部署這些能力的成本就會高出 30 倍。由於尖端 AI 開發商在部署模型上的花費已經超過了訓練費用，將這些成本乘以 30 倍是一件大事。此外，這些成本是每次你想在該能力水平下使用模型時都必須支付的，因此無法透過規模效應來抵銷。

但這只是 RL 在 LLM 上的初步應用。隨著公司利用更多的 RL 創造出更先進的推理模型，會發生什麼事？

答案的種子早在最初的 o1 圖表中就已埋下。

該圖表顯示 RL 擴展和推理擴展都有穩定的進步，但兩者並不相同。兩張圖的 y 軸相同，且（儘管 x 軸上的數字已被移除）我們可以看到它們都採用對數 x 軸，涵蓋了幾乎整整兩個數量級的擴展（100 倍）。在這兩種情況下，數據點都位於一條相對較直的線上，這推測是更大 S 曲線的中心部分。然而，RL 擴展圖（左側）的斜率幾乎正好是推理擴展圖（右側）斜率的一半。當 x 軸是對數時，這會產生巨大的後果。

右側圖表顯示，將推理算力擴展 100 倍足以讓 AIME 基準測試的性能從大約 20% 提升到 80%。這在推理擴展中非常典型，許多不同的模型和基準測試在推理擴展 100 倍時，都能看到性能從 20% 提升到 80%。

例如，Anthropic 的首個推理模型 (Sonnet 3.7) 在另一個 AIME 基準測試上也發現了幾乎完全相同的擴展行為：

對於 OpenAI 的許多不同推理模型，在 ARC-AGI 1 基準測試上的能力也以類似的方式擴展：

我們並非總能看到這種推理擴展行為：某些 LLM、推理擴展技術和基準測試的組合會看到性能在 80% 以下進入平台期，或表現出不同的斜率（通常更差）。但這種透過 100 倍推理算力從 20 爬升到 80 的現象非常普遍（特別是在推理密集型基準測試中），而且幾乎可以肯定這就是原始 o1 圖表上發生的情況。

相比之下，RL 擴展趨勢的斜率只有一半，這意味著需要兩倍的數量級才能實現完全相同的能力提升。如 o1 圖表所示，將 RL 訓練算力增加 100 倍僅將性能從約 33% 提升到 66%。按照這個速度，要從 20 提升到 80，需要將 RL 訓練算力擴展 10,000 倍。

我們可以透過觀察 o3 發布影片中的以下圖表（添加了一條顯示從 20 到 80 需要 10,000 倍對應斜率的線）來確認這一趨勢——以及它在 o1 之後仍在持續：

*使用另一個版本的 AIME 基準測試，這顯示了 o1 在 3 個數量級上的訓練進展，以及 o3 在進一步數量級上的訓練。總體而言，我們看到將 RL 訓練擴展 4 個數量級使模型從約 26% 提升到 88%。這為「需要 10,000 倍的 RL 訓練算力擴展才能將基準測試性能從 20 提升到 80」的經驗法則提供了一些證實。

據我所知，OpenAI 尚未提供其他基準測試的 RL 訓練曲線，但他們確實有在多個基準測試中比較 o1 與 o3，以及 o3 與 GPT-5 在不同推理擴展水平下的圖表。鑑於 o3 使用的 RL 訓練量約為 o1 的 10 倍，我們預期從 o1 到 o3 的 RL 提升，其價值應等同於僅給予 o1 半個數量級更多推理（約 3 倍標記量）的推理提升。這確實是在比較兩者的性能/標記圖表中所看到的：

同樣地，o3 在 SWE-bench 和 GPQA Diamond 基準測試上也需要約 3 倍的標記量才能達到 GPT-5 的水平。這符合 GPT-5 的 RL 訓練算力比 o3 再多 10 倍的預期模式：

很難驗證這一趨勢是否適用於其他公司的模型，因為尖端模型的訓練曲線數據通常被視為機密。但其他領先實驗室的基礎模型和推理模型與 OpenAI 的模型大致持平，這一事實表明，沒有一家的擴展表現顯著優於此。

因此，關於 RL 擴展和推理擴展的證據支持一個普遍模式：

需要 10 倍的 RL 擴展才能獲得與 3 倍推理擴展相同的性能提升
需要 10,000 倍的 RL 擴展才能獲得與 100 倍推理擴展相同的性能提升

總體而言，要從 RL 擴展中獲得與推理擴展相同的收益，需要兩倍的數量級。這並不是個好消息。

這些與預訓練擴展相比如何？

從 GPT-1 到 2、3、4 的跨越，每一次都涉及將預訓練算力擴展約 100 倍。需要多少 RL 擴展或推理擴展才能提供類似的提升？雖然我無法確定，但我們可以整合現有的線索並做出合理的推測。

Jones (2021) 和 EpochAI 都估計，你需要將推理擴展大約 1,000 倍，才能達到預訓練擴展 100 倍所獲得的能力。既然來自 o1 和 o3 的證據表明，與推理擴展相比，我們需要大約兩倍數量級的 RL 擴展，這意味著我們需要大約 1,000,000 倍的總 RL 算力擴展，才能提供類似 GPT 級別的提升。

這是令人震驚的低效擴展。但這符合 RL 訓練極端的信息低效性，與下一個標記預測（next-token-prediction）相比，RL 訓練每單位 FLOP 算力所能學習到的信息量不到萬分之一。

然而，儘管擴展行為不佳，RL 訓練到目前為止仍是一筆划算的交易。這僅僅是因為與投入到當今模型中的海量預訓練算力相比，RL 算力的擴展起點非常低。雖然 AI 實驗室對分享實際在 RL 上花了多少算力諱莫如深（看看 o1 雙擴展圖中所有數字都被移除就知道了），但普遍認為，即使我們在 o3 訓練中看到的 10,000 倍 RL 擴展，最終使用的算力仍遠低於用於預訓練的 FLOP。這意味著 OpenAI（及其競爭對手）實際上是免費獲得了 RL 訓練的早期收益。

例如，如果從 o1 到 o3 的 10 倍 RL 算力擴展使總訓練算力從預訓練的 1.01 倍增加到 1.1 倍，那麼這 10 倍的擴展僅以總訓練成本增加 1.1 倍為代價。如果這能提供與使用 3 倍推理標記（這會使推理模型的所有部署成本乘以 3）相同的性能提升，那麼對於一家廣泛部署模型的公司來說，這是一筆極好的交易。

但一旦 RL 訓練達到並超過預訓練算力的規模，情況就會發生劇變。2025 年 7 月，xAI 的 Grok 4 發布影片中包含一張圖表，暗示他們已經達到了這個水平（圖中預訓練算力以白色顯示，RL 訓練算力以橘色顯示）：

*在此基礎上再將 RL 擴展 10 倍，會使總訓練算力增加 5.5 倍，再往後，基本上就是總訓練成本完整的 10 倍增長。因此，這就是「與預訓練或推理的 10 倍擴展相比，RL 算力的 10 倍擴展收益要少得多」這一事實真正產生負面影響的時刻。我估計在撰寫本文時（2025 年 10 月），我們已經看到了大約 1,000,000 倍的 RL 訓練擴展，且其成本 ≤ 總訓練成本的 2 倍。但下一個 1,000,000 倍的擴展將需要 1,000,000 倍的總訓練成本，這在可預見的未來是不可能的。

Grok 4 是在 xAI 巨大的 Colossus 數據中心內的 200,000 個 GPU 上訓練的。要透過 RL 實現相當於 GPT 級別的跳躍（根據上述粗略的擴展關係），將需要 1,000,000 倍的總訓練算力。換句話說，這需要將數據中心內的每個 GPU 替換為 5 個同等規模的全新數據中心，然後使用全世界 5 年的總發電量來訓練該模型。因此，透過進一步擴展 RL 訓練算力來提供哪怕是一個 GPT 級別的提升，看起來都是不可行的。

我不認為 OpenAI、Google 或 Anthropic 已經完全達到 RL 訓練算力與預訓練算力持平的程度。但他們可能也相去不遠。因此，雖然我們可能會看到透過將 RL 訓練再擴展 10 倍而使推理能力超越 GPT-5 的另一次飛躍，但我認為廉價 RL 擴展的道路已經走到盡頭。

結論

向 RL 的轉向使得擴展時代在預訓練擴展停滯後得以延續。它透過兩種不同的機制實現：擴展 RL 訓練算力和擴展推理算力。

擴展 RL 訓練允許模型自行學習如何獲得更好的性能。與下一個標記預測的模仿學習不同，RL 訓練有著讓系統突破人類水平的紀錄——尋找超越其訓練數據的新問題解決方案。但在 LLM 的背景下，它的擴展性很差。我們看到了令人印象深刻的收益，但這些收益僅在從極低基數開始時才可行。我們已經達到了再往前走就過於昂貴的臨界點。

這使得推理擴展成為僅存的算力擴展形式。RL 透過更長的思考鏈幫助實現了推理擴展，就 LLM 而言，這可能是它最重要的遺產。但推理擴展的動態與擴展訓練算力截然不同。首先，它擴展的是持續成本的流動，而非一次性的訓練成本。這對 AI 部署、AI 風險和 AI 治理有許多影響。

但或許更重要的是，推理擴展實際上是透過給予模型更多時間來解決問題，而非透過增加其智力來提升能力。既然 RL 訓練已接近其有效極限，我們可能已經失去了將更多算力有效轉化為更高智力的能力。

首次發表於 2025 年 10 月 20 日

— Lesswrong

其他收藏 · 0

你的個人知識庫

強化學習的擴展性表現如何？

這些與預訓練擴展相比如何？

結論