強化學習的擴展性表現如何?
大型語言模型的強化學習(RL)訓練擴展表現意外地差,需要 10,000 倍的運算量才能達到推論擴展僅需 100 倍即可實現的增長。因此,AI 推理能力的進步將主要源於推論擴展而非訓練,這將大幅增加部署成本,並改變 AI 治理與安全的策略。
摘要: 大型語言模型(LLM)的強化學習(RL)訓練在擴展性(scaling)方面的表現出奇地差。其大部分的進展來自於允許 LLM 有效地使用更長的思考鏈(chains of thought),讓它們能對問題進行更長時間的思考。雖然在固定答案長度的情況下性能有所提升,但不足以驅動 AI 的重大進展。鑑於預訓練算力的擴展也已停滯,我們將看到透過算力擴展帶來的 AI 進步比預想的要少,更多的進步將來自推理擴展(inference scaling),而這對世界有著不同的影響。這延長了 AI 發展的時間線,並影響了 AI 治理與安全的策略。
當前利用強化學習(透過可驗證的獎勵)提升 AI 能力的時代涉及兩種關鍵的擴展類型:
- 擴展訓練期間用於 RL 的算力規模
- 擴展部署期間用於推理的算力規模
我們可以將 (1) 視為訓練 AI 掌握更有效的推理技巧,將 (2) 視為允許模型思考更久。我將前者稱為 RL 擴展(RL-scaling),後者稱為 推理擴展(inference-scaling)。這兩種新的擴展方式早在 OpenAI 發布其首個推理模型 o1 時就已出現,當時他們展示了這張著名的圖表:
我先前曾指出,在從基礎模型轉向推理模型的初始階段,大部分的性能提升來自於解鎖了推理擴展。RL 訓練確實顯著提升了性能,即使在思考鏈的標記(token)數量固定的情況下也是如此。你可以在下圖中看到這種 RL 提升,即左側將基礎模型推高至推理模型趨勢線的小藍色箭頭。但這種 RL 也解鎖了有效使用更長思考鏈的能力(在此範例中約長 30 倍)。而這些更長的思考鏈貢獻了更大的性能提升。
*能力提升的來源問題非常重要,因為擴展推理算力與擴展訓練算力的影響截然不同。在第一代推理模型中,與預訓練算力相比,它們使用的 RL 訓練算力非常少,這意味著總訓練成本僅比基礎模型高出約 1.01 倍。但如果大部分亮眼的性能結果需要 30 倍的推理算力,那麼部署這些能力的成本就會高出 30 倍。由於尖端 AI 開發商在部署模型上的花費已經超過了訓練費用,將這些成本乘以 30 倍是一件大事。此外,這些成本是每次你想在該能力水平下使用模型時都必須支付的,因此無法透過規模效應來抵銷。
但這只是 RL 在 LLM 上的初步應用。隨著公司利用更多的 RL 創造出更先進的推理模型,會發生什麼事?
答案的種子早在最初的 o1 圖表中就已埋下。
該圖表顯示 RL 擴展和推理擴展都有穩定的進步,但兩者並不相同。兩張圖的 y 軸相同,且(儘管 x 軸上的數字已被移除)我們可以看到它們都採用對數 x 軸,涵蓋了幾乎整整兩個數量級的擴展(100 倍)。在這兩種情況下,數據點都位於一條相對較直的線上,這推測是更大 S 曲線的中心部分。然而,RL 擴展圖(左側)的斜率幾乎正好是推理擴展圖(右側)斜率的一半。當 x 軸是對數時,這會產生巨大的後果。
右側圖表顯示,將推理算力擴展 100 倍足以讓 AIME 基準測試的性能從大約 20% 提升到 80%。這在推理擴展中非常典型,許多不同的模型和基準測試在推理擴展 100 倍時,都能看到性能從 20% 提升到 80%。
例如,Anthropic 的首個推理模型 (Sonnet 3.7) 在另一個 AIME 基準測試上也發現了幾乎完全相同的擴展行為:
對於 OpenAI 的許多不同推理模型,在 ARC-AGI 1 基準測試上的能力也以類似的方式擴展:
我們並非總能看到這種推理擴展行為:某些 LLM、推理擴展技術和基準測試的組合會看到性能在 80% 以下進入平台期,或表現出不同的斜率(通常更差)。但這種透過 100 倍推理算力從 20 爬升到 80 的現象非常普遍(特別是在推理密集型基準測試中),而且幾乎可以肯定這就是原始 o1 圖表上發生的情況。
相比之下,RL 擴展趨勢的斜率只有一半,這意味著需要兩倍的數量級才能實現完全相同的能力提升。如 o1 圖表所示,將 RL 訓練算力增加 100 倍僅將性能從約 33% 提升到 66%。按照這個速度,要從 20 提升到 80,需要將 RL 訓練算力擴展 10,000 倍。
我們可以透過觀察 o3 發布影片 中的以下圖表(添加了一條顯示從 20 到 80 需要 10,000 倍對應斜率的線)來確認這一趨勢——以及它在 o1 之後仍在持續:
*使用另一個版本的 AIME 基準測試,這顯示了 o1 在 3 個數量級上的訓練進展,以及 o3 在進一步數量級上的訓練。總體而言,我們看到將 RL 訓練擴展 4 個數量級使模型從約 26% 提升到 88%。這為「需要 10,000 倍的 RL 訓練算力擴展才能將基準測試性能從 20 提升到 80」的經驗法則提供了一些證實。
據我所知,OpenAI 尚未提供其他基準測試的 RL 訓練曲線,但他們確實有在多個基準測試中比較 o1 與 o3,以及 o3 與 GPT-5 在不同推理擴展水平下的圖表。鑑於 o3 使用的 RL 訓練量約為 o1 的 10 倍,我們預期從 o1 到 o3 的 RL 提升,其價值應等同於僅給予 o1 半個數量級更多推理(約 3 倍標記量)的推理提升。這確實是在比較兩者的性能/標記圖表中所看到的:
同樣地,o3 在 SWE-bench 和 GPQA Diamond 基準測試上也需要約 3 倍的標記量才能達到 GPT-5 的水平。這符合 GPT-5 的 RL 訓練算力比 o3 再多 10 倍的預期模式:
很難驗證這一趨勢是否適用於其他公司的模型,因為尖端模型的訓練曲線數據通常被視為機密。但其他領先實驗室的基礎模型和推理模型與 OpenAI 的模型大致持平,這一事實表明,沒有一家的擴展表現顯著優於此。
因此,關於 RL 擴展和推理擴展的證據支持一個普遍模式:
- 需要 10 倍的 RL 擴展才能獲得與 3 倍推理擴展相同的性能提升
- 需要 10,000 倍的 RL 擴展才能獲得與 100 倍推理擴展相同的性能提升
總體而言,要從 RL 擴展中獲得與推理擴展相同的收益,需要兩倍的數量級。這並不是個好消息。
這些與預訓練擴展相比如何?
從 GPT-1 到 2、3、4 的跨越,每一次都涉及將預訓練算力擴展約 100 倍。需要多少 RL 擴展或推理擴展才能提供類似的提升?雖然我無法確定,但我們可以整合現有的線索並做出合理的推測。
Jones (2021) 和 EpochAI 都估計,你需要將推理擴展大約 1,000 倍,才能達到預訓練擴展 100 倍所獲得的能力。既然來自 o1 和 o3 的證據表明,與推理擴展相比,我們需要大約兩倍數量級的 RL 擴展,這意味著我們需要大約 1,000,000 倍的總 RL 算力擴展,才能提供類似 GPT 級別的提升。
這是令人震驚的低效擴展。但這符合 RL 訓練極端的信息低效性,與下一個標記預測(next-token-prediction)相比,RL 訓練每單位 FLOP 算力所能學習到的信息量不到萬分之一。
然而,儘管擴展行為不佳,RL 訓練到目前為止仍是一筆划算的交易。這僅僅是因為與投入到當今模型中的海量預訓練算力相比,RL 算力的擴展起點非常低。雖然 AI 實驗室對分享實際在 RL 上花了多少算力諱莫如深(看看 o1 雙擴展圖中所有數字都被移除就知道了),但普遍認為,即使我們在 o3 訓練中看到的 10,000 倍 RL 擴展,最終使用的算力仍遠低於用於預訓練的 FLOP。這意味著 OpenAI(及其競爭對手)實際上是免費獲得了 RL 訓練的早期收益。
例如,如果從 o1 到 o3 的 10 倍 RL 算力擴展使總訓練算力從預訓練的 1.01 倍增加到 1.1 倍,那麼這 10 倍的擴展僅以總訓練成本增加 1.1 倍為代價。如果這能提供與使用 3 倍推理標記(這會使推理模型的所有部署成本乘以 3)相同的性能提升,那麼對於一家廣泛部署模型的公司來說,這是一筆極好的交易。
但一旦 RL 訓練達到並超過預訓練算力的規模,情況就會發生劇變。2025 年 7 月,xAI 的 Grok 4 發布影片中包含一張圖表,暗示他們已經達到了這個水平(圖中預訓練算力以白色顯示,RL 訓練算力以橘色顯示):
*在此基礎上再將 RL 擴展 10 倍,會使總訓練算力增加 5.5 倍,再往後,基本上就是總訓練成本完整的 10 倍增長。因此,這就是「與預訓練或推理的 10 倍擴展相比,RL 算力的 10 倍擴展收益要少得多」這一事實真正產生負面影響的時刻。我估計在撰寫本文時(2025 年 10 月),我們已經看到了大約 1,000,000 倍的 RL 訓練擴展,且其成本 ≤ 總訓練成本的 2 倍。但下一個 1,000,000 倍的擴展將需要 1,000,000 倍的總訓練成本,這在可預見的未來是不可能的。
Grok 4 是在 xAI 巨大的 Colossus 數據中心內的 200,000 個 GPU 上訓練的。要透過 RL 實現相當於 GPT 級別的跳躍(根據上述粗略的擴展關係),將需要 1,000,000 倍的總訓練算力。換句話說,這需要將數據中心內的每個 GPU 替換為 5 個同等規模的全新數據中心,然後使用全世界 5 年的總發電量來訓練該模型。因此,透過進一步擴展 RL 訓練算力來提供哪怕是一個 GPT 級別的提升,看起來都是不可行的。
我不認為 OpenAI、Google 或 Anthropic 已經完全達到 RL 訓練算力與預訓練算力持平的程度。但他們可能也相去不遠。因此,雖然我們可能會看到透過將 RL 訓練再擴展 10 倍而使推理能力超越 GPT-5 的另一次飛躍,但我認為廉價 RL 擴展的道路已經走到盡頭。
結論
向 RL 的轉向使得擴展時代在預訓練擴展停滯後得以延續。它透過兩種不同的機制實現:擴展 RL 訓練算力和擴展推理算力。
擴展 RL 訓練允許模型自行學習如何獲得更好的性能。與下一個標記預測的模仿學習不同,RL 訓練有著讓系統突破人類水平的紀錄——尋找超越其訓練數據的新問題解決方案。但在 LLM 的背景下,它的擴展性很差。我們看到了令人印象深刻的收益,但這些收益僅在從極低基數開始時才可行。我們已經達到了再往前走就過於昂貴的臨界點。
這使得推理擴展成為僅存的算力擴展形式。RL 透過更長的思考鏈幫助實現了推理擴展,就 LLM 而言,這可能是它最重要的遺產。但推理擴展的動態與擴展訓練算力截然不同。首先,它擴展的是持續成本的流動,而非一次性的訓練成本。這對 AI 部署、AI 風險和 AI 治理有許多影響。
但或許更重要的是,推理擴展實際上是透過給予模型更多時間來解決問題,而非透過增加其智力來提升能力。既然 RL 訓練已接近其有效極限,我們可能已經失去了將更多算力有效轉化為更高智力的能力。
首次發表於 2025 年 10 月 20 日
相關文章
其他收藏 · 0