2025年AI:格式塔
2025 年的 AI 發展顯示,雖然能力透過後訓練與推理縮放顯著提升,但進步仍符合將更多任務納入分布內而非實現深層泛化的趨勢,且安全與對齊方法依舊脆弱。
這是今年「AI 安全淺評」(Shallow Review of AI Safety)的社論。(內容長到足以獨立成篇。)
認知狀態:主觀印象加上一張新圖表與 300 個連結。
非常感謝 Jaeho Lee、Jaime Sevilla 和 Lexin Zhou 提供義務測試,極大地改進了主要分析。
摘要(tl;dr)
知情人士對 LLM AGI 的前景持不同意見——甚至對今年究竟取得了什麼成就也意見不一。但那些出過書、有話語權的名人至少都同意,我們距離 AGI 還有 2 到 20 年的時間(考慮到可能出現的其他範式)。在本文中,我堅持討論論點,而非轉述誰的想法。
我的觀點:與去年相比,AI 更加令人印象深刻,但實用性並未成比例增長。它們在一些明確優化的領域(編碼、視覺、OCR、基準測試)有所進步,但在其他方面並未大幅提升。因此,進展(依然!)與目前的尖端訓練一致:即將更多事物納入「分佈內」(in-distribution),而非實現了非常遙遠的泛化。
預訓練(GPT-4.5、Grok 3/4,以及那些本該進行但未執行的對照大型訓練)在今年令人失望。這可能不是因為它無效或行不通;只是因為服務大型模型的難度太高,且在邊際效益上,進行後訓練(post-training)的效率要高出約 30 倍。如果強化學習(RL)的擴展性變得更差,這種情況應該很快會再次改變。
修訂:請參閱這條精彩的評論,了解背後的硬體原因,以及認為預訓練將面臨多年困境的理由。
真正的尖端能力可能被系統性的成本削減(用於提供給消費者的蒸餾技術、量化、低推理標記模式、路由至廉價模型等)以及少數未發布的模型/模式所掩蓋。
大多數基準測試對於模型能力的排名預測力都很弱。我對 ECI、ADeLe 和 HCAST 的懷疑最少。ECI 顯示出線性進步,HCAST 發現綠地軟體工程(greenfield software engineering)有指數級進步,而 ADeLe 則顯示之前的指數級增長自 o1 以來已放緩至可能是線性的增長。
利用這三項指標,我發現 2025 年的進展速度與整個先前的 LLM 時代一樣快。但這些數字還不足以說服我。
世界的實際策略仍是「迭代對齊」(iterative alignment),利用一疊大家都承認單獨效果微弱的對齊與控制技術來優化輸出。
早期關於推理模型更安全的說法結果好壞參半(見下文)。對抗魯棒性(Adversarial robustness)並未改善多少;我們看到的實際進步歸功於外部「護欄」(輔助模型)。
我們已經從越獄(jailbreaks)中得知目前的對齊方法很脆弱。今年重大的安全發現是:在目前的模型中,負面事物是相關聯的。(總體而言,這是個好消息。)
以前我認為「性格訓練」(character training)是與「對齊訓練」分開且次要的事情。現在我不確定了。
歡迎許多加入 AI 安全、保障與保證等領域的新人。在《淺評》中,我為其中的一個大趨勢增加了一個龐大的頂層類別,即在各方面將「多智能體視角」(multi-agent lens)視為核心。
總體而言,我希望能告訴你一個數字,即淨預期安全變化(今年的危險能力與智能體性能提升,減去能力中促進對齊的部分,再減去目前實際實施的最優對齊與控制技術組合的累積效應)。但我做不到。
2025 年的能力
更好了,但進步了多少?
—— Fraser,改編自 Pueyo
反對 2025 年能力增長超出趨勢的論點
-
表面上的進展是真實通用能力提升、隱藏數據污染增加、基準測試極大化(benchmaxxing,即攻克一組靜態範例而非泛化)以及用途極大化(usemaxxing,即利用 RL 攻克一組狹窄任務而非深度泛化)的未知混合體。認為各佔 25% 是合理的,但信心較低。
-
離散能力的進展今年似乎比 2024 年慢(但 2024 年快得離譜)。向這位記錄預測的人致敬,他提醒了我們「真正超出趨勢」具體意味著什麼。優秀的預測者 Eli 在某些地方也過於樂觀了。
-
我不建議太認真看待基準測試趨勢,甚至是聰明的綜合指標或聰明的認知科學測量。這些測量面臨的對抗壓力非常巨大。
-
預訓練並未撞上「牆」,但驅動者在遇到更容易的繞道(RLVR)時轉向了。訓練運行規模繼續擴大(Llama 3 405B = 4e25,GPT-4.5 ~= 4e26,Grok 4 ~= 3e26),但效果較小。[1] 事實上,所有這些模型都被預訓練規模較小但後訓練更好的模型所主導。4.5 實際上已經從 API 下架了。
在 2025 年,提供任何巨型模型(即約 4 兆總參數)或將其製成推理模型都不划算。但這更多與推理成本和推理硬體限制有關,而非品質不足或擴展定律失效。
修訂:Nesov 指出,利用更大的模型(即 4 兆參數)受限於 CoWoS 和推理 HBM,在更大模型上進行 RL 也是如此。他預計直到 2028 年底,才可能使用 NVIDIA 進行下一次巨大的預訓練跨越(達到約 30 兆總參數)。Ironwood TPU 則是另一回事,可能在 2026 年底實現。
如果我們有數據、CoWoS 並投入下一個 100 億美元,它大概會奏效,只是目前與以下方式相比太貴了: -
RLVR 擴展與推理擴展(或我們稱之為「推理」),這讓進展得以持續。這歸結為在 RL 上投入更多,使生成的模型能有效地消耗更多標記(tokens)。
但人們擔憂/希望的從「在有驗證器的任務上用 RL 訓練 LLM」到「在沒有驗證器的任務上表現」的泛化能力,在經過兩年的嘗試後依然不明朗。[2] Grok 4 顯然是 RLVR 訓練擴展的一次重大測試。[3] 它獲得了極佳的基準測試結果,且蒸餾版本正被大規模使用。但在我看來,它是所有模型中最不均衡(jagged)的。
這種擴展速度無法持續:RL 是出了名的低效。與 SFT 相比,它「將模型每小時訓練能學習到的信息量降低了 1,000 到 1,000,000 倍」。每個標記的智能有所提升,但幅度不大。
有一種關於 RLVR 的通縮理論,認為它受限於預訓練能力,因此僅關乎更容易的誘發(elicitation)和更好的 pass@1。但即使這是對的,也說明不了什麼!
RLVR 是沉重且繁瑣的研發,需要邊做邊學;最好在成本僅為 10% 的較小模型上學習。
我們可以推斷出一個顯而易見的事實:實驗室沒有資源同時擴展兩者。為了保持資金燃燒,他們必須發布模型。所以,預訓練目前無法擴展,因為大多數推理芯片不夠大,無法處理數兆個活躍參數。而進一步擴展 RL 的幫助不會像今年這麼大,因為效率低下。所以……
-
到 2025 年底,過時的典型「AI 2027」情景描述了領先實驗室與追隨的尖端實驗室之間分歧的開始。[4] 這是因為領先者產生或獲取新訓練數據和算法想法的卓越能力本應產生複利並擴大領先優勢。相反,我們看到曾經的領先者 OpenAI 和其他一些公司聚集在同一水平,這微弱地證明了合成數據和 AI-AI 研發尚未到位。Anthropic 對 Opus 4.5 的能力提出了重大主張,所以也許這會在明年準時到來。
-
第一次出現了許多 LLM 輔助實際數學研究的案例。但如果你仔細觀察,這在廣義上仍屬於「分佈內」:現有事實和技術的新推論。(我無意貶低這一點;可能大多數數學都符合這一特徵。)而且它幾乎從未完全自主;通常有數百處人類引導。
-
幻覺率趨勢的證據極其混雜。
-
公司聲稱其有效上下文窗口達到一百萬或一千萬個標記,但我不相信。
-
與其親自嘗試將智能體用於嚴肅工作,你至少可以看看 AI Village 中那些易受騙且能力尚不足的 AI 亮點。
-
以下是 Heitmann 等人調查中目前 LLM 最大的限制:
支持 2025 年能力增長超出趨勢的論點
我們現在擁有了一些比笨拙的單任務靜態基準測試更接近 AGI 指標的測量方法。它們顯示了什麼?
-
難度加權基準測試:Epoch 能力指數(Epoch Capabilities Index)。解讀:GPT-2 到 GPT-3 大約是 20-40 分的跳躍。
-
認知能力:ADeLe。[5] 解讀:L 等級是 10^L 分之一的人所具備的能力。
相關文章