
AI 評估正成為新的算力瓶頸
AI 評估成本已跨越門檻,複雜的代理人基準測試與科學機器學習協定動輒耗資數萬美元或數千個 GPU 小時,對於小型模型而言,評估成本甚至可能超過預訓練成本。
AI 評估正成為新的算力瓶頸
摘要:AI 評估已跨越了一個成本門檻,這改變了誰有能力進行評估。整體代理排行榜(Holistic Agent Leaderboard, HAL)最近花費了約 40,000 美元,在 9 個模型和 9 個基準測試中運行了 21,730 次代理執行(rollouts)。在尖端模型上運行單次 GAIA 測試,在不計快取的情況下可能耗資 2,829 美元。Exgentic 對代理配置進行的 22,000 美元大規模測試發現,在相同任務上成本差異高達 33 倍,這顯示腳手架(scaffold)的選擇是首要的成本驅動因素。英國 AI 安全研究所(UK-AISI)最近將代理步驟擴展到數百萬級,以研究推理時算力(inference-time compute)。在科學機器學習(Scientific ML)領域,評估一個新架構約需 960 個 H100 小時,而進行完整的四基準掃描則需 3,840 個 H100 小時。雖然針對靜態基準測試已提出壓縮技術,但新的代理基準測試具有高雜訊、對腳手架敏感且僅能部分壓縮的特性。訓練內環(Training-in-the-loop)基準測試在設計上就極其昂貴,而當你試圖為這些評估增加可靠性時,重複運行會使成本進一步倍增。
降低靜態 LLM 基準測試的成本
成本問題在代理出現之前就已開始。當史丹佛大學的 CRFM 在 2022 年發布 HELM 時,論文中對每個模型的核算顯示,API 成本從 OpenAI code-cushman-001 的 85 美元到 AI21 J1-Jumbo (178B) 的 10,926 美元不等;開源模型則需 540 到 4,200 個 GPU 小時,其中 BLOOM (176B) 和 OPT (175B) 位居前列。Perlitz 等人(2023)重申了較大的 HELM 成本模式,IBM 研究院指出,讓 Granite-13B 通過 HELM 評估「可能消耗多達 1,000 個 GPU 小時」。在 HELM 的 30 個模型和 42 個場景中,報告的成本和 GPU 算力總計約為 100,000 美元。
另一個令人震驚的觀察來自 Perlitz 等人對 EleutherAI Pythia 檢查點(checkpoints)的分析:開發者在模型開發過程中會反覆支付評估費用。Pythia 為 8 種規模的 16 個模型各發布了 154 個檢查點,如果單獨計算每個模型檢查點,總共有 2,464 個,以便社群研究訓練動態。在所有這些檢查點上運行 LM Evaluation Harness 使評估成為訓練的乘數:Perlitz 等人(2024)指出,在評估檢查點時,評估成本「甚至可能超過預訓練成本」。對於小型模型,評估成為整個開發週期中主要的算力支出項目。當我們擴展推理時算力時,我們也擴展了評估成本。
Perlitz 等人隨後詢問 HELM 中有多少內容實際支撐了排名。結果令人驚訝:減少 100 到 200 倍的算力仍能保持幾乎相同的排名順序,在論文的分層分析下,更大的減幅對於粗略分組仍然有用。Flash-HELM 將這一發現轉化為由粗到精的程序:先運行廉價評估,然後僅在頂級候選模型上投入高解析度算力。HELM 的大部分算力都花在確認那些本可以更廉價推斷出的排名上。
其他研究也從不同角度得出了相同的結論。tinyBenchmarks 使用項目反應理論(Item Response Theory),將 MMLU 從 14,000 個項目壓縮到 100 個錨點項目,誤差約為 2%。Open LLM Leaderboard 從 29,000 個樣本縮減到 180 個。Anchor Points 顯示,僅需 1 到 30 個樣本即可對 GLUE 上的 87 個語言模型/提示對進行排序,隨後的研究將數據集規模縮減了 90%。靜態基準測試有一個可以利用的弱點:模型差異通常集中在少數項目子集中,因此排名可以在激進的下採樣中倖存。
然而,一旦基準測試從靜態預測轉向代理,這個技巧的效果就會大幅減弱。
代理評估更為混亂
整體代理排行榜(Kapoor 等人,ICLR 2026)提供了一份非常詳盡的代理評估公開核算。HAL 在涵蓋編碼、網頁導航、科學任務和客戶服務的九個基準測試中運行標準化的代理框架,並使用共享的腳手架和集中式成本追蹤。核心成本數據:在 9 個模型和 9 個基準測試中進行 21,730 次執行,耗資 40,000 美元。到 2026 年 4 月,該排行榜已增長到 26,597 次執行。Ndzomga 的獨立復現得出了幾乎相同的數字:242 次代理運行耗資 46,000 美元。
在這些總量背後,單次基準測試運行的成本在 HAL 任務中差異達四個數量級,在某些單一基準測試內部也存在三個數量級的差異。

這些數字背後是一個殘酷的定價事實。Claude Opus 4.1 每百萬輸入 token 收費 15 美元,每百萬輸出收費 75 美元。Gemini 2.0 Flash 則分別收費 0.10 美元和 0.40 美元,僅在輸入端就有兩個數量級的差距。代理基準測試很少單獨測試「模型」,它們測試的是「模型 × 腳手架 × token 預算」的產物,微小的腳手架選擇就能讓成本翻 10 倍。
更糟糕的是,更高的支出並不一定能換來更好的結果。在 Online Mind2Web 上,使用 Claude Sonnet 4 的 Browser-Use 耗資 1,577 美元,準確率為 40%。而使用 GPT-5 Medium 的 SeeAct 僅需 171 美元即可達到 42% 的準確率。HAL 論文指出,「儘管準確率僅相差兩個百分點,成本卻有 9 倍的差異」。在 GAIA 上,使用 o3 Medium 的 HAL Generalist 耗資 2,828 美元達到 28.5% 的準確率,而另一種代理僅需 1,686 美元即可達到 57.6%。CLEAR 在 300 個企業任務中對 6 個頂尖代理的研究發現,「準確率最佳配置的成本比具有同等實際表現的帕累托效率(Pareto-efficient)替代方案高出 4.4 到 10.8 倍」。
靜態時代的工具箱本應有所幫助,但其作用有限。Ndzomga 的中等難度過濾器(選擇歷史通過率在 30% 到 70% 之間的任務)在保持腳手架和時間偏移下的排名保真度的同時,實現了 2 到 3.5 倍的成本縮減。這雖然有用,但遠低於靜態基準測試中 100 到 200 倍的收益。當每個項目都是具有自身變異性的多輪執行時,單個問題不可避免的長軌跡成為了昂貴的對象。
某些評估本質上就是訓練
有些基準測試完全跳脫了 API 成本的框架,因為它們的評估協議是從頭開始訓練模型。
The Well 提供了一個非常有趣的例子。它捆綁了 16 個科學機器學習數據集,涵蓋生物系統、流體動力學、磁流體動力學、超新星爆炸、粘彈性不穩定性和活性物質,總計 15 TB。使用論文核心的 16 個數據集網格,該協議幾乎沒有節省空間:在單個 H100 上對每個基準模型進行 12 小時訓練,每個(模型、數據集)對嘗試五種學習率,並在四種架構和 16 個數據集上重複。這種核心網格掃描消耗 3,840 個 H100 小時,按以下轉換假設計算,約為 9,600 美元。單個新架構的成本仍約為 960 個 H100 小時,即約 2,400 美元。
訓練一個神經算子(neural operator)可能只需要一次 12 小時的 H100 運行,但在整個基準測試中評估它則需要 80 次這樣的訓練。這種不對稱性正是 The Well 的重要之處。在機器學習的這個領域,評估算力超過訓練算力約兩個數量級,翻轉了舊有的深度學習思維模型。
同樣的模式在 SciML 中反覆出現。PDEBench 涵蓋了 11 個 PDE 家族,並報告了跨數據集和模型家族的每輪(per-epoch)計時表,但每個架構的具體美元金額取決於所選的訓練協議和硬體。MLE-Bench (OpenAI) 介於代理和訓練模式之間。代理在 75 個 Kaggle 競賽中的每一次嘗試都要在單個 A10 GPU 上運行 24 小時,訓練真實的機器學習流水線。論文明確指出:「我們主要實驗設置中,每個競賽嘗試 24 小時,單次運行需要 24 小時 × 75 個競賽 = 1,800 個 GPU 小時的算力」,此外 o1-preview 每個種子(seed)消耗 1.275 億輸入和 1,500 萬輸出 token。按每 A10 小時 1.50 美元計算,僅 GPU 底價就是 2,700 美元;加上 o1-preview 的 API 使用費,單次種子運行約需 5,500 美元。因此,三個種子 × 六個模型在不計任何額外評分或重試開銷的情況下,將接近 100,000 美元。
METR 的 RE-Bench 將七個研究工程環境中的每一個限制在 1 到 6 個 H100 上運行 8 小時。因此,在不增加重複嘗試、多個種子或多個代理的情況下,單次通過該套件需要 56 到 336 個 H100 小時;具有 71 次專家嘗試的人類基準線進一步大幅提高了隱含預算。由於基準測試給予代理和人類相同的牆鐘時間(wall-clock compute),實時訓練過程設定了成本底線。Token 預算不再能限制其上限。
ResearchGym (ICLR 2026) 讓代理進行實際的機器學習研究。五個測試任務(39 個子任務)取自 ACL、ICLR 和 ICML 論文,包括 ACL Highlights、ICML Spotlight、ICLR Spotlight 和 ICLR Oral 類別,並隱藏了建議的方法。代理必須提出假設、訓練模型並擊敗原作者的基準線。預算很緊:每個任務 10 美元的 API 費用,加上在 24 GB 以下的單個 GPU 上運行 12 到 24 小時。完整通過(5 個任務 × 24 小時 × 3 個種子)每個代理消耗約 360 個 GPU 小時。
在 PaperBench 中,成本狀況變得極其殘酷。必須從頭開始復現 20 篇 ICML 2024 Spotlight 或 Oral 論文,並根據具有 8,316 個葉節點標準的評分樹進行評分。每次執行使用 A10 GPU 運行 12 小時,每篇論文的計算非常直接:
PaperBench Code-Dev 特意去掉了執行環節。這一選擇將執行成本減半至約 4,000 美元,並將每篇論文的評分成本降低了 10 美元(降低了 85%)。OpenAI 構建這個變體是因為許多團隊負擔不起完整的基準測試。
歷史先例是 NAS-Bench-101,其表格化構建需要超過 100 個 TPU 年的訓練。如果沒有那次性投入,每次 NAS 算法比較都會花費每次運行 1 到 100+ 個 GPU 小時,這會使得比較過程比算法本身更昂貴。

隨著基準測試越來越接近真實工作,壓縮變得越來越難:靜態預測留有巨大的節省空間,代理執行留下的空間較小,而訓練內環幾乎沒有留下空間。

可靠性是昂貴的部分
上述大部分成本僅能買到統計效力有限的單次運行測量。當你測量跨重複運行的可靠性時,靜態基準測試、代理基準測試和訓練內環基準測試都會變得更加昂貴。
一旦你不再將單次運行視為證據,代理的可靠性可能會大幅下降。最著名的例子來自 Yao 等人的 τ-bench,後來在 CLEAR (Mehta, 2025) 中被重新定義:性能可能從單次運行的 60% 下降到 8 次運行一致性下的 25%。Kapoor 等人的「AI Agents That Matter」發現,簡單的基準代理在 HumanEval 上的表現以 50 倍低的成本帕累托優於(Pareto-dominate)複雜的頂尖代理(Reflexion, LDB, LATS)。他們的留出法(holdout)分析發現,17 個基準測試中有 7 個沒有留出集;在有留出集的 10 個中,只有 5 個在適當的泛化水平上留出了任務,因此總共有 12 個基準測試未能通過其留出標準。HAL 論文指出,在原始構建下,「無作為」代理通過了 38% 的 τ-bench 航空公司任務。HAL 自身的日誌分析揭示了 TAU-bench Few Shot 腳手架中的數據洩漏,迫使其在 2025 年 12 月被移除。
另一個最近的可靠性核算來自 Rabanser、Kapoor 等人的「邁向 AI 代理可靠性科學」,該研究提出了涵蓋一致性、魯棒性、可預測性和安全性的十二項指標。他們的發現是:「最近的能力提升僅帶來了可靠性的微小改善。」HAL 的內部分析顯示了在總體準確率背後隱藏了多少脆弱性。在 SciCode 和 CORE-Bench 上,代理幾乎從未在沒有工具調用失敗的情況下完成運行。在 AssistantBench 和 CORE-Bench 上,環境錯誤發生在約 40% 的運行中。在失敗的任務中,代理在最終回答中違反明確基準指令的情況超過 60%。
一個統計上可信的 HAL 式評估,若每個單元進行 k = 8 次重測,將使 4 萬美元的總額增加到約 32 萬美元。同樣的倍數應用於 PaperBench 每次運行 9,500 美元的成本,將使單個代理的評估超過 7.5 萬美元;而在 The Well 上,多種子協議將每個架構的成本從約 960 個 H100 小時推向數千小時。可靠性成為上述每個成本類別的乘數。
HAL 已暫停新模型的評估,轉而專注於可靠性:該領域的核心數據仍帶有太多雜訊,而減少這些雜訊需要真金白銀。上述數字僅是下限;許多評估者已經因價格過高而被排除在外。
這對機器學習領域意味著什麼
評估成本現已成為問責障礙
學術團體、AI 安全研究所和記者在嘗試獨立評估尖端代理時,現在會先遇到預算約束而非技術約束。單次 GAIA 運行可能超過一名研究生的年度差旅預算。單次 PaperBench 評估(包括 LLM 裁判)約需 9,500 美元。對六個模型進行三種子比較(這類研究通常才能發表)的費用將超過 150,000 美元。既有的「運行一次基準測試並報告準確率數字」的做法,其嚴謹程度大約相當於在完美天氣下進行一次汽車碰撞測試。要超越這一現狀,需要學術系統目前尚未分配為研究算力的資金。
算力鴻溝現在包括評估
Ahmed、Wahed 和 Thompson (Science 2023) 記錄了 2021 年工業界模型的參數規模比學術界大 29 倍,且 2020 年約 70% 的 AI 博士進入工業界,而 2004 年這一比例僅為 21%。最初的「算力鴻溝」故事大多忽略了評估,因為評估在訓練面前曾經顯得很廉價。許多基準測試現在翻轉了這種關係。一個能夠微調 7B 模型的實驗室,不再能假設自己負擔得起該領域重視的基準測試。
忽視成本的排行榜獎勵浪費
當排行榜僅報告原始準確率而忽略成本時,研究人員會理性地向問題投入 token,直到數字上升。HAL 論文發現,在大多數運行中,更高的推理努力實際上降低了準確率:額外的推理算力甚至無法可靠地改善它本應優化的指標。帕累托前沿(Pareto frontiers)通過將準確率與成本掛鉤來修正比較。HAL 實施了這一點,但大多數排行榜仍未跟進。
如果只有頂尖實驗室的算力預算才能在最高成本的代理和科學基準測試上產生統計可靠的數據,那麼評估 AI 系統的社會過程就會集中在構建這些系統的同一批實驗室內部,使得外部驗證變得片面,有時甚至缺失,除非有人直接補貼成本。
各類基準測試成本摘要
所有數字均歸一化為單次評估的美元。GPU 算力按每 H100 小時 2.50 美元、每 A10 小時 1.50 美元轉換;包含適用的 API 和評分成本。Pythia(「評估可能超過預訓練」)、PDEBench(每個架構的成本取決於所選的訓練協議和硬體)以及 NAS-Bench-101 的 100 個 TPU 年構建成本被排除在外,因為它們無法乾淨地歸一化為單次評估的美元金額。
停止為同樣的評估支付兩次費用
這些數字居高不下的一個原因是該領域一直在重複運行相同的評估。頂尖實驗室支付 HAL 掃描費用,學術團體再次為部分復現付費,審計機構為其關心的模型版本支付第三次費用,記者則為抽查排行榜支付第四次費用。這些運行大多涵蓋了重疊的模型和重疊的基準測試。幾乎沒有任何底層的實例級輸出最終能讓下一個團隊在此基礎上進行構建,因為結果被報告為 PDF 中的單個準確率數字、模型卡表格或隱藏了腳手架、提示和種子的排行榜條目。上述成本數字之所以龐大,部分原因是該領域每次都在支付零售價,購買社群其他成員即使想用也無法重複使用的產出。
標準化文檔是這裡最廉價的槓桿,也是可靠性工作本身所需要的。如果一個耗資 9,500 美元的 PaperBench 執行能以共享架構導出其完整的評分軌跡,下一個研究相同論文的團隊就可以將預算花在新的擾動上,而不是重複基準線。如果一個多種子的 HAL 運行發布了每個軌跡的工具調用日誌,代理可靠性研究就能回答單個準確率數字無法回答的問題。這種節省是複合的:即使在高成本基準測試上只有 2 倍的重用率,也能比所有壓縮技術加起來為生態系統節省更多資金。
我們的處境
經濟學已經改變。不久前,訓練很貴,評估很便宜。對於耗資 5,000 萬到 1 億美元訓練的尖端 LLM 來說,評估看起來仍像是一個捨入誤差,但這個捨入誤差現在每次基準測試運行要花費數萬美元,且往往留下充滿雜訊的結果。對於神經算子、機器學習研究代理和復現基準測試,比例已經翻轉:一次可信的評估成本可能超過訓練候選模型的成本。
我們已經知道如何讓靜態評估變得更便宜。Flash-HELM、tinyBenchmarks 和 Anchor Points 都很有效。代理評估只有部分的解決方案:中等難度過濾和帕累托前沿排行榜有所幫助,但工具箱仍然匱乏。訓練內環評估沒有通用的壓縮方法;表格化預計算和嚴格的預算上限只能通過縮小基準測試的測量範圍來降低成本。可靠性增加了另一層負擔,因為重複運行提高了每種協議的價格。
該領域仍表現得好像能力是主要約束,但評估指向可靠性才是更緊迫的約束。治理機構應該想要測量單次運行準確率與 pass^k 一致性之間的差距,然而測量這個差距的成本最高。靜態基準測試的壓縮無法轉移到代理或訓練內環基準測試,而中等難度過濾仍是唯一可信的部分替代方案。忽視成本的排行榜現在在設計上就具有誤導性,因為它們獎勵額外支出,卻不報告這些支出換來了什麼。
評估現在擁有自己的算力預算、統計方法和失敗模式。它的價格也決定了誰最初有資格評估強大的系統。誰能支付評估費用,誰就能書寫排行榜。
社群
· 註冊或登入以發表評論
相關文章
其他收藏 · 0