AI 基準測試存在 Y 軸問題

Lesswrong·3 個月前

AI 基準測試通常缺乏自然單位，這使得將其分數解讀為進步的線性指標，或根據其斜率預測未來趨勢變得具有誤導性。我們應該對「大雜燴式」的指標保持警惕，轉而優先考慮具有自然單位或基於原則選題、能反映真實世界能力的基準測試。

懶人包（TLDR）： 人們喜歡將基準測試（benchmark）的分數隨時間繪製成圖表，然後進行數學運算，尋找加速點、轉折點、解讀斜率或延伸表面的趨勢。但除非這些分數具有「自然單位」，否則那些數學運算實際上無法告訴你任何真實的情況。而大多數的分數都沒有自然單位。

可以把基準測試分數想像成「真實能力空間」在哈哈鏡上的投影，它透過對「達成該任務在『AI 進步單位』中佔多少分量」賦予扭曲的分值，從而拉伸某些區域並壓縮其他區域。在沒有規範單位的軸上，繪製出的圖表會因我們對不同進步片段賦予的權重而大相徑庭。^([1])
認識論狀態：我沒有仔細審核這篇文章，也沒有基準測試或統計學的專業背景。

基準測試分數 vs 「AI 進步單位」

基準測試看起來像尺；它們給出的分數讓我們想將其視為對 AI 進步的（帶噪聲的）測量。但由於大多數基準測試分數是以非常模糊的單位表示的，這可能會產生誤導。

典型的基準測試是一堆任務的大雜燴，加上一個總計評分規則，例如「完成比例」。^([2])
✅ 這樣的分數可以幫助我們……
- 粗略地對模型進行排名（「在程式碼能力上，A 是否大於 B？」）
- 操作化並追蹤里程碑（「模型現在能做到 X 了嗎？」）
- 分析這類數據^([3])
❌ 但它們在支持以下結論時非常不可靠：
- 「看起來 AI 的進步正在放緩」/「那是能力上的重大飛躍！」
- 「我們已經完成通往超人類程式碼技能的一半路程了」
- 「模型預計在年底達到 80%，這意味著……」
這是因為要有效地比較分數的大小（或解讀曲線的形狀），分數必須與我們實際試圖測量的對象成正比。
而大雜燴式的指標無法保證這一點：
- 包含哪些任務以及如何加權通常是主觀選擇，這會拉伸或壓縮量表的不同區域。
- 因此，早期的 10 分增長所反映的「真實進步」可能與後期的 10 分增長截然不同——設計者可能在基準測試中塞滿了集中在某個難度等級的任務。

（下方的微型附錄深入探討了這個問題，並以 FrontierMath 為例說明這些問題在實踐中是如何產生的。）

例外：具有較自然單位的基準測試

在以下情況下，我對 Y 軸最為懷疑：

對於基準測試究竟試圖測量什麼沒有明確答案。
基準測試具有高度的異質性。
我找不到任務選擇和評分的（有原則的）基本理據。

而對於以下 Y 軸，我則較為放心：

針對某些能力的「自然」指標——直接估計現實世界數值的基準測試。
- 這些估計值往往較難獲得，但我們最終不會強加虛假意義於其上。
- 例子：METR 的時間跨度（time horizons）^([4])、提升/下降研究（人類在 AI 幫助下完成 X 比沒有幫助時快多少）、像是「代理人（agent）能可靠規劃多少步」、純粹的上下文窗口長度、代理人的利潤等。
具有硬編碼單位的「玩具」指標，其分數是活動本身固有的。
- 這些並不直接反映我們關心的量值，但測量結果是清晰的，結合其他資訊時會很有用^([5])。
- 例子：Elo 等級分、模型與自身副本學會最佳協作所需的輪數、Brier 分數。
或者異常周詳的「任務包」方法
- 這可能意味著：致力於測量特定現象、投入大量資源尋找有原則/統一的任務抽樣方式、使基準測試的評分和組成透明化等——且理想情況下，嘗試根據現實世界的指標來驗證所得分數。
- 我對於將這類基準測試當作尺來使用仍持謹慎態度，但有可能我們運氣好，通往通用人工智慧（AGI）的路徑（或任何我們應該關注的路徑）剛好被劃分為我們默認會平等加權的步驟。
- 例子：如果我理解正確，GDPVal 是嘗試獲取知識工作任務的代表性樣本，然後在與人類的盲測成對比較中測量 AI 的勝率。^([6])

聚合（Aggregation）有幫助嗎？

我們可能希望在一個真正龐大的任務集中（一個收集了許多其他大雜燴的「元大雜燴」），扭曲會大多相互抵消。或者我們可以嘗試更複雜的方法，例如透過縫合許多現有的基準測試來推斷出一般能力的潛在測量值。^([7])

我相當不確定，但整體持懷疑態度。我的兩個主要擔憂是：

主要的扭曲實際上不會抵消（或者說：垃圾進，垃圾出）。在創建什麼樣的基準測試方面，可能存在一堆系統性偏差/生態系統層級的選擇效應。^([8]) 而且大多數基準測試看起來並非獨立，所以如果 20 個基準測試顯示相同的趨勢，那可能只給了我們大約 3 個數據點，而不是 20 個。
尺度更模糊：將更難關注我們實際試圖測量的東西。
- 你最終可能會將有用的信號/模式埋沒在其他數據中，或者只是以一種讓解讀結果變得更難的方式來組合事物。
- 而且這可能會讓人更想專注於模糊的能力概念，而不是識別特別關鍵的維度或路徑。

我對追蹤一組窄領域基準測試中的模式持稍微樂觀的態度。^([9]) 但歸根結底，我時常覺得聚合式的努力是試圖從基準測試中榨取超出其所能提供的信號，並在其他方法更有效時分散了我們的注意力。

謊言、該死的謊言與基準測試*

*— *改編自軼聞

這讓我們處於什麼境地？

非基準測試方法通常更好

在試圖理解 AI 進步時：

抵制將一切轉化為純量（scalar）的衝動
- 識別並追蹤關鍵里程碑或能力區間，而不是將它們塌縮成一個數字。直接追蹤這些，而不是組合里程碑並將其簡化為某個總體數字。要談論模型變得「好多少」，只需將樣本輸出並排對比即可。^([10])
可能應該少關注進步的速率，多關注諸如哪種 AI 轉型可能較早/較晚出現、哪類 AI 系統在不同階段最重要、瓶頸會在哪裡等等。
更多地關注真實的量值
- 例如：AI 使用/擴散數據、經濟影響估計（或至少是像對不同事物的支付意願之類的數據），或 AI 開發的投入（如投資）。
- 這些數據較具滯後性且較難測量，但通常更有意義。

注意 Y 軸問題

如果你確實想使用基準測試來理解 AI 進步，請至少做到以下其中一點：

先檢查單位。 只有在你確認基準測試的單位足夠自然時，才認真對待分數。^([11])
假設單位是模糊的。 將大雜燴基準測試視為粗略/部分的排序或里程碑的集合，並且只提出可以用這類工具回答的問題（不涉及精確測量）。
- 這意味著不要談論「通往 AGI 的進度比例」（至少不要從基準測試分數中得出），不要將分數跳升解讀為主要的 AI 進步加速，也不要在圖表上延伸趨勢線。
- （我很想說分享「大雜燴基準測試隨時間變化」的圖表本質上就有點誤導——人們一定會過度解讀曲線形狀等。但我還不確定。）

改善這方面的 AI 基準測試生態系統可能也是值得的。我希望能看到更多對不同基準測試的測試/驗證（例如：看看我們能多精確地預測不同任務完成的順序），或者只是加大對具有相當自然尺度的基準測試的投入。（METR 的時間跨度工作有各種局限性）。

需要澄清的是：我這裡所謂的「Y 軸問題」並不限於 AI 基準測試，而且 AI 基準測試還有許多其他我基本上忽略的問題。我寫這篇文章是因為我一直看到這種動態，卻找不到任何明顯的連結可以引用。

額外筆記 / 非正式附錄

以下內容比上面的部分更為粗糙。

I. Y 軸問題在實踐中的更詳細例子

讓我們以 FrontierMath 為例。^([12]) 它由 300 個對人類來說通常很難的問題組成，^([13]) 並標有難度等級。如果一個模型得分為 50%，這意味著它解決了其中一半的問題。

這個分數告訴了我們關於「真實能力」的什麼資訊？

嗯，解決一半的問題可能標誌著該模型比解決三分之一問題的模型「更擅長數學」——也就是說，我們得到了一個順序（ordinal）測量。（儘管即使是這點也很不穩定；成功往往相當均勻地分佈在各個難度層級，^([14]) 而且看起來有些模型解決的低階問題較少，但在高階問題上卻擊敗了其他模型。這削弱了即使在這麼窄的領域中也存在難度的規範/客觀排名的說法；因此，得分 30% 的模型實際上可能比得分 50% 的模型更擅長數學，只是在某些附帶技能或更專業的「數學」子技能上較弱。）

那麼實際的量值呢——這是否能幫助我們估計數學技能的真實測量值，或 AI 在數學方面的進步？ 我認為並非如此：

將「模型解決了這組問題的一半」解讀為「我們已經完成數學自動化的一半路程」顯然是愚蠢的。
同樣不清楚得分 30% 和 50% 的模型之間的差異應該是什麼樣子——我們不能簡單地說前者已經完成了通往後者路徑的 3/5。
而且像「20% 的突然跳升」這類事情很難解讀。如果不了解任務組成以及它如何映射到我們感興趣的「數學能力」，我們就無法真正區分：
- 「新的訓練方案確實加速了數學能力的進步」
- 與「模型攻克了一項技能，從而解鎖了 60 個類似的問題」
- 我們並不真正了解這組問題的組成以及它如何映射到「AI 數學能力」，所以除非我們深入探究，否則我們無法區分：
  - 60 個新問題在一步之內被解決，是因為例如最新的訓練方案對數學技能非常有幫助；這是一個真正的加速。
  - 與……因為它們本質上是相似的，而成功被單一缺乏的性向所阻礙。
同樣的問題也適用於外推。

因此，為了學到有用的東西，你最終不得不問：解決了哪些問題？它們是否反映了真正的新技能？等等。但一旦你開始這樣做，基準測試就不再是一個定量測量，而變得更像是一組潛在有用的測試案例。

II. 發生了什麼事的抽象草圖（基準測試作為扭曲的投影）

我的心理模型是：

基準測試是我們關心的某個能力維度的投影。^([15])
除非構造得非常仔細，否則投影會相當扭曲。
- 它拉伸了某些區域（小的能力增益變成了大的分數跳升），並壓縮了其他區域（大的能力增益變成了小的分數變化）。
- 這種扭曲的程度和形狀取決於問題是如何抽樣和分組的。^([16])
當你隨時間繪製基準測試分數時，你處理的是扭曲的投影，而不是「真實」能力空間中的測量或趨勢。
而要從投影中的趨勢線轉向「真實能力」中的趨勢，我們需要撤銷這種扭曲。
但我們實際上對它的了解還不足以做到這一點。^([17])

在實踐中，現有的基準測試扭曲程度如何？

我不知道；我有興趣看到有人嘗試深入研究這一點。但大雜燴式的基準測試似乎不會在同一時間看到重大的跳升或平台期等，而且基準測試上的跳升並不總是與我對哪些系統有顯著改進的直覺看法一致（不過我完全沒有系統地審查這一點，所以這是一個薄弱的觀點）。
至少在目前，我通常預期人們觀察到的「曲線形狀」信號（對於大雜燴基準測試）是由於投影的任意特徵（任務分組的產物或選擇偏差等）造成的。總體而言，對於「完成任務的比例」基準測試，我可能更相信我的主觀看法，而不是這類數據。

一個潛在的複合問題（特別是針對 AGI 導向的基準測試）：沒有致力於特定的維度/能力空間路徑

讓解讀這些基準測試/投影變得更難——並誘使我們在不知道數字含義的情況下分析數字——的一個原因是，沒有人同意我們試圖測量的維度是什麼。（這裡可能也有類似合流聯盟（conflationary-alliance）的動態在起作用；許多人對測量「一般能力」感興趣，儘管他們對這意味著什麼可能有不同的願景。）

特別是對於專注於 AGI 的基準測試（或人們試圖測量「一般智能」或「我們向 AGI 邁進了多少」的基準測試），很容易將一堆深層的困惑掩蓋起來。^([18]) 我不知道從現在到 AGI 之間的步驟會是什麼，最終追蹤的是一些有點隨機的東西。

我認為闡明這些路徑會有很大幫助（即使它們是程式化的；例如分成離散的階段）。

^(^) 你可以在更廣泛的誤導性 Y 軸和統計數據謊言論述中看到類似現象；例如參見這篇。（當然還有相關的 xkcd。）
^(^) 如果我沒記錯，這包括 FrontierMath、ARC-AGI、Humanity’s Last Exam、GPQA Diamond 等。不過，正如我下面將討論的，也有例外。
^(^) 我認為這實際上可以非常強大。例如：
- 我們可以觀察滯後情況，看看例如不同類型的模型有多接近，或者推理成本下降的速度有多快。
- 或者我們可以觀察跨領域的基準測試模式，例如：「在 X 類基準測試中擊敗其他的模型，通常在 Y 類基準測試中是否也更好？」
- 或者，如果我們也收集了更多人類基準數據，我們可以問諸如「對於我們知道 AI 系統能做的任務，它們比人類便宜/快多少」之類的問題。
  特別是，比率可以幫助我們抵消不可靠的單位，例如「給定評分系統中 1 分增長所代表的 AI 進步的確切量」。（儘管如果基準測試趨於飽和，比率仍可能繼承問題，因為當每個人都達到同樣的天花板時，追趕就變得毫無意義。）
^(^) 模型通常能完成需要人類花費那麼長時間的軟體任務的最長時間跨度。
^(^) 這裡存在一種張力：窄指標較難推廣（「在圍棋上超越人類」對 AI 風險等級意味著什麼？）。但在其領域內，它們比廣泛指標在其領域內更可靠。
鑑於我們在製作「自然」的通用指標方面表現多麼糟糕，我寧願擁有我可以信任的較弱推廣性。
^(^) 或者，你可以嘗試將某些關鍵能力分解為一堆相當獨立的子任務或先決技能。如果你設法（仔細地）將其拆解為足夠多的碎片，並且你願意打賭這些不同子技能出現的時間會相當隨機地分佈，那麼（即使不知道哪一個最終會是「最難的」）你也可以得到一個模型來衡量你距離最終目標有多近。
^(^) 或者你可以找到其他方法使用基準測試來獲得元分數（meta-scores），例如根據編碼代理人（coding agents）透過微調能提高較弱模型在某些基準測試上多少分數來對其進行測試。
^(^) 例如，如果現有的基準測試無法區分相似的模型，那麼尋找能區分它們的基準測試的壓力可能會增加，這可能意味著，如果發布的模型在某些「真實能力」維度上成群分佈，我們的超級基準測試就會對這些集群周圍的任務進行過度抽樣。
^(^) 例如 ARC-AGI 試圖專門關注流體智能。如果這種方法是合理的（我還沒仔細思考過），你可以嘗試將其與評估記憶/知識的東西配對。也許你總是根據一些保留（hold-out）基準測試來檢查這些東西，以嘗試修正爬山算法（hill-climbing）等問題。
然後，如果你同時看到「大跳升」，你可能更有理由預期進步確實正在加速。
^(^) 也許 LMArena 是一種眾包這類判斷並將其轉化為數字的方法；我還沒深入研究那裡發生了什麼。（不過我預期單位仍然是「模糊的」。）
^(^) 對我來說，這主要是 METR 的時間跨度。（利益衝突備註：我是 Ben West 的朋友，他參與了那個項目。不過公平地說，我也向他抱怨過很多次。）
^(^) 我隨機選擇了 FrontierMath（為了避免刻意挑選或針對任何特定事物，我只是在 12 月 20 日去了這裡並選擇了排名第一的基準測試）。
這裡我談論的是原始（？）的 3 個層級；現在還有一個額外困難的「第 4 層級」以及一組開放性問題。
此外，我是在指出局限性，而沒有討論該基準測試如何有用或它做對的各種事情。
^(^) 眾所周知，「對人類的難度」並不總是能整齊地映射到「對 AI 的難度」；這裡經典的引用是「莫拉維克悖論（Moravec’s paradox）」。在這方面我腦中迴盪的一句話是：智能/能力測試需要共享的簡單性先驗（simplicity priors）。Greg Burnham 的「反對基準測試異質性（Contra Benchmark Heterogeneity）」說明了這在基準測試中發揮作用的一種重要方式。引用如下：
……如果基準測試能預測某些實際任務的成功，那就太好了。對於人類來說，這至少在某些領域可以透過學術風格的測試來實現。然而，這依賴於人類在測試表現和實際表現之間的相關性，而我們不能在 AI 系統中依賴同樣的相關性。對相關任務進行全面模擬對 AI 系統來說是理想的，但要達到那一步需要大量的投資。與此同時，我們可以對 AI 系統使用學術風格的測試，但我們應該讓它們保持狹窄的目標，以便我們能掌握它們測量的內容。
Greg Burnham 也專門針對 FrontierMath 寫了一些不錯的東西，包括這裡。引用：
我的懷疑是，FrontierMath 的很大一部分問題可以透過以相對直接的方式應用高等數學技術來解決。如果有的話，這可能會掩蓋它們對人類的難度：大多數人沒有正確的知識，而沒有正確的知識，問題似乎是不可能的；但有了正確的知識，它們就不那麼糟了。
^(^) 今天 [12 月] 有一個「第 4 層級」，包含特別困難的問題，我猜測那裡的相關性更強（順便說一句，當我以極其敷衍的方式運行時，我得到了 0.62 的皮爾森積差相關係數）。
但如果一個系統能解決 {~40% 的第 1-3 層級問題和 ~20% 的第 4 層級問題}，而另一個系統能解決 {60% 的第 1-3 層級問題和 ~5% 的第 4 層級問題}，這意味著什麼仍不清楚，而這似乎正是目前 Gemini 3 Flash 和 Gemini 3 Pro 的情況。重點基本上是模型並非穩定地在越來越難的問題上取得進展。
^(^) 如果你想簡化這一點，你可以將其視為代表 AI 系統/實體能力強弱的唯一真實數字。否則：
不存在規範的「能力維度」（例如考慮到不同的模型和實體發現不同的任務更難/更容易，而且可能根本沒有一種真實的方法來對一個邏輯極佳但記憶力差的技能組與其相反的技能組進行排名）。但我們通常可以合理地選擇一個特定的能力維度來關注；例如，當我們問時間線是否在加速/放緩時，我們通常是在問類似「我們預期通往 AGI 的路徑上的進展是否在加速？」之類的問題。因此，我們尋找的「真實」維度可能會變成預期通往 AGI 的路徑維度。或者我們可以鎖定我們關心的特定技能，例如編碼能力（儘管那樣的話，詢問你心目中的「真實」指標是什麼仍然很有用）。
^(^) 如果你真的搞砸了這種映射，你不僅會得到扭曲。你可能會得到例如「倒退」；當「我們關心的真實能力」上升時，分數反而下降。我認為我們在避免這種情況方面做得好得多。（有一種相關的情況，我們可能會看到這種表面的「倒退」：如果我們正在觀察一個非常專業的基準測試，它不在 AI 公司關心的路徑上，或者與某些深層的「一般智能」因素不高度相關。當「真實能力」上升時，那個分數可能會下降，但我認為這不一定是扭曲的投影。這裡更好的模型可能是將其視為其他事物的投影——能力空間中的某些其他維度/路徑——並考慮該事物與我們正在思考的「真實能力」維度之間的關係。）
^(^) 事實上，我認為人們（包括基準測試創建者，包括那些關注 AI 安全或類似領域的人）通常非常不清楚他們實際試圖測量的是什麼。
（還有另一個相關的 xkcd。）
^(^) 掩蓋的方式包括：平滑化的模式、獲取某種「一般能力的潛在測量值」的方法。

— Lesswrong