newsence
ADeLe:預測並解釋跨任務的 AI 性能表現

ADeLe:預測並解釋跨任務的 AI 性能表現

Microsoft Research·4 天前

微軟研究人員推出了 ADeLe,這是一種新的評估框架,透過對 18 項核心能力進行評分來表徵模型與任務,能以 88% 的準確率預測新任務的表現。此方法超越了傳統基準測試,提供結構化的能力分析,解釋模型在任務複雜度增加時成功或失敗的原因。

概覽

  • AI 基準測試報告特定任務的表現,但對底層能力的了解有限;ADeLe 透過對 18 種核心能力的任務和模型進行評分來評估模型,從而實現任務需求與模型能力之間的直接比較。

  • 利用這些能力評分,該方法能以約 88% 的準確率預測新任務的表現,包括 GPT-4o 和 Llama-3.1 等模型。

  • 它建立能力概況並識別模型可能成功或失敗的地方,突顯跨任務的優勢和局限性。

  • 透過將結果與任務需求聯繫起來,ADeLe 解釋了表現上的差異,展示了表現如何隨任務複雜度的增加而變化。

AI 基準測試報告了大型語言模型 (LLMs) 在特定任務上的表現,但對於驅動其表現的底層能力卻鮮有洞察。它們無法解釋失敗,也無法可靠地預測新任務的結果。為了探討這一問題,微軟研究人員與普林斯頓大學和瓦倫西亞理工大學合作,推出了 ADeLe (在新分頁中開啟) (AI Evaluation with Demand Levels),這是一種利用廣泛的能力集(如推理和領域知識)來表徵模型和任務的方法,以便預測新任務的表現,並將其與模型的特定優勢和劣勢聯繫起來。

在發表於《自然》(Nature) 雜誌的論文「General Scales Unlock AI Evaluation with Explanatory and Predictive Power (在新分頁中開啟)」中,團隊描述了 ADeLe 如何超越總體基準測試分數。它不再將評估視為一系列孤立的測試,而是使用同一套能力評分來代表基準測試和 LLMs。這些評分隨後可用於估計模型在未曾遇過的任務上的表現。該研究得到了 微軟加速基礎模型研究 (AFMR) 資助計畫的支持。

基於 ADeLe 的評估

ADeLe 針對 18 種核心能力(如注意力、推理、領域知識)對任務進行評分,並根據每項任務對各項能力的需求程度,賦予 0 到 5 之間的分值。例如,基礎算術題在定量推理方面的得分可能較低,但奧林匹亞級別的證明題得分會高得多。

在許多此類任務中評估模型會產生一個能力概況——這是一個關於模型在哪裡表現良好以及在哪裡崩潰的結構化視圖。將此概況與新任務的需求進行比較,就可以識別導致失敗的特定差距。該過程如圖 1 所示。

圖 1。上圖:(1) 模型在 ADeLe 基準測試中的表現,以及 (2) 生成的能力概況,顯示每個模型在核心能力上的優勢和局限。下圖:(1) 對每個任務應用 18 項評分標準,以及 (2) 生成的任務概況,顯示每個任務所需的能力。

評估 ADeLe

利用 ADeLe,團隊評估了一系列 AI 基準測試和模型行為,以了解當前的評估捕捉到了什麼以及遺漏了什麼。結果顯示,許多廣泛使用的基準測試提供了不完整且有時具有誤導性的模型能力圖景,而更具結構化的方法可以澄清這些差距,並幫助預測模型在新環境中的行為。

ADeLe 顯示,許多基準測試並未隔離其旨在測量的能力,或者僅涵蓋了有限的難度範圍。例如,旨在評估邏輯推理的測試可能也高度依賴專業知識或元認知。其他測試則集中在狹窄的難度範圍內,忽略了更簡單和更複雜的情況。透過根據任務所需的能力對其進行評分,ADeLe 使這些不匹配變得可見,並提供了一種診斷現有基準測試並設計更好基準測試的方法。

將此框架應用於 15 個 LLMs,團隊使用 18 種能力的 0-5 分評分構建了能力概況。對於每種能力,團隊測量了表現如何隨任務難度變化,並將模型有 50% 成功機會的難度級別作為其能力評分。圖 2 以雷達圖的形式展示了這些結果,顯示了模型在哪裡表現良好以及在哪裡崩潰。

圖 2。15 個 LLMs 在 18 種能力上的能力概況。左:OpenAI 模型。中:Llama 模型。右:DeepSeek-R1 蒸餾模型。

這項分析顯示,模型在不同能力上的優勢和劣勢各不相同。新模型通常優於舊模型,但在所有能力上並非始終如一。在知識密集型任務上的表現強烈依賴於模型規模和訓練,而以推理為導向的模型在需要邏輯、學習、抽象和社交推理的任務上顯示出明顯的進步。這些模式通常需要跨不同基準測試進行多次獨立分析,且當任務需求未得到嚴格控制時,仍可能產生矛盾的結論。ADeLe 在單一框架內將它們呈現出來。

ADeLe 還實現了預測功能。透過將模型的能力概況與任務需求進行比較,它可以預測模型是否會成功,即使是在不熟悉的任務上。在實驗中,這種方法對 GPT-4o 和 LLaMA-3.1-405B 等模型的準確率達到了約 88%,優於傳統方法。這使得在部署前解釋和預見潛在失敗成為可能,提高了 AI 模型評估的可靠性和可預測性。

AI 系統是否真正具備推理能力是該領域的核心爭論。一些研究報告了強大的推理表現,而另一些研究則顯示它們在規模擴大時會崩潰。這些結果反映了任務難度的差異。ADeLe 顯示,標記為測量「推理」的基準測試在需求上各不相同,從基礎問題解決到結合了高級邏輯、抽象和領域知識需求的任務。同一個模型在低需求測試中可能得分超過 90%,而在更高需求的測試中得分低於 15%,這反映的是任務要求的差異,而非能力的改變。

像 OpenAI 的 o1 和 GPT-5 這樣以推理為導向的模型,與標準模型相比顯示出可衡量的進步——不僅在邏輯和數學方面,在解釋用戶意圖方面也是如此。然而,隨著任務需求的增加,表現會下降。AI 系統可以推理,但僅限於一定程度,而 ADeLe 為每個模型識別了那個臨界點。

影片系列

On Second Thought

與 Sinead Bovell 合作的影片系列,圍繞著每個人都在問的關於 AI 的問題展開。透過來自微軟各地的專家聲音,我們剖析了這項快速發展技術的緊張與承諾,探索正在演變的事物以及未來的可能性。

探索系列

在新分頁中開啟

展望未來

ADeLe 旨在隨著 AI 的進步而演進,並可擴展到多模態和具身 AI 系統。它還有潛力作為 AI 研究、政策制定和安全審計的標準化框架。

更廣泛地說,它推動了一種更系統化的 AI 評估方法——一種能夠解釋系統行為並預測表現的方法。這項工作建立在早期的努力之上,包括微軟關於將心理測量學應用於 AI 評估的研究,以及近期關於 社會化 AI (Societal AI) 的工作,強調了 AI 評估的重要性。

隨著通用 AI 系統的發展持續超越現有的評估方法,像 ADeLe 這樣的方法為在現實世界使用中進行更嚴格和透明的評估提供了一條路徑。研究團隊正致力於透過更廣泛的社群來擴大這項工作。更多的實驗、基準測試註釋和資源可在 GitHub (在新分頁中開啟) 上獲得。

在新分頁中開啟 文章 ADeLe: Predicting and explaining AI performance across tasks 首次出現在 Microsoft Research

https://microsoft.com/en-us/research/blog/adele-predicting-and-explaining-ai-performance-across-tasks/