AI 基準測試已失效：我們真正需要的是什麼？

MIT Technology Review·5 天前

數十年來人工智慧一直透過機器是否勝過人類的問題來評估，但這種在真空環境下的任務級評估與現實世界脫節，我們需要轉向評估 AI 在人類團隊與工作流程中長期表現的 HAIC 基準測試。

幾十年來，評估人工智慧的標準始終圍繞著一個問題：機器是否能超越人類。從西洋棋到高等數學，從程式編碼到文章寫作，AI 模型與應用程式的表現，都是透過與執行任務的個人進行對比來測試的。

這種框架極具誘惑力：在具有明確正誤答案的孤立問題上進行「AI 對抗人類」的比較，易於標準化、對照與優化。它能產生排名，也能製造新聞頭條。

但問題在於：AI 的實際用途幾乎從未遵循其基準測試的方式。儘管研究人員和業界已開始改進基準測試，從靜態測試轉向更動態的評估方法，但這些創新僅解決了部分問題。這是因為它們仍然是在脫離人類團隊與組織工作流的情況下評估 AI 的表現，而 AI 在現實世界中的表現最終是在這些環境中展開的。

當 AI 在真空環境中接受任務層級的評估時，它實際上是被應用於混亂、複雜的環境中，且通常與多人互動。它的表現（或缺失）只有在長期的使用過程中才會顯現。這種錯位導致我們誤解了 AI 的能力，忽視了系統性風險，並誤判了其經濟與社會後果。

為了緩解這一點，現在是時候從狹隘的方法轉向評估 AI 系統在人類團隊、工作流和組織中長期表現的基準測試了。自 2022 年以來，我研究了英國、美國和亞洲的小型企業、醫療、人道主義、非營利組織和高等教育機構，以及倫敦和矽谷領先的 AI 設計生態系統中的現實 AI 部署情況。我提出了一種不同的方法，我稱之為 HAIC 基準測試（HAIC benchmarks）——即人機協作、特定情境評估（Human–AI, Context-Specific Evaluation）。

當 AI 失效時會發生什麼

對於政府和企業而言，AI 基準測試的分數看起來比供應商的宣稱更具客觀性。它們是決定 AI 模型或應用程式是否「足夠好」以進行現實部署的關鍵依據。想像一個 AI 模型在最尖端的基準測試中獲得了令人印象深刻的技術評分——98% 的準確率、突破性的速度、引人入勝的輸出。憑藉這些結果，組織可能會決定採用該模型，投入大量的財務和技術資源進行採購與整合。

然而，一旦投入使用，基準測試與現實表現之間的差距很快就會顯現。以一系列獲得 FDA 批准的 AI 模型為例，它們閱讀醫療影像的速度和準確率都高於專業放射科醫師。在從加州中心地帶到倫敦郊區的醫院放射科，我目睹了工作人員使用排名極高的放射科 AI 應用程式。他們反覆花費額外的時間，根據醫院特定的報告標準和國家特定的監管要求來解讀 AI 的輸出。在真空測試中看似能提高生產力的 AI 工具，在實踐中卻引入了延遲。

很快地，情況變得明朗：評估醫療 AI 模型的基準測試並未捕捉到醫療決策實際產生的過程。醫院依賴多學科團隊——放射科醫師、腫瘤科醫師、物理學家、護理師——共同評估患者。治療計劃很少取決於一個靜態的決定；它隨著數天或數週內出現的新資訊而演變。決策通常透過建設性的辯論，以及在專業標準、患者偏好和患者長期福祉的共同目標之間進行權衡而產生。難怪即使是高分的 AI 模型，一旦遇到現實臨床護理中複雜、協作的過程，也難以發揮預期的表現。

同樣的模式也出現在我對其他行業的研究中：當嵌入現實工作環境時，即使是在標準化測試中表現出色的 AI 模型，也無法兌現承諾。

當高基準分數無法轉化為現實表現時，即使是評分最高的 AI 很快也會被遺棄到我所說的「AI 墳場」。其代價是巨大的：時間、精力和金錢最終被浪費。隨著時間推移，這類反覆的經歷會削弱組織對 AI 的信心，而且在醫療等關鍵環境中，也可能削弱公眾對這項技術更廣泛的信任。

當目前的基準測試僅提供關於 AI 模型現實應用就緒程度的部分且可能具誤導性的信號時，這會造成監管盲點：監管是由不反映現實的指標所塑造的。這也讓組織和政府不得不承擔在敏感的現實環境中測試 AI 的風險，且往往是在資源和支持有限的情況下進行。

如何建立更好的測試

為了縮小基準測試與現實表現之間的差距，我們必須關注 AI 模型實際使用的條件。關鍵問題是：AI 能否作為人類團隊中具生產力的參與者發揮作用？它能否產生持續的集體價值？

透過我對多個行業 AI 部署的研究，我看到一些組織已經開始——有意識且實驗性地——轉向我所支持的 HAIC 基準測試。

HAIC 基準測試從四個方面重構了目前的基準測試：

從個人和單一任務表現轉向團隊和工作流表現（改變分析單位）
從具有正誤答案的一次性測試轉向長期影響（擴大時間跨度）
從正確性和速度轉向組織成果、協調品質和錯誤可偵測性（擴大成果衡量標準）
從孤立的輸出轉向上游和下游的後果（系統效應）

在這種方法出現並開始應用的組織中，第一步就是轉變分析單位。

例如，在 2021 年至 2024 年期間的一個英國醫院系統中，問題從「醫療 AI 應用是否能提高診斷準確率」擴展到「醫院多學科團隊中 AI 的存在，如何不僅影響準確率，還影響協調與商議」。醫院專門評估了使用與不使用 AI 的人類團隊在協調與商議方面的表現。多個利益相關者（醫院內外）決定了相關指標，例如 AI 如何影響集體推理、它是否能帶出被忽視的考量因素、它是加強還是削弱了協調，以及它是否改變了既有的風險與合規實踐。

這種轉變是根本性的。在系統級效應比任務級準確率更重要的關鍵情境中，這至關重要。這對經濟也同樣重要。它可能有助於重新校準目前主要基於提高個人任務表現承諾而產生的、對生產力大幅提升的過高預期。

一旦奠定了這個基礎，HAIC 基準測試就可以開始納入時間元素。

今天的基準測試類似於學校考試——對準確率進行一次性的標準化測試。但真正的專業能力評估方式則不同。初級醫生和律師是在實際工作流中、在監督下、透過反饋機制和問責結構接受持續評估的。表現是根據時間和特定情境來判斷的，因為能力是具備關聯性的。如果 AI 系統旨在與專業人士並肩作戰，其影響就應該進行縱向評估，反映出在反覆互動中表現是如何展開的。

我在一個人道主義部門的案例研究中看到了 HAIC 這一面向的應用。在 18 個月內，一個 AI 系統在實際工作流中接受評估，特別關注其錯誤的可偵測性——也就是人類團隊識別並糾正錯誤的難易程度。這種長期的「錯誤可偵測性記錄」意味著相關組織可以設計並測試特定情境的防護欄，以促進對系統的信任，儘管 AI 偶爾出錯是不可避免的。

更長的時間跨度還能讓短期基準測試所遺漏的系統級後果顯現出來。一個 AI 應用程式在狹窄的診斷任務上可能優於單一醫生，但卻可能無法改善多學科決策。更糟的是，它可能會引入系統性扭曲：讓團隊過早地停留在看似合理但不完整的答案上、增加人員的認知負荷，或產生下游的低效率，從而抵消了 AI 使用點上的任何速度或效率提升。這些連鎖反應——在目前的基準測試中通常是隱形的——對於理解真實影響至關重要。

誠然，HAIC 方法會讓基準測試變得更複雜、更耗費資源且更難以標準化。但如果繼續在脫離工作世界的純淨條件下評估 AI，我們將始終誤解它真正能為我們做什麼，以及不能做什麼。為了在現實環境中負責任地部署 AI，我們必須衡量真正重要的東西：不僅是一個模型單獨能做什麼，還包括當現實世界中的人類和團隊與之協作時，它所促成——或破壞——了什麼。

*Angela Aristidou 是倫敦大學學院（University College London）教授，也是史丹佛數位經濟實驗室（Stanford Digital Economy Lab）和史丹佛以人為本人工智慧研究院（Stanford Human-Centered AI Institute）的教職員研究員。她就人工智慧工具在公共利益方面的現實部署進行演講、寫作並提供建議。

https://technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/