ARC-AGI-3：首款旨在衡量 AI 代理人通用人工智慧推理能力的互動式基準測試

Hacker News·11 天前

ARC-AGI-3 是一個互動式推理基準測試，挑戰 AI 代理人從經驗中學習並即時適應新環境，旨在衡量 AI 與人類智慧之間的差距。

背景

ARC-AGI-3 是由 François Chollet 發起的通用人工智慧（AGI）基準測試最新版本，旨在衡量 AI 代理是否具備類人的推理能力。與以往靜態的拼圖任務不同，第三代測試轉向互動式環境，要求 AI 在沒有自然語言指令的情況下，透過探索、建立世界模型並持續學習來達成目標，藉此量化 AI 與人類在學習效率上的差距。

社群觀點

Hacker News 社群對於 ARC-AGI-3 的推出反應兩極，核心爭議在於這類基準測試是否真能定義 AGI 的進展。部分討論者對版本更迭的速度感到疲乏，質疑從第一代演進到第三代，是否只是在不斷移動球門。他們認為，僅僅將測試標籤冠上 AGI 並不代表技術本質的突破，若研究方向錯誤，即便工具性能提升，也未必能通往真正的通用人工智慧。有評論指出，這類測試更像是一種對抗性基準，專門挑選人類擅長但現今大型語言模型（LLM）極度拙劣的任務，例如跨回合的空間推理與規則推斷，藉此針對當前模型的弱點進行打擊。

然而，支持者則認為這種測試具有必要性。他們主張 AGI 的定義雖然模糊，但「具備類人學習能力」應被視為一項必要條件。目前主流模型在處理特定程式庫時，往往會隨時間推移而表現下降，無法像人類一樣在實作中變得更強，這正是 ARC-AGI-3 試圖捕捉的差距。社群中也有人提到，雖然目前的頂尖模型如 Claude 或 Gemini 在這些任務上的得分近乎於零，甚至連人類玩家在初次嘗試時都會感到困惑，但這正說明了 AI 在自主探索與適應新環境方面仍有巨大的進步空間。

此外，社群對於開發者 François Chollet 的動機與觀點也有深入討論。有意見認為，儘管 Chollet 經常強調 LLM 的侷限性，甚至被類比為像 Yann LeCun 一樣對 LLM 持批判態度，但這種從高處俯瞰技術缺陷的姿態，有時會讓一般大眾感到難以理解或過於挑釁。儘管如此，多數人同意這類基準測試能提供重要的信號，提醒世人 AI 尚未完全解決推理難題，並促使開發者思考如何讓模型在動態環境中更新信念，而非僅僅依賴靜態的預訓練知識。

延伸閱讀

在討論中，參與者提供了 ARC-AGI 的官方任務列表與排行榜連結（arcprize.org/tasks 與 arcprize.org/leaderboard），從中可以看到目前主流模型在這些任務上的表現數據，目前平均得分僅約 0.1%，顯示出當前 AI 技術與該基準測試目標之間的巨大鴻溝。

https://arcprize.org/arc-agi/3