newsence

ARC-AGI-3 首日突破:從 0% 躍升至 36%

Hacker News·10 天前

Symbolica 的 Agentica SDK 在 ARC-AGI-3 基準測試中取得了 36.08% 的未驗證評分,在成本遠低於 GPT 與 Opus 等現有大語言模型基準的情況下,表現大幅領先。

背景

Symbolica 推出的 Agentica SDK 在 ARC-AGI-3 基準測試的首日取得了 36.08% 的非官方成績,遠超傳統的思維鏈(CoT)基準線。該測試旨在評估人工智慧的通用智慧與推理能力,而 Agentica 透過其代理程式框架,在大幅降低成本的同時,成功解決了 182 個關卡中的 113 個。然而,這項成績引發了關於測試規則、代理程式框架(Harness)定義以及公開測試集效力的廣泛討論。

社群觀點

針對 Agentica 的表現,Hacker News 社群首先聚焦於「代理程式框架」(Harness)的使用爭議。部分評論指出,由於該實作依賴特定的框架引導模型,因此不符合 ARC-AGI-3 官方排行榜的資格,僅能列入社群排行榜。這引發了對框架定義的辯論,有觀點認為工具調用本質上就需要框架支持,且目前主流的 AI 聊天介面同樣存在交替的工具調用邏輯,質疑官方排除框架的限制過於武斷。支持者則認為,框架開發是當前 AI 領域最有趣的環節,因為它能為大語言模型帶來更高的安全性與確定性,甚至期待看到更多針對框架效能的專門評比。

然而,ARC 創始人 François Chollet 親自參與討論並提出質疑,他指出 Agentica 的提示詞中包含大量針對 ARC-AGI-3 特定任務的設計,並非如作者所言是完全通用的框架。此外,測試集的有效性也是爭論焦點。多位評論者提醒,這項 36% 的成績是在僅有 25 個問題的「公開測試集」上取得的,而官方論文已明確指出公開集難度遠低於包含 110 個問題的私有測試集。社群對於公開測試集的結果普遍抱持保留態度,認為一旦題目與答案進入網路環境,就極易被納入模型的訓練數據中,導致測試結果失真。

更深層的爭論在於「過度擬合」的風險。即便開發者沒有直接將答案餵給模型,但透過針對公開測試集進行成千上萬次的框架參數微調,最終選出表現最佳的版本,本質上也是一種對測試數據的偏誤選擇。雖然有人辯稱使用已封存的開源模型可以規避訓練數據污染的問題,但反對者認為,只要 API 調用過程中的數據被服務商監控並吸收,未來的模型基準測試就難以保持絕對的純淨。整體而言,社群雖然肯定 Agentica 在成本控制與推理效率上的嘗試,但對於其是否真正突破了通用人工智慧的推理瓶頸,仍維持高度審慎的觀察。

延伸閱讀

  • ARC-AGI-3 社群排行榜:展示包含代理程式框架在內的各項實作排名。
  • Symbolica ARC-AGI-3 代理程式原始碼:託管於 GitHub,包含引發爭議的提示詞實作細節。
  • ARC-AGI-3 技術論文:詳細說明官方對於框架限制的邏輯以及測試集設計原理。
https://symbolica.ai/blog/arc-agi-3