ARC-AGI-3 首日突破：從 0% 躍升至 36%

Hacker News·10 天前

Symbolica 的 Agentica SDK 在 ARC-AGI-3 基準測試中取得了 36.08% 的未驗證評分，在成本遠低於 GPT 與 Opus 等現有大語言模型基準的情況下，表現大幅領先。

arc agi 3

背景

Symbolica 推出的 Agentica SDK 在 ARC-AGI-3 基準測試的首日取得了 36.08% 的非官方成績，遠超傳統的思維鏈（CoT）基準線。該測試旨在評估人工智慧的通用智慧與推理能力，而 Agentica 透過其代理程式框架，在大幅降低成本的同時，成功解決了 182 個關卡中的 113 個。然而，這項成績引發了關於測試規則、代理程式框架（Harness）定義以及公開測試集效力的廣泛討論。

社群觀點

針對 Agentica 的表現，Hacker News 社群首先聚焦於「代理程式框架」（Harness）的使用爭議。部分評論指出，由於該實作依賴特定的框架引導模型，因此不符合 ARC-AGI-3 官方排行榜的資格，僅能列入社群排行榜。這引發了對框架定義的辯論，有觀點認為工具調用本質上就需要框架支持，且目前主流的 AI 聊天介面同樣存在交替的工具調用邏輯，質疑官方排除框架的限制過於武斷。支持者則認為，框架開發是當前 AI 領域最有趣的環節，因為它能為大語言模型帶來更高的安全性與確定性，甚至期待看到更多針對框架效能的專門評比。

然而，ARC 創始人 François Chollet 親自參與討論並提出質疑，他指出 Agentica 的提示詞中包含大量針對 ARC-AGI-3 特定任務的設計，並非如作者所言是完全通用的框架。此外，測試集的有效性也是爭論焦點。多位評論者提醒，這項 36% 的成績是在僅有 25 個問題的「公開測試集」上取得的，而官方論文已明確指出公開集難度遠低於包含 110 個問題的私有測試集。社群對於公開測試集的結果普遍抱持保留態度，認為一旦題目與答案進入網路環境，就極易被納入模型的訓練數據中，導致測試結果失真。

更深層的爭論在於「過度擬合」的風險。即便開發者沒有直接將答案餵給模型，但透過針對公開測試集進行成千上萬次的框架參數微調，最終選出表現最佳的版本，本質上也是一種對測試數據的偏誤選擇。雖然有人辯稱使用已封存的開源模型可以規避訓練數據污染的問題，但反對者認為，只要 API 調用過程中的數據被服務商監控並吸收，未來的模型基準測試就難以保持絕對的純淨。整體而言，社群雖然肯定 Agentica 在成本控制與推理效率上的嘗試，但對於其是否真正突破了通用人工智慧的推理瓶頸，仍維持高度審慎的觀察。

ARC-AGI-3 首日突破：從 0% 躍升至 36%

背景

社群觀點

延伸閱讀