衡量通用人工智慧（AGI）的進展：一種認知框架

Hacker News·18 天前

原文

我們正在推出一個衡量 AGI 進展的框架，並啟動一場 Kaggle 黑客松來構建相關評估指標，旨在透過認知科學的基礎來理解 AI 系統的各項能力。

blog.google

measuring agi cognitive framework

背景

Google DeepMind 近期發表了一篇名為《衡量 AGI 進程：認知分類法》的論文，試圖利用認知科學建立一套評估人工通用智能（AGI）的框架。該框架定義了包含知覺、學習、元認知與社交認知在內的十項核心能力，並同步在 Kaggle 平台上舉辦競賽，提撥二十萬美元獎金邀請研究社群開發具體的評估工具，以填補當前 AI 系統在複雜認知功能上的測量空白。

社群觀點

Hacker News 社群對此框架的反應呈現兩極化。部分討論者肯定建立標準化基準測試的必要性，認為這能為長期以來缺乏定義、流於空談的 AGI 討論提供結構化的基礎。然而，質疑聲浪同樣強烈，許多評論指出這更像是一場行銷活動或「移動球門」的嘗試。有觀點認為，將 AGI 拆解為各項認知指標並進行眾包測試，本質上仍是將智能視為數據壓縮或模式識別的延伸，而非真正的智能突破。

關於「社交認知」被列入 AGI 指標引發了熱烈爭論。支持者認為，AI 若要與人類協作，必須具備理解社會訊息並做出適當反應的能力；但反對者質疑，社交能力是否為智能的必要條件？有留言指出，許多具備高度智能的人類在社交或執行功能上亦存在缺陷，若以此為標準，或許連部分人類都無法通過 AGI 測試。此外，也有人擔心這會引導 AI 走向「討好人類」的偽裝，而非真正的認知進化。

另一個深層的哲學爭議在於「知識」與「智能」的區別。有評論者以原始人為例，主張二十萬年前的人類與現代人在遺傳與潛在智能上幾乎無異，差異僅在於累積的文化與知識。這引發了對大型語言模型（LLM）本質的批判：目前的 AI 主要是對人類語言遺產的「回聲」或高度壓縮，雖然在處理海量文本上表現卓越，但在缺乏感官接地與統一世界模型的情況下，是否能產生真正的推理與自主意識仍令人懷疑。

最後，社群對於 AGI 的定義權表示擔憂。有留言直言，當 Google 這樣的巨頭開始定義規則，AGI 可能會被異化為「能產生巨大商業利潤的系統」。部分開發者認為，目前的 LLM 雖然在某些專業領域超越人類，但在可靠性、監督需求與創造力上仍有顯著短板。這種「看似無所不能卻無法獨立運作」的現狀，讓許多人相信我們距離真正的 AGI 還有很長一段路，而 DeepMind 的框架或許只是在現有的技術路徑上修補評估工具，而非通往奇點的捷徑。

衡量通用人工智慧（AGI）的進展：一種認知框架

背景

社群觀點

延伸閱讀