newsence
衡量通用人工智慧(AGI)的進展:一種認知框架

衡量通用人工智慧(AGI)的進展:一種認知框架

Hacker News·18 天前

我們正在推出一個衡量 AGI 進展的框架,並啟動一場 Kaggle 黑客松來構建相關評估指標,旨在透過認知科學的基礎來理解 AI 系統的各項能力。

背景

Google DeepMind 近期發表了一篇名為《衡量 AGI 進程:認知分類法》的論文,試圖利用認知科學建立一套評估人工通用智能(AGI)的框架。該框架定義了包含知覺、學習、元認知與社交認知在內的十項核心能力,並同步在 Kaggle 平台上舉辦競賽,提撥二十萬美元獎金邀請研究社群開發具體的評估工具,以填補當前 AI 系統在複雜認知功能上的測量空白。

社群觀點

Hacker News 社群對此框架的反應呈現兩極化。部分討論者肯定建立標準化基準測試的必要性,認為這能為長期以來缺乏定義、流於空談的 AGI 討論提供結構化的基礎。然而,質疑聲浪同樣強烈,許多評論指出這更像是一場行銷活動或「移動球門」的嘗試。有觀點認為,將 AGI 拆解為各項認知指標並進行眾包測試,本質上仍是將智能視為數據壓縮或模式識別的延伸,而非真正的智能突破。

關於「社交認知」被列入 AGI 指標引發了熱烈爭論。支持者認為,AI 若要與人類協作,必須具備理解社會訊息並做出適當反應的能力;但反對者質疑,社交能力是否為智能的必要條件?有留言指出,許多具備高度智能的人類在社交或執行功能上亦存在缺陷,若以此為標準,或許連部分人類都無法通過 AGI 測試。此外,也有人擔心這會引導 AI 走向「討好人類」的偽裝,而非真正的認知進化。

另一個深層的哲學爭議在於「知識」與「智能」的區別。有評論者以原始人為例,主張二十萬年前的人類與現代人在遺傳與潛在智能上幾乎無異,差異僅在於累積的文化與知識。這引發了對大型語言模型(LLM)本質的批判:目前的 AI 主要是對人類語言遺產的「回聲」或高度壓縮,雖然在處理海量文本上表現卓越,但在缺乏感官接地與統一世界模型的情況下,是否能產生真正的推理與自主意識仍令人懷疑。

最後,社群對於 AGI 的定義權表示擔憂。有留言直言,當 Google 這樣的巨頭開始定義規則,AGI 可能會被異化為「能產生巨大商業利潤的系統」。部分開發者認為,目前的 LLM 雖然在某些專業領域超越人類,但在可靠性、監督需求與創造力上仍有顯著短板。這種「看似無所不能卻無法獨立運作」的現狀,讓許多人相信我們距離真正的 AGI 還有很長一段路,而 DeepMind 的框架或許只是在現有的技術路徑上修補評估工具,而非通往奇點的捷徑。

延伸閱讀

  • Kaggle Hackathon: 衡量 AGI 進程:認知能力競賽頁面。
  • SWE-bench: 留言中提到的軟體工程基準測試,常被拿來與此類新框架做比較。
  • Devin: 討論中提及的 AI 工程師案例,用於對比 AI 宣傳熱度與實際落地表現的落差。
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/