通用人工智慧並非多模態

The Gradient·11 個月前

本文主張真正的通用人工智慧（AGI）需要具身智慧與物理世界模型，而非僅僅透過預測下一個標記來擴展多模態網路或進行符號處理。作者認為目前的語言模型依賴的是複雜的語法與啟發式算法，而非對物理現實及感覺運動推理的真正理解。

「在將語言投射回思維模型的過程中，我們忽視了支撐我們智慧的內隱具身理解。」——Terry Winograd

近期生成式 AI 模型的成功讓一些人相信通用人工智慧（AGI）已迫在眉睫。雖然這些模型似乎捕捉到了人類智慧的本質，但它們卻違背了我們對智慧最基本的直覺。它們的出現並非因為它們是解決智慧問題的深思熟慮方案，而是因為它們在我們已有的硬體上有效地實現了規模化（scaled）。受規模化成果的誘惑，有些人開始相信這為通往 AGI 提供了一條清晰的路徑。最具代表性的案例是多模態方法，其中大規模模組化網絡針對一系列模態進行優化，這些模態結合在一起時「看起來」具有通用性。然而，我認為這種策略在短期內註定會失敗；它不會產生能執行如感覺運動推理、運動規劃和社交協作等任務的人類級 AGI。與其試圖將各種模態拼湊成一個大雜燴 AGI，我們應該追求將具身化（embodiment）以及與環境的互動視為首要任務的智慧路徑，並將以模態為中心的處理視為一種湧現現象。

前言：對通用人工智慧（AGI）——重點在於「通用」——的非具身定義，排除了一些我們預期 AGI 應該能解決的關鍵問題領域。真正的 AGI 必須在所有領域都具備通用性。 任何「完整」的定義至少必須包含解決源於物理現實問題的能力，例如修理汽車、解開繩結、準備食物等。正如我將在下一節討論的，解決這些問題需要一種從根本上置於類似物理世界模型中的智慧形式。關於此問題的更多討論，請關注即將由 MIT Press 出版、George Konidaris 編輯的《設計智慧》（Designing an Intelligence）。

為什麼我們需要世界，以及大型語言模型如何假裝理解它

摘要：我首先論證真正的 AGI 需要對世界有物理性的理解，因為許多問題無法轉化為符號操作問題。有些人認為大型語言模型（LLM）正透過預測下一個標記（next token prediction）來學習世界模型，但更有可能的是，LLM 正在學習一套啟發式技巧（bags of heuristics）來預測標記。這使得它們對現實的理解僅停留在表面，並導致了對其智慧的虛假印象。

預測下一個標記這一目標最令人震驚的結果是，它產出的 AI 模型反映出一種極其類似人類對世界的理解，儘管它們從未像我們一樣觀察過世界。 這一結果導致了關於「理解語言」甚至「理解世界」含義的混淆——而我們長期以來一直認為後者是理解語言的前提。對於 LLM 能力的一種解釋來自於一種新興理論，該理論認為它們透過預測下一個標記誘導出了世界模型。該理論的支持者引用了頂尖 LLM 在各種基準測試中的出色表現、大型模型收斂到相似內部表示的現象，以及他們最喜歡的「語言反映了現實結構」這一觀點的演繹——這一觀點至少曾被柏拉圖、維根斯坦、傅柯和艾可所支持。雖然我通常支持挖掘深奧文本以獲取研究靈感，但我擔心這個隱喻被過於字面地理解了。LLM 真的學習了隱含的世界模型嗎？否則它們如何能如此精通語言？

支持 LLM 世界模型假設的一個證據來源是 Othello 論文，研究人員能夠從訓練於「合法棋步」序列的 Transformer 模型的隱藏狀態中預測出 Othello 棋盤狀態。然而，將這些結果推廣到自然語言模型存在「許多」問題。首先，雖然 Othello 的棋步「可以被證明」能用於推導出棋盤的完整狀態，但我們沒有理由相信物理世界的完整圖景可以透過語言描述來推斷。 Othello 遊戲與物理世界中許多任務的不同之處在於，Othello 從根本上存在於符號領域，僅僅是為了方便人類遊玩而使用物理標記來實現。 一場完整的 Othello 遊戲只需紙筆即可進行，但一個人無法僅靠紙筆來掃地、洗碗或開車。要解決這類任務，你需要某種超出人類僅能「言說」範圍的物理世界概念。這種世界概念是編碼在正式的世界模型中，還是編碼在例如價值函數中，仍有待商榷，但顯而易見的是，物理世界中存在許多問題是無法完全由符號系統表示並僅靠符號操作來解決的。

Melanie Mitchell 最近的文章中提到的另一個問題（並得到這篇論文的支持）是，有證據表明生成式模型可以在序列預測任務中取得極高分數，卻未能學習到創造這些序列數據的世界模型，例如透過學習一套全面的特異性啟發式規則。例如，這篇部落格文章指出 OthelloGPT 學習到的序列預測規則實際上並不適用於所有可能的 Othello 遊戲，比如「如果 B4 標記沒有出現在輸入字串的 A4 之前，那麼 B4 就是空的」。雖然有人可以爭辯說世界模型「如何」預測世界的下一個狀態並不重要，但當這種預測反映的是對訓練數據的理解優於對產生該數據的底層世界的理解時，就應該引起懷疑。遺憾的是，這正是預測下一個標記這一目標的核心缺陷，它只尋求保留與預測下一個標記相關的信息。如果可以用比學習世界模型更簡單的方法來完成，它很可能就會那樣做。

若毫無保留地聲稱預測「早期符號對後期符號的影響」需要一個像人類從感知中產生的那樣的世界模型，那就是在濫用「世界模型」的概念。除非我們對世界的定義存在分歧，否則應該很清楚，「真正」的世界模型可以用於在給定狀態歷史的情況下預測「物理」世界的下一個狀態。類似的世界模型（預測物理世界的高保真觀察結果）被應用於 AI 的許多子領域，包括基於模型的強化學習、機器人任務與運動規劃、因果世界建模以及電腦視覺領域，以解決實例化於物理現實中的問題。當 LLM 問你某個人、地方或事物是否比麵包盒大時，它們的潛在下一個標記微積分中根本沒有運行物理模擬。事實上，我推測 LLM 的行為並非歸功於學習到的世界模型，而是歸功於對支配符號行為的、深奧抽象規則的暴力記憶，即一種「語法（syntax）」模型。

快速入門：

語法（Syntax） 是語言學的一個分支，研究各種語法類別（如詞性）的單詞如何排列成句子，並可解析為語法樹。語法研究句子的結構以及組成它們的原子詞性。
語義（Semantics） 是另一個關注句子字面意義的分支，例如將「我覺得冷」編譯成你正在體驗寒冷的概念。語義將語言簡化為字面意義，即關於世界或人類經驗的信息。
語用（Pragmatics） 研究物理和對話語境對言語互動的影響，例如當你說「我覺得冷」時，對方知道要關上微啟的窗戶。語用涉及在推理環境、其他代理的意圖和隱藏知識的同時解釋言語。

在不涉及過多技術細節的情況下，有直覺證據表明，不同的認知系統分別負責這些語言能力。看看人類有能力產生語法正確但沒有語義意義的句子就知道了，例如喬姆斯基著名的句子「無色的綠色思想憤怒地睡覺」，或者是語義正確但在語用上不合邏輯的句子，例如當被問到「你能把鹽遞給我嗎？」時僅回答「是的，我可以」。關鍵在於，正是支撐這些能力的各類認知能力的融合，才凝聚成了人類的語言理解。 例如，「冰箱在蘋果裡」這個句子在語法上並沒有錯，因為對「冰箱」和「蘋果」的語法解釋會將它們歸類為名詞短語（NP），可以用產生規則 S → (NP "is in" NP) 來產生句子。然而，人類在嘗試將其意義與我們對現實的理解相協調後，會發現該句子存在明顯的語義錯誤：我們知道冰箱比蘋果大，不可能裝進蘋果裡。

但如果你從未感知過真實世界，卻仍試圖弄清楚這個句子是否格式錯誤，該怎麼辦？一種解決方案是在語法層面嵌入語義信息，例如透過發明新的語法類別 NP冰箱和 NP蘋果，以及一條防止語義誤用的新產生規則：S → (NP蘋果 "is in" NP冰箱)。雖然這種策略不再需要關於冰箱和蘋果的具身世界知識，但它需要為每一種語義正確的結構制定特殊的語法規則……而這在擁有海量自然語言語料庫的情況下實際上是可以學習的。 關鍵在於，這與掌握語義並不是一回事，在我看來，語義從根本上是關於理解世界的本質。

發現 LLM 將語義和語用問題簡化為語法，將對我們如何看待其智慧產生深遠影響。人們通常將語言熟練度視為通用智慧的代稱，例如將語用和語義理解與在人類中支撐這些能力的認知能力強烈關聯起來。例如，一個看起來博覽群書且在社交互動中優雅從容的人，很可能在持續注意力和心智理論等特質上得分較高，而這些特質更接近原始認知能力的衡量標準。總體而言，這些代稱對於評估「人」的通用智慧是合理的，但對於 LLM 則不然，因為 LLM 表現出的語言技能可能來自完全不同的認知機制。

重溫「苦澀的教訓」

摘要：薩頓（Sutton）的「苦澀的教訓」有時被解讀為對 AI 結構做「任何」假設都是錯誤的。這既無建設性也是一種誤解；正是當人類深入思考智慧的結構時，重大進展才會發生。儘管如此，規模極大化主義者隱約暗示多模態模型可以成為 AGI 的結構無關框架。諷刺的是，當今的多模態模型透過對單個模態的結構以及它們應如何縫合在一起做出隱含假設，反而違背了薩頓的「苦澀的教訓」。為了構建 AGI，我們必須麼深入思考如何統一現有模態，要麼完全捨棄它們，轉而追求一種互動式且具身的認知過程。

導致 LLM 成功的範式主要特徵是「規模」，而非效率。我們實際上訓練了一堆一兆隻螞蟻長達十億年，以模仿一輛一級方程式賽車的形式和功能；最終它達到了目標，但這個過程效率極低。這個類比很好地捕捉了結構主義者（想在 AI 系統中構建「輪子」和「軸」等組件）與規模極大化主義者（想要更多螞蟻、更多年份和更多 F1 賽事來訓練）之間的爭論。儘管語言學領域有數十年的結構主義研究，但規模極大化主義的非結構化方法在近年來產生了遠為出色的「螞蟻賽車」。這一點由 Rich Sutton（最近與 Andy Barto 因在強化學習領域的貢獻共同獲得圖靈獎）在其文章《苦澀的教訓》（The Bitter Lesson）中做了最著名的闡述。

[我們] 應該只構建能夠發現並捕捉這種任意複雜性的元方法……這些方法的關鍵在於它們能找到良好的近似值，但對它們的搜尋應該由我們的方法來進行，而不是由我們來進行。我們想要的是能像我們一樣去發現的 AI 代理，而不是包含我們所發現內容的 AI 代理。—— Rich Sutton

薩頓的論點是，利用計算資源的方法將超越不利用資源的方法，而且任何作為歸納偏置（inductive bias）構建在 AI 中的問題解決結構都會阻礙它學習更好的解決方案。這是一個引人入勝的論點，但我相信它被一些人嚴重誤解為暗示做「任何」結構假設都是錯誤的一步。 事實上，人類的直覺促成了頂尖神經網絡架構開發中的許多重大進展。例如，卷積神經網絡（CNN）對圖像模式識別的平移不變性做出了假設，並啟動了現代電腦視覺深度學習領域；Transformer 的注意力機制對句子中符號間的遠距離關係做出了假設，使 ChatGPT 成為可能，並讓幾乎所有人放棄了 RNN；而 3D Gaussian Splatting 對物理對象的實體性做出了假設，使其性能優於 NeRF。可能這些方法論假設都不適用於「所有可能」場景、圖像或標記流的整個領域，但它們確實適用於人類策劃並形成結構直覺的特定領域。別忘了，人類是與這些數據集所提取的環境共同進化的。

真正的問題在於我們如何在開發 AGI 的過程中吸取薩頓「苦澀的教訓」。規模極大化方法對 LLM 和 LVM（大型視覺模型）有效，是因為我們擁有天然的文本和圖像數據沉澱，但將規模極大化類比應用於 AGI 則需要我們根本不具備的具身化數據。 解決這種數據稀缺問題的一種方案是將生成式建模範式擴展到多模態建模——涵蓋語言、視覺和動作——希望透過將狹隘模態的通用模型相加來構建通用智慧。

這種方法存在多個問題。首先，模態之間存在深刻的聯繫，在多模態設置中被不自然地切斷了，使得概念合成的問題變得更加困難。在實踐中，統一模態通常涉及為每個模態預訓練專用的神經模組，並將它們加入一個聯合嵌入空間。早期，這是透過推動例如（語言、視覺、動作）元組的嵌入收斂到相似的潛在意義向量來實現的，這極大地簡化了模態之間可能存在的關係類型。例如，可以想像在不同抽象層次上為圖像添加標題，或者用不同的物理動作集來執行相同的語言指令。這種一對多的關係表明，對比嵌入目標並不合適。

雖然現代方法不再對模態應如何統一做出如此嚴苛的假設，但它們仍普遍將所有模態（如文本、圖像）的感知編碼到同一個潛在空間中。直覺上，這種潛在空間似乎可以作為跨模態的共同概念基礎，類似於人類的概念空間。然而，這些潛在空間並不能連貫地捕捉與概念相關的所有信息，而是依賴於特定模態的解碼器來充實重要細節。感知的「意義」不在於它被編碼成的向量中，而在於相關解碼器將該向量處理成有意義輸出的方式。 只要各種編碼器和解碼器受制於特定模態的訓練目標，「意義」就會是分散的，並且在不同模態之間可能不一致，尤其是作為預訓練的結果。這並不是形成連貫概念的良方。

此外，目前尚不清楚當今的模態是否是對具身代理的觀察和動作空間的適當劃分。例如，將圖像和文本表示為分開的觀察流，或者將文本產生和運動規劃表示為分開的動作能力，這並非顯而易見。人類閱讀、看見、說話和移動的能力最終是由重疊的認知結構調節的。 對模態應如何處理做出結構性假設，很可能會阻礙發現更基礎的認知，而這種認知負責處理所有模態的數據。一種解決方案是將不自然劃分的模態整合到統一的數據表示中。這將鼓勵網絡學習跨模態通用的智慧過程。直覺上，一個能像人類一樣理解視覺世界的模型——包括從人類書寫到交通標誌再到視覺藝術的一切——不應在架構上對圖像和文本做出嚴重的區分。 VLM 無法計算單詞中字母數量的一部分原因，就是因為它們看不見自己正在寫什麼。

最後，「從規模中學習」的方法訓練模型複製人類的概念結構，而不是學習自行形成新概念的通用能力。 人類花費了數十萬年時間提煉概念，並透過文化和語言進行模因傳遞。當今的模型僅在這一過程的最終結果上進行訓練：進入語料庫的現有概念結構。透過優化我們智慧的最終產物，我們忽視了這些產物是如何被發明和發現的問題。人類擁有一種獨特的能力，能從少數例子中形成持久的概念並為其命名、進行類比推理等。雖然當今模型的上下文能力令人印象深刻，但隨著任務變得更加複雜且偏離訓練數據，它們變得越來越受限。從經驗中形成新概念的靈活性是通用智慧的基礎屬性，我們應該仔細思考它是如何產生的。

雖然結構無關的規模極大化主義已成功產生了通過圖靈測試的 LLM 和 LVM，但針對 AGI 的多模態規模極大化方法將不會取得類似成果。與其預設單個模態的結構，我們應該設計一個讓特定模態處理自然湧現的環境。 例如，我最近關於視覺心智理論的論文看到抽象符號在圖像分類代理之間的交流中自然產生，模糊了文本和圖像處理之間的界限。最終，我們應該希望將盡可能多的智慧特徵整合到同一個框架下。然而，只要規模化和微調狹隘智慧模型能解決商業用例，目前尚不清楚這種方法是否具有真正的商業可行性。

結論

規模極大化主義的總體承諾是，可以使用狹隘領域的通用模型縫合出一個「科學怪人」式的 AGI。我認為這極不可能產生一個讓人感到智慧完整的 AGI。如果我們打算繼續獲取特定模態處理的流線型效率，我們必須有意識地統一各個模態——理想情況下借鑒人類直覺和經典研究領域，例如 MIT 的這項工作。或者，我們可以將學習重新表述為一個具身且互動的過程，在其中不同的模態自然融合。我們可以透過例如使用相同的感知系統處理圖像、文本和影片，並使用相同的動作系統產生用於生成文本、操作物體和導航環境的動作來實現這一點。我們在效率上失去的，將在靈活的認知能力中獲得。

從某種意義上說，AGI 拼圖中最具挑戰性的數學部分已經解決了：發現了通用函數近似器。剩下的工作是盤點我們需要的函數，並確定它們應如何排列成一個連貫的整體。這是一個概念問題，而非數學問題。

致謝

我要感謝 Lucas Gelfond、Daniel Bashir、George Konidaris 以及我的父親 Joseph Spiegel 對這項工作提出的深思熟慮且詳盡的反饋。感謝 Alina Pringle 為本文創作的精彩插圖。

作者簡介

Benjamin 是布朗大學電腦科學系的博士候選人。他對將意義與結構化決策元素聯繫起來的語言理解模型感興趣。更多信息請見其個人網站。

引用

在學術背景或書籍中進行歸屬時，請引用本作品為：

Benjamin A. Spiegel, "AGI Is Not Multimodal", The Gradient, 2025.

@article{spiegel2025agi,
author = {Benjamin A. Spiegel},
title = {AGI Is Not Multimodal},
journal = {The Gradient},
year = {2025},
howpublished = {\url{https://thegradient.pub/agi-is-not-multimodal},
}

參考文獻

（以下參考文獻列表保持原樣，僅對部分標題進行必要格式調整）

Andreas, Jacob. “Language Models, World Models, and Human Model-Building.” Mit.edu, 2024, lingo.csail.mit.edu/blog/world_models/.

Belkin, Mikhail, et al. "Reconciling modern machine-learning practice and the classical bias–variance trade-off." Proceedings of the National Academy of Sciences 116.32 (2019): 15849-15854.

Bernhard Kerbl, et al. “3D Gaussian Splatting for Real-Time Radiance Field Rendering.” ACM Transactions on Graphics, vol. 42, no. 4, 26 July 2023, pp. 1–14, https://doi.org/10.1145/3592433.

Chomsky, Noam. 1965. Aspects of the theory of syntax. Cambridge, Massachusetts: MIT Press.

Designing an Intelligence. Edited by George Konidaris, MIT Press, 2026.

Emily M. Bender and Alexander Koller. 2020. Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5185–5198, Online. Association for Computational Linguistics.

Eye on AI. “The Mastermind behind GPT-4 and the Future of AI | Ilya Sutskever.” YouTube, 15 Mar. 2023, www.youtube.com/watch?v=SjhIlw3Iffs&list=PLpdlTIkm0-jJ4gJyeLvH1PJCEHp3NAYf4&index=64. Accessed 18 May 2025.

Frank, Michael C. “Bridging the data gap between children and large language models.” Trends in cognitive sciences vol. 27,11 (2023): 990-992. doi:10.1016/j.tics.2023.08.007

Garrett, Caelan Reed, et al. "Integrated task and motion planning." Annual review of control, robotics, and autonomous systems 4.1 (2021): 265-293.APA

Goodhart, C.A.E. (1984). Problems of Monetary Management: The UK Experience. In: Monetary Theory and Practice. Palgrave, London. https://doi.org/10.1007/978-1-349-17295-5_4

Hooker, Sara. The hardware lottery. Commun. ACM 64, 12 (December 2021), 58–65. https://doi.org/10.1145/3467017

Huh, Minyoung, et al. "The Platonic Representation Hypothesis." Forty-first International Conference on Machine Learning. 2024.

Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

Lake, Brenden M. et al. “Building Machines That Learn and Think like People.” Behavioral and Brain Sciences 40 (2017): e253. Web.

Li, Kenneth, et al. "Emergent world representations: Exploring a sequence model trained on a synthetic task." ICLR (2023).

Luiten, Jonathon, Georgios, Kopanas, Bastian, Leibe, Deva, Ramanan. "Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis." 3DV. 2024.

Mao, Jiayuan, Chuang, Gan, Pushmeet, Kohli, Joshua B., Tenenbaum, Jiajun, Wu. "The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision." International Conference on Learning Representations. 2019.

Mitchell, Melanie. “LLMs and World Models, Part 1.” Substack.com, AI: A Guide for Thinking Humans, 13 Feb. 2025, aiguide.substack.com/p/llms-and-world-models-part-1. Accessed 18 May 2025.

Mu, Norman. “Norman Mu | the Myth of Data Inefficiency in Large Language Models.” Normanmu.com, 14 Feb. 2025, www.normanmu.com/2025/02/14/data-inefficiency-llms.html. Accessed 18 May 2025.

Newell, Allen, and Herbert A. Simon. “Computer Science as Empirical Inquiry: Symbols and Search.” Communications of the ACM, vol. 19, no. 3, 1 Mar. 1976, pp. 113–126, https://doi.org/10.1145/360018.360022.

Peng, Hao, et al. “When Does In-Context Learning Fall Short and Why? A Study on Specification-Heavy Tasks.” ArXiv.org, 2023, arxiv.org/abs/2311.08993.

Spiegel, Benjamin, et al. “Visual Theory of Mind Enables the Invention of Early Writing Systems.” CogSci, 2025, arxiv.org/abs/2502.01568.

Sutton, Richard S. Introduction to Reinforcement Learning. Cambridge, Mass, Mit Press, 04-98, 1998.

Vafa, Keyon, et al. "Evaluating the world model implicit in a generative model." Advances in Neural Information Processing Systems 37 (2024): 26941-26975.

Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (December 2017). "Attention is All you Need". In I. Guyon and U. Von Luxburg and S. Bengio and H. Wallach and R. Fergus and S. Vishwanathan and R. Garnett (ed.). 31st Conference on Neural Information Processing Systems (NIPS). Advances in Neural Information Processing Systems. Vol. 30. Curran Associates, Inc. arXiv:1706.03762.

Winograd, Terry. “Thinking Machines: Can There Be? Are We?” The Boundaries of Humanity: Humans, Animals, Machines, edited by James Sheehan and Morton Sosna, Berkeley: University of California Press, 1991, pp. 198–223.

Wu, Shangda, et al. "Beyond language models: Byte models are digital world simulators." arXiv preprint arXiv:2402.19155 (2024).

— The Gradient