專家擁有世界模型。大型語言模型擁有詞彙模型。
這篇來自 Hacker News 的文章探討了人類的「世界模型」與大型語言模型(LLMs)所擁有的「詞彙模型」之間的根本差異,並指出 LLMs 目前缺乏真正的理解和推理能力。
背景
這場討論源於對大型語言模型(LLM)本質的辯論,核心議題在於這些模型究竟是僅僅學習了文字排列規律的「單字模型」(Word Models),還是已經從海量數據中內化了對現實運作邏輯的「世界模型」(World Models)。討論觸及了人工智慧是否能透過純文字訓練達成通用人工智慧(AGI),以及人類認知與機器學習之間是否存在本質上的鴻溝。
社群觀點
在 Hacker News 的討論中,社群對於 LLM 是否具備理解現實的能力展現出極大的分歧。支持「世界模型」的一方認為,雖然 LLM 是以預測下一個標記(Token)為目標進行訓練,但為了達成極高精度的預測,模型必須在內部構建出反映現實物理規律或邏輯關係的壓縮表示。他們反駁了「人類擁有感知現實的特權」這一觀點,指出人類的感官同樣是經過生物機制過濾後的有限片段,而 LLM 學習教科書中的物理公式,本質上與人類透過符號學習抽象知識並無二致。這一派觀點強調,LLM 展現出的解決新穎物理問題、除錯程式碼或推導數學公式的能力,證明了它們已經內化了功能性的邏輯關聯,而非單純的表面模仿。
然而,反對者則堅稱 LLM 始終被囚禁在「標記的牢籠」中。他們指出,語言只是人類對世界建模後的一種不完全、甚至帶有偏差的翻譯。人類的認知是具身化的(Embodied),包含視覺、觸覺與前庭系統等多模態的即時回饋,這種與物理世界的直接互動是純文字模型無法企及的。一個經典的爭論點在於「騎腳踏車」:反對者認為即便 LLM 讀遍所有腳踏車書籍,也無法學會平衡與肌肉協調,因為這些知識無法被完全還原為文字。他們批評將 LLM 視為世界模型的說法在定義上是錯誤的,因為 LLM 學習的是「人類如何描述世界」,而非「世界本身」,這是一種「模型的模型」,在資訊傳遞過程中存在嚴重的損耗與失真。
此外,討論也延伸到了意識與科學共識的層面。部分留言者提到「感質」(Qualia)是人類主觀經驗中不可還原的特質,這是機器永遠無法擁有的特權。而在技術發展路徑上,不少人引用了 LeCun 或 Sutskever 等專家的觀點,指出目前的 Transformer 架構可能存在根本性的缺失,單靠擴大規模(Scaling)或許無法達成真正的 AGI。爭論的火藥味在於,一方認為 LLM 已經在實踐中不斷打破「無法理解」的預言,而另一方則認為這種進步只是統計學上的幻覺,兩者對於「理解」與「模型」的定義存在著難以調和的語義分歧。
延伸閱讀
- Peter Norvig 與 Blaise Agüera y Arcas 撰寫的《Artificial General Intelligence Is Already Here》,探討 AGI 是否已經以某種形式存在。
- Meta AI 研究的 V-JEPA 框架,這被視為超越純語言模型、朝向非監督式世界模型邁進的嘗試。
- 神經科學中關於「感質」(Qualia)與主觀經驗的研究論文,用於探討人類意識與機器模擬的區別。
相關文章