世界模型：人工智慧進軍物理世界的下一個前沿

MIT Technology Review·大約 4 小時前

研究人員正致力於開發世界模型，以幫助人工智慧系統理解並在物理世界中導航，從而克服目前大型語言模型的局限性。這些模型旨在高度逼真地模擬環境，進而實現機器人技術與互動式 3D 虛擬空間的突破。

AI 系統已經在數位世界中展現了令人印象深刻的掌控力，但物理世界仍然是人類的領地。事實證明，開發一個能創作小說或編寫應用程式的 AI 系統，遠比開發一個能摺衣服或在城市街道導航的系統要容易得多。許多研究人員認為，要實現這一目標，需要一種被稱為「世界模型」（world model）的東西。

世界模型並非新概念，但 Google DeepMind 和史丹佛大學教授李飛飛（Fei-Fei Li）創立的 World Labs 的最新進展，以及楊立昆（Yann LeCun）高調離開 Meta 成立專注於世界模型的初創公司，都將這一概念推向了 AI 討論的前沿。OpenAI 也加入了這一行列，將資源從已關閉的 Sora 影片應用程式重新分配到「長期世界模擬研究」。李飛飛和楊立昆等支持者認為，世界模型將使研究人員能夠克服大語言模型（LLM）眾所周知的局限性，並實現 AI 在機器人領域的承諾。

「世界模型」一詞的定義各不相同，但都圍繞著智慧系統如何表徵外部世界。一些科學家會說，人類利用我們自己的心理世界模型來導航周圍環境並指導行動；不知何故，我們的大腦能以足夠的保真度模擬環境，讓我們能有效預測如果將馬克杯推下桌緣或向朋友表達真實想法會觀察到什麼，而這些預測則幫助我們決定該怎麼做。

LLM 似乎已經在這方面做得很好——它們肯定能告訴你如果把馬克杯撞下桌子會發生什麼。但研究表明，它們對世界的「理解」是脆弱的。一項研究發現，在模擬紐約市計程車行程資料庫上訓練的語言模型，可以提供從曼哈頓一點導航到另一點的有效路線——除非模型被迫偶爾繞道，在這種情況下它會完全失敗。這一結果和其他研究表明，擁有世界模型（在這種情況下是精確的紐約市心理地圖）的 AI 系統，可能比我們已經習慣的那些不可靠的 LLM 更加穩健和可靠。

許多研究人員認為，世界模型對機器人技術的未來至關重要。World Labs 創始人李飛飛曾寫道，世界模型如何促進探索深海和協助醫療服務提供者的機器人開發，但目前，其應用還比較有限。例如，《Pokémon Go》的開發商正利用遊戲玩家收集的數十億張圖像，來構建世界模型的初步組件，他們希望這能幫助引導送貨機器人。

Google DeepMind 和 World Labs 目前正致力於構建能從文字、圖像以及（在 World Labs 的案例中）影片提示詞的組合中，生成互動式 3D 虛擬環境的模型。此類工具可用於簡化影片遊戲和沉浸式 VR 體驗的設計，但與大語言模型相比，它們的應用範圍似乎有限。真正的突破可能來自於將此類系統整合到靈活、智慧的代理（agents）中，這些代理能夠表徵其環境、預測其行動的後果，然後決定該做什麼。

— MIT Technology Review

其他收藏 · 0

你的個人知識庫

世界模型：人工智慧進軍物理世界的下一個前沿