LLMs+：大型語言模型的下一波進化

MIT Technology Review·大約 4 小時前

人工智慧進化的下一個階段被稱為 LLMs+，重點在於透過遞迴處理和混合專家架構等創新技術，使模型更高效、更便宜，並能解決複雜且長期的問題。

當 ChatGPT 在 2022 年底作為實驗性原型推出時，OpenAI 的這款聊天機器人成為了數億人日常使用的萬能應用程式。像 ChatGPT 這樣的大型語言模型（LLM）代表了新的未來：整個科技產業都被這股熱潮所席捲，各家公司競相推出競爭產品。

舊科技世界的餘燼尚未平息，但這並未阻止人們詢問接下來會發生什麼。劇透警告：繼 LLM 之後的下一個大事物是更多的 LLM。但會更好。我們姑且稱之為 LLM+。

挑戰在於如何讓 LLM 處理需要人類花費數天或數週才能解決的複雜且多部分的任務。如果它們要幫助我們應對一些最艱鉅的挑戰（這是頂尖實驗室的既定目標），那麼它們需要能夠在更長的時間內獨立運作。

為了實現這一目標，有幾件事必須發生。首先，LLM 必須變得更高效且運行成本更低。一些重大的進展正是在這一領域取得的。一種被稱為「混合專家模型」（mixture-of-experts）的方法將 LLM 拆分成較小的部分，並賦予每個部分不同類型任務的專業知識。這意味著在特定時間內，只需啟動模型的部分組件。

另一種提高 LLM 效率的方法可能是捨棄轉換器（transformers）——這是目前幾乎所有模型底層的神經網絡類型——轉而採用擴散模型（diffusion models），這是一種通常用於圖像和影片生成的替代神經網絡類型。此外還有更多實驗性的方法。去年，中國 AI 公司 DeepSeek 展示了一種在圖像中編碼文本的方法，從而降低了計算成本。

另一個關鍵的進展領域與所謂的 LLM「上下文窗口」（context window）有關。這是模型一次可以接收的文本（或影片）量，相當於其工作記憶。幾年前，LLM 一次可以處理幾千個標記（tokens，即單詞或單詞的一部分），或幾十頁文本。最新的模型現在擁有長達一百萬個標記的上下文窗口——相當於一整疊書。但上下文窗口越大、任務越長，模型就越容易出錯或忘記自己在做什麼。這方面也正在取得突破。麻省理工學院電腦科學與人工智慧實驗室（MIT CSAIL）的研究人員最近發表的一篇論文介紹了他們所謂的遞迴式 LLM（recursive LLMs）。遞迴式 LLM 並非一次接收巨大的上下文窗口，而是將輸入拆分成多個區塊，並將每個區塊發送給自身的一個副本，而該副本又可能再次拆分這些區塊並將結果發送給更多的副本。多個處理較小資訊片段的 LLM 在處理長期且艱鉅的任務時似乎更為可靠。其結果是一個 LLM，但並非我們所熟知的那種。

— MIT Technology Review

其他收藏 · 0

你的個人知識庫

LLMs+：大型語言模型的下一波進化