LLMs+:大型語言模型的下一波進化
人工智慧進化的下一個階段被稱為 LLMs+,重點在於透過遞迴處理和混合專家架構等創新技術,使模型更高效、更便宜,並能解決複雜且長期的問題。
當 ChatGPT 在 2022 年底作為實驗性原型推出時,OpenAI 的這款聊天機器人成為了數億人日常使用的萬能應用程式。像 ChatGPT 這樣的大型語言模型(LLM)代表了新的未來:整個科技產業都被這股熱潮所席捲,各家公司競相推出競爭產品。
舊科技世界的餘燼尚未平息,但這並未阻止人們詢問接下來會發生什麼。劇透警告:繼 LLM 之後的下一個大事物是更多的 LLM。但會更好。我們姑且稱之為 LLM+。
挑戰在於如何讓 LLM 處理需要人類花費數天或數週才能解決的複雜且多部分的任務。如果它們要幫助我們應對一些最艱鉅的挑戰(這是頂尖實驗室的既定目標),那麼它們需要能夠在更長的時間內獨立運作。
為了實現這一目標,有幾件事必須發生。首先,LLM 必須變得更高效且運行成本更低。一些重大的進展正是在這一領域取得的。一種被稱為「混合專家模型」(mixture-of-experts)的方法將 LLM 拆分成較小的部分,並賦予每個部分不同類型任務的專業知識。這意味著在特定時間內,只需啟動模型的部分組件。
另一種提高 LLM 效率的方法可能是捨棄轉換器(transformers)——這是目前幾乎所有模型底層的神經網絡類型——轉而採用擴散模型(diffusion models),這是一種通常用於圖像和影片生成的替代神經網絡類型。此外還有更多實驗性的方法。去年,中國 AI 公司 DeepSeek 展示了一種在圖像中編碼文本的方法,從而降低了計算成本。
另一個關鍵的進展領域與所謂的 LLM「上下文窗口」(context window)有關。這是模型一次可以接收的文本(或影片)量,相當於其工作記憶。幾年前,LLM 一次可以處理幾千個標記(tokens,即單詞或單詞的一部分),或幾十頁文本。最新的模型現在擁有長達一百萬個標記的上下文窗口——相當於一整疊書。但上下文窗口越大、任務越長,模型就越容易出錯或忘記自己在做什麼。這方面也正在取得突破。麻省理工學院電腦科學與人工智慧實驗室(MIT CSAIL)的研究人員最近發表的一篇論文介紹了他們所謂的 遞迴式 LLM(recursive LLMs)。遞迴式 LLM 並非一次接收巨大的上下文窗口,而是將輸入拆分成多個區塊,並將每個區塊發送給自身的一個副本,而該副本又可能再次拆分這些區塊並將結果發送給更多的副本。多個處理較小資訊片段的 LLM 在處理長期且艱鉅的任務時似乎更為可靠。其結果是一個 LLM,但並非我們所熟知的那種。
相關文章
其他收藏 · 0