你無法透過模仿學習來實現持續學習

Lesswrong·20 天前

我在這篇文章中提出一個觀點，即像大型語言模型這樣的模仿學習演算法，無法真正複製那種能建立新知識並透過自我改進而不斷進化的持續學習能力，這並非單靠擴大上下文視窗就能解決的問題。

在這篇文章中，我試圖提出一個狹隘的教學觀點，這主要出於我在論證「大語言模型（LLM）具有人類學習所沒有的局限性」時所提出的觀點。（例如：這裡、這裡、這裡）。

請參閱文末列出的「不應」從本文中過度解讀的潛台詞，包括「……因此 LLM 很笨」，或「……因此 LLM 不可能擴展到超人工智慧（ASI）」。

關於如何思考「真正」持續學習的一些直覺

考慮一種訓練強化學習（RL）代理（agent）的演算法，例如 Atari 遊戲 Deep Q 網絡 (2013) 或 AlphaZero (2017)，或者想想人類大腦在一生中的學習，我主張這屬於廣義上的「基於模型的強化學習」（model-based reinforcement learning）。

這些都是貨真價實、功能完備的學習演算法：有一套演算法用於決定當下採取什麼行動，還有一套或多套更新規則，用於永久改變模型中一些可調參數（即權重），使其未來的行動和/或預測變得更好。事實上，你運行它們的時間越長，它們就變得越有能力。

當我們想到「持續學習」時，我建議將這些作為核心範例。以下是值得注意的幾個方面：

知識 vs 資訊： 這些系統允許持續獲取知識，而不僅僅是資訊——「持續學習」可以建立全新的世界概念化和導航方式，而不僅僅是追蹤正在發生的事情。

巨大的開放式學習能力： 這些例子都具有巨大的持續學習能力，足以讓它們從隨機初始化開始，「持續學習」直到達到專家級的水平。同樣地，新的持續學習可以建立在之前的持續學習之上，形成一座不斷增長的高塔。

能夠理解環境中尚未展示的事物： 例如，一個玩 Atari 的 RL 代理會玩得越來越好，即使沒有任何專家範例可以模仿。同樣地，數十億人類在數千年間從零開始發明了語言、數學、科學和整個 100 兆美元的全球經濟，這一切都是靠我們自己完成的，並沒有天使從天而降提供新的訓練數據。

我提出這些是因為我認為以 LLM 為中心的討論有時對於「持續學習」應該解決什麼問題的觀念過於狹隘。他們傾向於認為問題在於「失去對資訊的追蹤」，而不是「未能建立新知識」，並提議用「加長上下文（視窗）」等策略來解決這個問題（正如 Dario Amodei 最近所沉思的），或者透過檢索增強生成（RAG）等方式提供更好的草稿本（scratchpads）。

但真正的「持續學習」還包括 AlphaZero 在進行一百萬次自我對弈後的變化方式，或者人類大腦在從事新職業 20 年後的變化方式。沒有任何草稿本系統可以交給一個 15 歲的孩子，使其能夠充分替代他在未來 20 年成長為某個領域 35 歲世界專家的過程。同樣地，沒有任何上下文視窗能將 GPT-2 變成 GPT-5。

假設你把一個真正的「資料中心裡的天才國家」完全與外界隔絕，並給他們一個虛擬實境環境待上相當於 100 年的時間。當你解封時會發現什麼？將會出現思考世界及其中萬物的全新方式——全新的科學領域、哲學流派等等。

一群 LLM 能做到嗎？考慮這個思想實驗：假設你拿一個全新的科學領域，它與訓練數據中的任何內容都截然不同，並將該領域的一本巨型教科書完全放入 LLM 的上下文視窗中，完全不進行權重更新。這個 LLM 是否能夠理解、批評並在該領域的基礎上進一步發展？我的觀點是「絕對不行」（見 1, 2），這意味著僅僅增加上下文長度對於一個真正的「資料中心裡的天才國家」來說 絕對是不夠的，如果該資料中心被封鎖相當於 100 年的時間（這與 Dario 的觀點相反，他似乎認為更多的上下文本身至少有可能足以實現「天才國家」級別的持續學習）。

（如果我們討論的是一個封鎖的「人類天才國家」在例如一分鐘內能做什麼，而不是 100 年，那麼，是的，當然，這或許可以用未來的 LLM 來模擬！參見 von Oswald et al. 2022 關於（所謂的）「上下文學習」如何模仿少數幾步實際權重更新的研究。^([1])）

為什麼「真正」的持續學習無法被模仿學習者複製

現在，假設我採用一個通用的模仿學習演算法（例如 Transformer 架構神經網絡中的自監督學習，就像 LLM 的預訓練一樣），並讓它觀察一個 Deep Q 網絡玩 Atari Breakout，看著它從隨機初始化開始，在 100 萬次迭代中變得越來越強。好，現在我們有了一個訓練好的模仿學習者。我們凍結它的權重，並以人們傳統使用 LLM 基礎模型的方式來使用它，即讓它輸出最可能的下一步動作，然後是再下一步動作，依此類推。

問題：這個訓練好的模仿學習者真的是 Deep Q 網絡的一個良好模仿嗎？ 嗯，「良好」是指在哪個方面？我會將其拆分為兩個主題：

快照模仿（Snapshot imitation）： 實際的 Deep Q 網絡，在訓練完成的那一刻，會在某些位置輸出某些 Breakout 動作。問題：訓練好的模仿學習者現在是否會輸出類似的動作，從而表現出與老師相似的技能水平？我的答案是：很有可能。
長期學習的模仿： 實際的 Deep Q 網絡如果繼續玩下去，會不斷進步。訓練好的模仿學習者是否也會在接下來的 1000 萬步中繼續進步，直到它做得比它看過的「老師」Deep Q 網絡所做過的任何事情都更好、更不同？我的答案是：不會。
長期學習的模仿（範例 2）： 實際的 Deep Q 網絡如果突然被轉移到一個新的遊戲環境（例如 Atari Space Invaders），它一開始會做出糟糕的動作，但在 1000 萬次迭代後，它會逐漸提高到專家水平。訓練好的模仿學習者是否同樣會進行 1000 萬次迭代，然後在它訓練階段從未見過的這款遊戲中表現出色？我的答案是：不會。

為什麼不呢？事實上，對於一個 理想的 模仿學習演算法，即在想像中的超計算機上運行的 Solomonoff 歸納法，我的答案都會是「會」！但在現實世界中，我們沒有超計算機！

現在，當人們談論模仿學習時，通常是指 Transformer，而不是超計算機，而 Transformer 被限制在一個窄得多的假設空間中：

	透過 Solomonoff 歸納法模仿學習 Deep-Q RL 代理	透過在下一步動作預測上訓練 Transformer 來模仿學習 Deep-Q RL 代理
假設空間	所有可計算演算法的集合	對於所有可能的已訓練 Transformer T，通過 T 的前向傳遞
地面真值 (Ground truth)	具有某種架構和時序差分 (TD) 學習權重更新等的實際 Deep-Q RL 代理	具有某種架構和時序差分 (TD) 學習權重更新等的實際 Deep-Q RL 代理
漸近極限	它收斂到實際的 Deep-Q RL 代理	它收斂到與實際 Deep-Q RL 代理最接近的 Transformer 前向傳遞

我認為我們都應該對 Transformer 前向傳遞^([2])能做的事情感到印象深刻。但我們不應該期望 Transformer 的前向傳遞能複製一個功能完備、完全不同的學習演算法，包括它特定的神經網絡架構、特定的權重更新和查詢方法等，因為它在數百萬步中運行並變化。

運行一個大規模學習演算法已經足夠昂貴了；並行運行大量不同的學習演算法集合以鎖定正確的那一個是不切實際的。^([3])

我要反覆強調這一點，因為這是一個容易混淆的地方。這裡討論的是兩種學習演算法：模仿學習演算法（例如透過梯度下降在下一步動作預測上更新的 Transformer），以及目標持續學習演算法（例如透過 TD 學習更新的 Deep Q 網絡）。當模仿學習完成時，Transformer 的權重被凍結，相應的訓練模型被賦予了一項不可能的任務：僅使用其 激活值（在權重固定的情況下），去模仿目標持續學習演算法在數百萬步（在此案例中為 TD 學習）中改變其權重時所發生的情況。這就是我持懷疑態度的部分。

換句話說：了解某種規模化持續學習演算法在數百萬步後會發生什麼的唯一可行方法，就是 實際進行 數百萬步該規模化持續學習演算法，透過 PyTorch 代碼以專門設計的方式實際更改權重。那麼那才是你正在運行的規模化學習演算法。這意味著你並不是在做模仿學習。

回到人類的例子：對於一個典型的人（稱他為「小明」），我認為 LLM 擅長模仿「今天的小明」，也擅長模仿「學習了一個月範疇論入門的小明」，但無法模仿小明在那一個月的學習過程中成長和變化的過程——或者至少，無法以一種可以推廣到模仿一個花費數年時間建立訓練數據中完全不存在的全新知識領域的人的方式來模仿。

一些與本文無關的主題

如開頭所述，我希望這篇文章是一個狹隘的教學觀點。例如：

我並不是在評論是否可以將 LLM 的後訓練修改為「真正」的持續學習演算法（儘管我恰好認為這是不可能的）。
我並不是在評論無法進行「真正」持續學習在現實世界能力方面會如何體現（例如，非「真正」持續學習的 AI 是否仍能取代工作？它能殺死數十億人嗎？它能讓自己成為永恆的全球獨裁者嗎？等等）（我恰好認為這些是棘手的問題，沒有顯而易見的答案）。
我並不是在評論我們是否應該將實際的前沿 LLM（而不僅僅是預訓練的基礎模型）視為主要由模仿學習驅動，儘管它們經過了 RL 後訓練（儘管我恰好認為我們大概應該這樣看，或多或少 (1,2)）。
^(^) 我想我也需要提到「演算法蒸餾」論文 (Laskin et al. 2022)，但我對其表面結論持保留態度，見此處的討論。
^(^) 你可以將「一次前向傳遞」替換為「帶有思維鏈推理的一萬次前向傳遞」；這不會改變本文的任何內容。
^(^) 對學習演算法的外層循環搜索非常昂貴，以至於它通常僅用於調整少數可理解的超參數，而不是進行開放式搜索，因為我們甚至模糊地不知道自己在尋找什麼。即使是文獻中對學習演算法空間進行的相對雄心勃勃的搜索，其搜索空間也僅約 ≈100 bits，與學習演算法源代碼庫的資訊內容相比微不足道。

討論

https://lesswrong.com/posts/9rCTjbJpZB4KzqhiQ/you-can-t-imitation-learn-how-to-continual-learn