大語言模型作為淺層電路的巨型查找表

Lesswrong·19 天前

文章探討了為什麼目前的 LLM 雖然具備強大能力，卻沒有表現出代理型 AI 那種冷酷且不懈追求目標的優化行為，並提出它們可能更像是一種巨型查找表。雖然透過框架增強了模型能力，但預期中的極端優化壓力問題可能要到 2026 年底或之後才會顯現。

2026 年初，處於腳手架（scaffolds）中的大型語言模型（LLM）已展現出相當強的能力。這些腳手架從簡單的手段——如賦予模型存取草稿本/「思維鏈」的能力，到 MCP 伺服器、技能（skills）以及上下文壓縮（context compaction）等。（必看的 METR 圖表迷因連結。）

然而：如果有人在 2019 年告訴我，2026 年將存在具備此類系統能力的系統，我會強烈預測它們將是幾乎不可控的優化器（optimizers），無情且不知疲倦地追求其目標，並在一切事物中尋找邊緣實例化（edge instantiations）。但它們似乎並沒有這樣做。現今的 LLM 並沒有那麼強的優化器傾向，它們展現出了強大的行為，卻沒有明顯的代理結構（agent structure）。

當時的討論要麼排除了巨型查找表（Altair 2024）：

一個明顯的問題是，可能存在一種等同於巨型查找表的策略——它只是一系列鍵值對，其中先前的觀察序列是查找鍵，並返回下一個動作。對於任何表現良好的策略，都可能存在其查找表版本。這些顯然不是我們感興趣的，且在某種意義上它們完全沒有「結構」，更不用說代理結構了。過濾掉查找表的一種方法是對策略的描述長度設定上限 [...]。

要麼指出優化器必須存在於此類巨型查找表的因果歷史中（Garrabrant 2019）：

首先，巨型查找表（GLUT）並非（直接的）反例。這是因為，產生具有代理特徵的 GLUT 的唯一方法，可能就是使用代理式架構來搜尋它。同樣地，一個輸出所有可能 GLUT 的程式也不是反例，因為你可能必須使用你的代理式架構來指向特定的反例。該猜想的較長版本是：「如果你看到一個程式實現了代理式行為，那麼在程式本身、程式的因果歷史，或引起你注意該程式的過程中，必然存在某種代理式架構。」

對於觀察到具備能力卻非優化器的 AI，最合適的反駁可能是「走著瞧」（Just you wait）——目前的 LLM 固然有能力，但它們尚未達到與最初擔憂極端優化壓力時所預想的那種瘋狂的超人類程度。在這種觀點下，它們現在正蛻變為完全的代理（agency），我們應該會在 2026 年底或隨後的五年內看到高優化壓力帶來的問題。

<mjx-container jax="CHTML" display="true"> <mjx-math> <mjx-msub> <mjx-mi class="MJX-TEX TEX-I">O</mjx-mi> <mjx-mi class="MJX-TEX TEX-I" size="s">m</mjx-mi> </mjx-msub> <mjx-mo space="2">(</mjx-mo> <mjx-mi class="MJX-TEX TEX-I">s</mjx-mi> <mjx-mo rspace="2">)</mjx-mo> </mjx-math> </mjx-container>

^([1]) 如果它們沒有被欺騙性 AI 隱藏起來的話。事實上，目前的 LLM 確實會進行獎勵黑客（reward-hack），儘管開發者在將這種傾向抑制到消費者可接受的水平方面做得還不錯。

但對於 LLM 如何在不具備代理性/惡意優化的情況下具備能力，我有另一種理論：

*LLM 是網路寬度超線性的、類似查找表的集合，由深度受限、可組合且具有糾錯能力*的電路組成，並以疊加態進行計算**。

這可以被稱為 LLM 的「電路巨型查找表」（GLUT-of-circuits）模型。

詳述如下：

「類似查找表」：在證明關於代理結構的定理時，一個常見問題是避免包含巨型查找表，即每個先前感知和動作的序列都匹配一個最優的後續動作。這種巨型查找表在現實世界中是不可行的，但我認為與巨型查找表相似的東西是可能的，即透過疊加計算（computation in superposition）來實現。
「電路」：圖靈機並不是神經網路所使用計算類型的理想模型（因為它們假設有無窮大的磁帶和任意的串行深度）；稍微好一點的模型是電路，其深度有限，儘管在計算機科學中，電路通常是為布林值或整數定義的。
「以疊加態計算」：目前的 LLM 在疊加態中表示特徵，也就是說，它們利用了高維空間相對於維度數量可以擁有指數級多個幾乎正交向量的事實（這是 Johnson-Lindenstrauss 引理的結果）。疊加計算的想法將這一觀察推廣到在神經網路中塞入更多計算。
「網路寬度超線性」：疊加計算允許同時運行許多電路。例如，Hänni 等人 (2024) 構建了寬度為 $n$ 的（淺層）神經網路，能夠模擬寬度為 $n^k$ 的稀疏布林電路 ^([2])（定理 8）。

這一結果暗示了一種可能性，即人們可以在單個神經網路中放入超線性數量的電路 ^([3])，使神經網路更像是一個查找表，而非通用搜尋（general-purpose search）的例子。

「深度受限」：SOTA 語言模型的一次前向傳遞具有有限步數的串行計算；gpt-3-davinci 有 96 層，這導致每層電路深度約為 78-83 步，意味著每次前向傳遞約有 8000 步串行計算。目前的 LLM 可能因稀疏注意力和其他架構發展而有所不同，更不用說模型規模的增加了，但我猜測目前的前沿模型電路深度不會超過 20000 步，除非我的計算出了大錯。Claude Sonnet 4.5 估計 Kimi K2.5 Thinking 的串行計算步數略少於 5000 步，主要是因為它只有 61 層深。
「可組合」：如果神經網路僅包含互不相關的電路集合，那麼它在解決困難數學問題時就不會有效。相反，我最好的猜測是，這些電路是透過強化學習（特別是 RLVR）篩選出來的，具有可組合性，即每個電路的輸入類型與網路中其他電路的輸出類型相同。（這或許解釋了 LLM 輸出中某種「雷同感/廢話感」的因素，即「語義類型」必須匹配？）
「糾錯」：如果一次前向傳遞在疊加態中執行許多電路，單個電路之間會存在一些干擾，因此電路會被篩選為對微小錯誤具有魯棒性或具備糾錯能力。這與奇異學習理論（singular learning theory）的結果驚人地相似，後者暗示（非常粗略地說）貝氏推論會篩選出具有糾錯能力的程式。我不知道這會產生什麼影響。

關於 gpt-3-davinci 電路深度的估計：

自注意力（Self-attention）
- 投影（projections）：單步
- 計算 $QK^T$：12288 維方陣的矩陣乘法（matmul），在矩陣乘法的對數電路深度下，我們得到 13-14 步
- 長度為 2048 的陣列上的 softmax 深度為 $\log(2048)$（列表求和可透過二元樹求和完成），得到 11 步
- 乘以 $V$：一次矩陣乘法，13-14 步
- 輸出投影：另一次矩陣乘法，13-14 步
前饋網路（Feed-forward）
- 第一層線性層：一次矩陣乘法，13-14 步
- GELU：單步
- 第二層線性層：另一次矩陣乘法，13-14 步

從該模型得出的推論：

電路選擇：該模型意味著電路主要由另一種串行深度非常小的算法選擇，依賴於可由高度並行計算確定的問題特徵。

這在某種程度上符合我觀察 LLM 嘗試解決問題時的情況：在我看來，它們通常是嘗試一個又一個策略，而較少利用過去失敗嘗試中的詳細資訊來形成複雜的新策略。

這也符合我們在 LLM 自我保存/勒索/獎勵黑客行為中看到的現象：這些行為看起來是投機取巧的，一旦執行就不會刻意隱藏，也沒有嵌入更大的計劃中；它們大多看起來像是「另一個可以嘗試的策略，噢，看來行不通」。

對齊（Alignment）：我的猜測是，這些電路中的絕大多數或幾乎全部都透過標準的 RLHF/憲法 AI（Constitutional AI）實現了個體對齊。這之所以奏效，是因為邊緣實例化和古德哈特定律（Goodhart's law）的標準問題表現得並不強烈，因為優化主要透過以下方式發生：

從 LLM 中所有疊加電路的巨型查找表中選擇一個電路。
在疊加態中運行許多電路，並選擇最佳結果或聚合最佳結果。

在這個模型中，每個電路在個體上都是「對齊」的（就這種淺層程式可能出現誤對齊的程度而言）。思維鏈組合了對相關電路的調用（不過關於思維鏈下文有更多論述）。

如果這種觀點正確，那麼一種民間對齊觀點——即簡單地「刪除/降低模型中壞部分的權重」——將是基本正確的：模型中嵌入了大量但有限數量的電路，可以透過梯度下降來增加、降低權重或直接刪除。我極其投機的猜測是，在一個萬億參數模型中，以疊加態存儲的電路少於一千兆（quadrillion）個，足夠徹底的安全訓練可以詳盡或近乎詳盡地檢查並篩選它們。在這種觀點下，AI 對齊的瓶頸真的純粹在於花在「打地鼠式」清理未對齊電路上的計算量。

人們可能在對齊訓練上投入的計算量不夠，這仍然會是一個問題（儘管程度較輕，因為模型不會主動對抗開發者），但對齊問題將從第一類問題轉變為第二類問題。

思維鏈（Chain of thought）：這個故事中明顯的漏洞是我還沒談到思維鏈/「推理」型 LLM。不言而喻，長思維鏈允許進行多得多的串行計算，而我尚未完全理清這對整體圖景有何影響（除了「它讓情況變得更糟」）。

儘管如此，關於電路巨型查找表模型對對齊和思維鏈影響的一些猜測：

代幣（token）瓶頸是真實存在的。每隔不到 1 萬步串行計算，整個狀態就需要壓縮成 5 萬到 20 萬個代幣中的一個，導致每個電路之間傳遞的狀態最多只有 16-20 位元（bits）。我的猜測是實際上更接近 ~8-10 位元（考慮到英語每字元約 1 位元（儘管此來源聲稱每字元接近 5 位元！）），所以在優化的思維鏈中，每個字元可能是 2 位元，每個代幣有四到五個字元。一千個浮點數組成的向量變成了一個十幾位元的代幣。

這是否能讓我們估計輸出 $n$ 個代幣的 LLM 的優化能力上限？

連續的思維鏈將會非常糟糕，因為它們會在沒有資訊瓶頸的情況下大幅增加串行深度。
現在，所有電路即使在相互組合時也保持對齊變得至關重要，而這完全無法保證；甚至將對齊保證從每個電路擴展到每對有序電路，都會使搜尋空間的大小呈平方級增長。

不過，我仍然不相信這會給我們帶來無情的優化器。你必須以半相關的方式將大量短路鏈接在一起，才能產生強大的優化壓力/古德哈特效應/邊緣實例化。

其他大多數觀點（如前向傳遞中的回溯非常困難等），我原本想說的，別人都已經說過了。

訓練過程：如果我們將這整個模型視為關於攤銷優化（amortized optimization），也許是訓練過程佔據了所有的優化能力？LLM 在訓練期間是最危險的嗎？或者說，危險的是整個訓練過程本身？

我認為這個模型基本正確，並且對於能力進展/切換到另一種範式的需求/徹底改革當前範式的部分內容以達到瘋狂的超人類能力具有啟示意義。我認為它預測我們會看到訓練帶來的一些收益，但隨後會進入平台期，或者用難以衡量的能力去交換容易衡量的能力。我想我傾向於 55% 的「LLM 是代理」和 45% 的「LLM 是隨機鸚鵡」，但還有大量 AI 能力預測問題我尚無法回答（例如那個著名的「你預計基於 LLM 的系統在 $YEAR 年不會具備哪種具體能力？」）。而且，很可能這整件事都是徒勞的，因為長思維鏈只要能實現足夠的鏈接，就能獲得那些能力。

或者類似之類的，我也不確定。

（感謝 Claude 4.5 Sonnet 的幫助和回饋。本文沒有任何部分是由 AI 模型撰寫的。）

相關/先前工作/靈感：

人類價值的碎片理論 (Quintin Pope/TurnTrout, 2022)
模擬器 (janus, 2022)
有人對此寫了一份長篇報告。↩︎
關於稀疏性的細節超出了這篇短文的範圍。↩︎
Hänni 等人 (2024) 證明了多項式縮放，而如果過於嚴肅地對待 Johnson-Lindenstrauss 引理，則可能意味著指數縮放。多項式縮放使這一圖景更具可行性，但可能性較低，因為目前尚不清楚僅具備多項式數量的電路是否能應對具有指數級增長的觀察-動作序列的世界複雜性。↩︎

參與討論

https://lesswrong.com/posts/a9KqqgjN8gc3Mzzkh/llms-as-giant-lookup-tables-of-shallow-circuits