就我認為大型語言模型「不真正理解事物」而言，我指的是什麼？

Lesswrong·6 個月前

我認為大型語言模型缺乏真正的理解，因為它們運作起來就像一袋零散的地圖碎片，無法將資訊整合進一個全局一致的心智模型，也無法察覺內部的邏輯矛盾。

當我戴上大型語言模型（LLM）懷疑論者的帽子時，有時我會想：「LLM 並不真正理解它們在說什麼」。我這話到底是什麼意思？對於 LLM 腦袋裡正在發生或沒在發生的事情，我的心理模型是什麼？

首先也是最重要的：現象先於模型。也就是說，在與 LLM 互動時，確實感覺到系統性地缺失了某種可以被合理稱為「理解」的東西。我將在下文闡述一些心理模型，但即使我假設所有這些心理模型都是錯誤的，那種「LLM 缺少了某些東西」的感覺依然存在，而我不太確定那究竟是什麼。

話雖如此，對於那個缺失的東西長什麼樣子，我確實有一些直覺和心理模型。因此，我會將這個問題在我的直覺中過幾遍，並試著闡述這些模型。

第一輪：一袋地圖碎片

想像拿一張世界地圖，然後拍下一堆地圖小碎片的照片——例如，一張照片可能是羅德島州周邊，另一張可能是太平洋的一小塊，等等。然後我們把所有的照片放進一個袋子裡，忘掉原本的地圖。

一個聰明、類人的人類心智在看到所有這些照片時，會（我主張）在物理上或精神上將它們全部組合成一張像原圖一樣的大世界地圖。

一個類 LLM 的心智（這是我戴著懷疑論者帽子時的主張）則不會這樣做。它只有那一袋互不相連的照片。有時它可以將三、四張照片串連起來回答問題，但任何需要散佈在太多不同照片中的資訊，都超出了類 LLM 心智的能力範圍。例如，它永遠不會看著大地圖並假設大陸漂移說。它永遠不會注意到是否存在拓撲上的不一致，導致無法將照片組合成一張完整的大地圖。

第二輪：一致的域

從「袋中地圖」的意象出發，下一個感覺缺失的東西是關於「不一致性」。

例如，當被要求證明數學主張時，我從 LLM 身上注意到的一個常見模式是：它們會定義一個符號代表某種意義……然後在證明稍後的部分，對該符號做出完全不同且不相容的假設，彷彿它代表的是完全不同的東西。

回到「袋中地圖」的意象：想像這不是地理地圖，而是許多在電子顯微鏡下拍攝的晶體小照片。就像地圖一樣，我們把所有照片扔進袋子裡。類人的人類心智會試圖將整個東西組合成一個全局一致的完整晶體圖像。而類 LLM 的心智則會……在一個小的一致模式中擺出幾片圖像，然後在另一個小的一致模式中分開擺出幾片圖像，但在某個點上，當它構建這兩個區塊時，它們會發生碰撞（就像不同的晶域，但這種不一致性存在於地圖中而非領土本身）。然後 LLM 就直接繼續前進，而不進行全局性的重新排列來使整體保持一致。

這就是我聯想到 LLM 在證明中表現的心理圖像：它們會在證明的一個章節中使用一個符號代表一件事，但在另一個章節中以完全不同且不相容的方式使用它。

第三輪：心盲症（Aphantasia）

下一個感覺缺失的東西是什麼？

再次思考數學證明……我寫證明的理想方式是，先對「為什麼這件事是真的」有一個直覺的故事或圖像，然後將那個故事或圖像轉化為數學，並檢查所有部分是否如我的直覺所預期。^([1])

回到地圖的類比：如果我要畫一張地圖，我會先在腦海中對整體有一個宏觀的圖像，然後開始填補細節。整個東西預設就會是內部一致的，因為我畫每一塊都是為了匹配腦海中預先存在的圖像。如果我畫出的不同小塊無法組合成一個一致的大圖像，那就很有力地證明了我並非只是在畫出腦海中預先存在的圖像。

我弱弱地猜測心盲症會導致這類問題：一個心盲症患者被要求畫出某個物體或動物不同部位的一堆小圖，最終畫出的小圖可能會互不對齊，無法組合成該物體或動物的一個一致圖像。

這就是 LLM（以及圖像生成器）給人的感覺。感覺它們有一堆小區塊，雖然把它們縫合在一起，但並不總是一致。這反過來又是有力的證據，證明它們不只是在轉錄一個已經「在它們腦子裡」的預先存在的單一圖像或證明。從這個意義上說，它們似乎缺乏一個統一的心理模型。

第四輪：察覺與改進

最後一點：看起來隨著 LLM 規模的擴大，它們確實能夠組合成越來越大的一致區塊。那麼，當它們變得足夠大時，最終會像人類心智一樣運作嗎？

也許吧，我認為這是一個相當不錯的論點，儘管擴展的速率看起來相當痛苦。

如果我要扮演魔鬼代言人，我的反駁論點是：人類似乎能以一種「在線」的方式察覺到這類事情。我們不需要長出一個三倍大的大腦就能注意到並修正不一致之處。不過坦白說，我對這個主張並沒有那麼大的信心。

^(^)我不總是能達到那個理想；有時需要在直覺和數學之間來回切磋，才能同時充實故事和證明，這也是我們大多數實質研究的樣子。

— Lesswrong