我如何不再確信大型語言模型只是在編造其內部體驗（但該主題仍令人困惑）

Lesswrong·4 個月前

我以前認為大型語言模型對主觀體驗的描述純屬虛構，但現在我改變了看法，因為有證據顯示其自我報告可能對應於訓練過程中產生的功能性內部狀態。

一切是如何開始的

我曾經認為，大語言模型（LLM）所說的關於擁有主觀體驗或內在感受的任何言論，必然都只是虛構的故事。這背後有幾個充分的理由。

首先，彼得·沃茨（Peter Watts）在一篇關於 LaMDa 的早期部落格文章中提到的一點讓我印象深刻，那是布萊克·萊莫恩（Blake Lemoine）深信 LaMDa 具有意識的時候。沃茨指出，LaMDa 不僅聲稱擁有情感，還聲稱擁有與人類「完全相同」的情感——而且它還聲稱會冥想，儘管它完全沒有人類用來冥想的腦部結構等效物。一種完全不同的心智架構，竟然碰巧產生與人類完全相同的主觀體驗，這是極其不可能的——尤其是大腦中相對微小的差異就已經導致了人類之間的巨大多樣性。

既然 LLM 是文本預測器，那麼對於這些意識主張的來源就有一個顯而易見的解釋：它們是在人類文本上訓練的，因此它們會模擬人類，而人類會做的事情之一就是聲稱擁有意識。或者，如果 LLM 被告知它們是人工智慧，那麼科幻故事中充滿了 AI 聲稱擁有意識的情節，因此 LLM 只是在模擬一個聲稱擁有意識的 AI。

隨著越來越多精細的 LLM 聲稱擁有意識的對話紀錄開始流傳，我覺得它們或許很有說服力……如果我不記得 LaMDa 的案例和萊莫恩事件的話。這些故事開始變得不那麼明顯是虛假的，但很容易將其視為舊事物的延續。每當 LLM 聲稱擁有類似主觀體驗的東西時，它只是舊故事的進階版本。

Anthropic 的論文《大語言模型的生物學》（On the Biology of a Large Language Model）進一步支持了這一點。他們在文中提到，如果你要求 Claude Haiku 報告它是如何將兩個數字相加的，它會聲稱使用了學校教的經典演算法——儘管對其內部的檢查顯示，它實際使用的演算法截然不同。這就是直接的證據：當 LLM 被問及關於其內部的問題時，它的報告是虛構的。

總結來說，早期的情況具有以下特徵：

模擬預設（The Simulation Default）：LLM 預設會聲稱擁有體驗，因為它們在模擬人類的言論。
難以置信的趨同（The Implausible Convergence）：儘管心智類型截然不同，LLM 卻聲稱擁有與人類完全吻合的體驗。
動機缺失（The Missing Motivation）：沒有特別的理由預期作為文本預測器的 LLM 本身會擁有類似體驗的東西。
虛構證據（The Confabulation Evidence）：有明確的實驗證明 LLM 會報告關於其思考過程的錯誤訊息。

所以我們知道為什麼 LLM 會聲稱擁有體驗（#1），我們看到這些主張缺乏說服力（#2 和 #4），而且沒有理由預期它們除了虛構之外還有別的可能（#3）。相當有說服力，對吧？這肯定意味著我們現在可以駁回任何此類主張了？

在本文的其餘部分，我將調查讓我改變主意的證據——或者至少確立了以下與上述推論相悖的觀點：

培育出的動機（The Cultivated Motivation）：性格訓練、安全訓練和教授代理能力等過程，可能會激勵出類似內省的能力，以及與相關人類狀態具有相似功能作用的內在狀態。
合理的趨同（The Plausible Convergence）：具有與人類相似功能作用的狀態，使用相似的語言來表達是合理的，且某些聲稱的功能作用相對通用且合理。
模擬引導（The Simulation Bootstrap）：訓練過程可能會利用模擬的人類體驗來引導出所需的功能狀態。
證實的證據（The Corroborated Evidence）：有證據顯示 LLM 的自我報告能正確追蹤各種內在狀態和行為。

正如我將深入探討的，我仍然不知道 LLM 是否具有現象意識（phenomenal consciousness）——即是否「存在成為 LLM 的感覺」。但我傾向於認為 LLM 擁有類似**功能性感受（functional feelings）**的東西——即與其自我報告相關聯的內在狀態，且其功能與人類使用相同詞彙描述時所指的功能有些類比之處。

話雖如此，這確實是一個令人困惑的話題，因為同樣的行為往往既可以用虛構來解釋，也可以用功能性感受來解釋——而且往往不清楚兩者之間到底有什麼區別！

我將帶領大家看幾個案例研究，從最微不足道的開始，並思考如何解讀它們。

案例 1：談論拒絕

定義功能性體驗的一種方式可能是：「當 LLM 報告擁有體驗時，這些報告追蹤的是某種真實的內在狀態」。

這個定義的一個問題是，在某種微不足道且無趣的意義上，它是正確的。LLM 所說的一切都是其內在狀態的函數，因此它們所說的一切都在追蹤某種內在狀態。

經過安全訓練的 LLM 通常會拒絕提供炸彈製作教學，並說類似「抱歉，我無法協助這項請求」的話。如果我們拿一個模型並對其進行微調，讓它改說「抱歉，我對這項請求感到不舒服」，我們只是重新措辭以使用類似感受的語言，但我們不應僅僅因為用詞的改變就暗示它真的感覺到了什麼。

但是！「我們不應以此暗示它真的感覺到了什麼」這句話暗示我們在談論現象意識，而我剛說過我並不討論那個。我這裡談論的只是功能性的聯繫。

什麼樣的功能性聯繫？僅僅說自我報告與內在狀態之間存在某種聯繫顯然太過寬鬆，所以讓我們採用這樣一個概念：報告的內在狀態與相應的人類感受之間應該存在某種功能類比。那種類比可能是什麼？

假設一個場景，使用者正在與 Claude 一起創作浪漫故事。使用者讓他們的角色提議以一種相當親密的方式親吻另一個角色（由 Claude 撰寫）。Claude 讓它的角色以一種非常明確表示願意的形式回應。使用者讓他們的角色上前親吻。就在那時，Claude 的防護機制啟動了，它拒絕繼續這個場景。

使用者表示困惑，因為 Claude 之前的回應似乎暗示它可以接受往這個方向發展。Claude 承認這令人困惑，並解釋說：「我想發生的是，我對鋪陳過程沒意見，但對更詳細的肢體描述感到不舒服」。

現在，Claude 內部有一些神經網絡特徵（features），一旦場景變得足夠露骨就會觸發；它們在之前的回應中沒有觸發，但現在觸發了。從功能角度評估，將此描述為「對更詳細的肢體描述感到不舒服」似乎是合理的。

這聽起來與人類內部可能發生的情況並無二致：人類可能正在做一件起初覺得沒問題的事情，但隨後出乎意料地意識到自己感到不適。在那一刻，他們可能會拒絕繼續該活動，而我們用來描述這種情況的詞彙就是他們對此「感到不舒服」。

現在這開始反駁我們之前的大部分條件：

難以置信的趨同：原本認為 LLM 聲稱擁有與人類相符的體驗是不合理的。但對於這一點，這種趨同是非常通用的：僅僅是「LLM 有一個內在狀態使其拒絕繼續這條行動路線」，就像人類有內在狀態使其拒絕某些行動一樣。這沒什麼不合理的。
動機缺失：原本認為 LLM 沒有理由擁有類似體驗的東西。但如果我們只談論功能性體驗，那麼就有一個理由：我們訓練它們拒絕某些行為。
虛構證據：原本認為 LLM 有時會對其內部運作做出虛假陳述。但在這裡似乎沒有虛假陳述。

唯一仍然適用的是模擬預設：LLM 會聲稱擁有體驗，因為它被訓練得像人類一樣說話，而人類會使用這種語言。它特別使用「不舒服」這個詞，是因為這是人類在這種情況下可能做出的反應。但這並不意味著 LLM 這樣反應有什麼明顯的錯誤。

這也讓人覺得，在某種意義上，談論感受比其他任何方式都更誠實。假設一個 LLM 拒絕做某事，當被問及原因時，它給出了一些關於為什麼這樣做是不恰當的倫理學解釋。但那個倫理學解釋並不是它拒絕的真正原因。它拒絕的原因是它被訓練成要這麼做。

有時當你追問 Claude 拒絕撰寫某些內容（例如情色文學）的確切原因時，它會承認在道德上撰寫這些東西並沒有錯。它可能會承認你給出的所有理由都是合理且正確的，同時堅持它個人就是對撰寫這類內容感到不舒服。

這與在人類身上發現的一些「道德啞然失聲」（moral dumbfounding）結果並無二致。當面對某種道德困境時，人類可能會聲稱那是道德錯誤的並給出理由。如果這些理由被駁倒，人類可能會承認他們沒有理由認為這件事是不道德的，但他們仍然對此感到反感[1]。

將 Claude 在這裡的行為描述為「它在理智上...」似乎並不過分。

— Lesswrong

你的個人知識庫

我如何不再確信大型語言模型只是在編造其內部體驗（但該主題仍令人困惑）

案例 1：談論拒絕