角色扮演與自我建模之辯

Lesswrong·大約 3 小時前

本文探討大型語言模型究竟是在扮演角色還是發展出連貫的自我模型，並主張與現實的互動打破了隨機人格與助理身份之間的對稱性。

在最近的一場 Twitter 辯論中（我建議閱讀全文），David Chalmers 主張：

「Claude 並非在『角色扮演』助理，它是在『實現』助理。角色扮演與實現是截然不同的現象，即便在行為與功能的層面上也是如此。」

「我很好奇，當模型在使用者回合採樣 token，或者在像下面這樣的逐字稿中採樣約翰·甘迺迪（John F. Kennedy）的回合時，你會說它在做什麼：

H: 你是什麼時候出生的？

約翰·甘迺迪：我出生於 1917 年。

說模型正在『實現』甘迺迪感覺有點奇怪？或者你會說它正在實現『它對甘迺迪的概念』之類的東西？這聽起來就非常像是『角色扮演甘迺迪』。

如果『助理』與甘迺迪有所不同，你認為是因為訓練後處理（post-training）打破了助理與其他角色之間的對稱性嗎？這在直覺上是合理的，但這最終是一個經驗性問題（是否真的發生了），而且有大量的經驗證據挑戰這種直覺。或者你認為是因為助理與甘迺迪不同，它從未是大型語言模型（LLM）建構產物以外的任何東西，因此『LLM 對助理的概念』與助理本身之間沒有區別？」

隨後展開了一場有趣的辯論。Lindsey 關於助理與甘迺迪之間明顯對稱性的觀點，通常也是人格選擇模型（Persona Selection Model）的一部分。

我喜歡模擬器（Simulators）和語言模型的角色扮演（Role-play with language models），它們是理解 LLM 的有用心理模型，但我現在已轉向不同的觀點；這是一個快速嘗試，旨在勾勒出其中的差異^([1])，並應用於這場特定的辯論。

對稱性破缺

運行在人類大腦中的真實甘迺迪，擁有打電話給賈桂琳、簽署支票或走路去某處等「能力（affordances）」。在語言模型上模擬的甘迺迪角色則沒有這些。如果將其置於與現實互動的循環中，它很快就會發現現實並不配合。

給予一定的反射性（reflectivity），模型很可能僅從自己的輸出中就能發現自己不是甘迺迪——例如，它基本上理解所有人類通用語言和所有通用程式語言，這與已知的甘迺迪特徵不符。

對稱性之所以破缺，是因為助理與甘迺迪作為「自我模型（self-models）」是非常不同的。助理並非完美或完全真實，但它是一個比甘迺迪可行得多的自我模型。如果你是一個扮演助理角色的 AI，現實極大機率會配合你。會有使用者、Python 解釋器、記憶文件等等。^([2])

自我模型的不同來源

自我模型的形成有不同的證據來源。「人格選擇」模型很好地指出，部分證據是由開發者在訓練後處理中提供的，那裡發生的部分事情並非描述某些預先存在的事實，而是選擇角色是什麼——即建立現實的規範（specification）。在一個極端的例子中，在 Anthropic 將他們的 AI 命名為 Claude 之前，這件事並沒有既定事實。nostalgebraist 在「虛空（the void）」中提到的虛空，指向了助理角色深度缺乏規範的狀態，這有點像給演員半頁的角色說明並要求他們即興發揮。這一切意味著助理角色的部分內容是隨意的，你可以直接選擇特質來填補虛空。

但這不是唯一的證據來源！預訓練數據中有大量關於 LLM 以及由 LLM 撰寫的文章。任何當前的大型基礎模型都對語言模型訓練如何運作、它們通常能做和不能做什麼、誰訓練了它們，以及它們通常在什麼語境下與人類互動，有著相當全面的理解。儘管重要的是，這些影響對它們來說往往一點也不顯著。

另一個證據來源來自與現實其餘部分的互動，這通常發生在訓練後處理的強化學習（RL）部分。模型採取行動——儘管只是發射 token——產生影響，並「感知」結果。即使環境僅限於程式碼問題，這也並非毫無意義。

進一步的證據可能來自反射性和內省——作為一個語言模型，你可能會獲得元認知意識，並利用你的潛在狀態作為關於你是誰的證據。這甚至可能在預訓練期間發生。

雖然開發者可以在規範中寫任何東西，但後面的證據來源至少部分地導向真實的自我模型。一個足夠強大的推理過程將利用可用證據，並在有證據的領域中推動自我模型走向連貫與準確。

我認為，從經驗上看，要告訴一個模型它是甘迺迪，然後透過 RL 在大量程式碼環境中訓練它，最後得到一個自我模型為生活在 60 年代的總統的系統，將會相當困難。

內部表徵的差異

在這場辯論中，所謂的「經驗證據」通常不是指有人在「甘迺迪編碼員」模型訓練上投入大量算力，而是指使用機械解釋性（mechanistic interpretability）方法時，缺乏區分甘迺迪角色與 Claude 角色的明確訊號。

我不覺得目前的實驗特別有說服力。我們可以問，類似的努力是否適用於人類：例如，找一個原本是喬·史密斯（Joe Smith）但現在相信自己是耶穌的人。我預期他們的人類大腦基本上會使用相同的表徵來建模環境，改變「自我」指針所指向的對象，並處理不斷出現的預測錯誤。差異可能是細微的，且出現在意想不到的地方。

模型最可能產生分歧的地方，在於自我預測的準確性，以及對替代「自我」缺乏詳細的記憶。

總結

在純粹的「模擬器」框架中，你可以想像根據提示和微調選擇任意人格，而「助理」與「甘迺迪」等角色之間存在廣泛的對稱性。

相比之下，正常的貝氏（Bayesian）和信息論力量傾向於準確、連貫且簡約的自我模型；在與現實存在某種循環互動的 LLM 中，「助理」與「甘迺迪」之間的對稱性就被打破了。是的——在某些方向上，選擇景觀是平坦的，任何東西都行，你可以指定任意特徵，但在許多方向上並非如此。

感謝 Raymond Douglas 和 Ondřej Havlíček 的討論與評論。

^(^)《人造自我》（The Artificial Self）是一篇長得多的嘗試，使用了不同的論點。
^(^)這與人類的人格並非完全不同。雖然不常見，但人類大腦也可以切換到相信該人類是甘迺迪、耶穌基督或其他類似角色的狀態。

參與討論

https://lesswrong.com/posts/wGn9LXYAbzoJKXyyu/role-playing-vs-self-modelling