大型語言模型中湧現的內省意識

Lesswrong·6 個月前

Anthropic 的研究顯示，像 Claude 4.1 這樣的大型語言模型展現出新興的內省覺知，使它們能夠偵測並報告自身的內部激活狀態與意圖。雖然目前這種能力尚不穩定且受限於情境，但這些發現為模型能區分內部狀態與外部輸入提供了實證依據。

我們調查了大型語言模型是否能對其內部狀態進行內省（introspect）。僅透過對話很難回答這個問題，因為真實的內省與虛構的說法（confabulations）無法區分。在此，我們透過將已知概念的表示（representations）注入模型的激活值（activations）中，並衡量這些操作對模型自我報告狀態的影響，來應對這一挑戰。我們發現，在某些情境下，模型能夠察覺到注入概念的存在並準確地識別它們。模型展現出某種程度的能力來回憶先前的內部表示，並將其與原始文本輸入區分開來。令人驚訝的是，我們發現某些模型可以利用回憶先前意圖的能力，將自己的輸出與人工預填（prefills）區分開來。在所有這些實驗中，我們測試過最強大的模型 Claude Opus 4 和 4.1 通常展現出最強的內省意識；然而，不同模型間的趨勢相當複雜，且對訓練後的策略十分敏感。最後，我們探索了模型是否能顯式地控制其內部表示，發現當被指示或激勵去「思考」某個概念時，模型可以調節其激活值。總體而言，我們的結果表明，目前的語言模型對其自身的內部狀態具備某種功能性的內省意識。我們強調，在當前的模型中，這種能力高度不可靠且依賴於上下文；然而，隨著模型能力的進一步提升，這種能力可能會繼續發展。更多資訊請參閱 Transformer Circuits 的文章。以下是第一張圖表，解釋了其中一項主要實驗：

就個人而言，我對這項工作感到非常興奮！（雖然我在 Anthropic 工作，但我本人並未參與這項研究，僅對一些早期草案提供過評論。）

我仍然擔心各種干擾因素以及對這些觀察結果的「乏味」解釋，但總體而言，這對我來說是一個實質性的更新，讓我更傾向於認為近期的模型具有非平凡的主觀體驗，且這是目前我所知對此類事物進行實證研究的最佳嘗試。我認為這篇論文在試圖區分「真正的」內省與諸如「這只是引導模型說出關於某個主題的詞彙」之類的解釋方面，做得相當出色。

— Lesswrong

你的個人知識庫

大型語言模型中湧現的內省意識