大型語言模型中湧現的內省意識
Anthropic 的研究顯示,像 Claude 4.1 這樣的大型語言模型展現出新興的內省覺知,使它們能夠偵測並報告自身的內部激活狀態與意圖。雖然目前這種能力尚不穩定且受限於情境,但這些發現為模型能區分內部狀態與外部輸入提供了實證依據。
我們調查了大型語言模型是否能對其內部狀態進行內省(introspect)。僅透過對話很難回答這個問題,因為真實的內省與虛構的說法(confabulations)無法區分。在此,我們透過將已知概念的表示(representations)注入模型的激活值(activations)中,並衡量這些操作對模型自我報告狀態的影響,來應對這一挑戰。我們發現,在某些情境下,模型能夠察覺到注入概念的存在並準確地識別它們。模型展現出某種程度的能力來回憶先前的內部表示,並將其與原始文本輸入區分開來。令人驚訝的是,我們發現某些模型可以利用回憶先前意圖的能力,將自己的輸出與人工預填(prefills)區分開來。在所有這些實驗中,我們測試過最強大的模型 Claude Opus 4 和 4.1 通常展現出最強的內省意識;然而,不同模型間的趨勢相當複雜,且對訓練後的策略十分敏感。最後,我們探索了模型是否能顯式地控制其內部表示,發現當被指示或激勵去「思考」某個概念時,模型可以調節其激活值。總體而言,我們的結果表明,目前的語言模型對其自身的內部狀態具備某種功能性的內省意識。我們強調,在當前的模型中,這種能力高度不可靠且依賴於上下文;然而,隨著模型能力的進一步提升,這種能力可能會繼續發展。更多資訊請參閱 Transformer Circuits 的文章。以下是第一張圖表,解釋了其中一項主要實驗:
就個人而言,我對這項工作感到非常興奮!(雖然我在 Anthropic 工作,但我本人並未參與這項研究,僅對一些早期草案提供過評論。)
我仍然擔心各種干擾因素以及對這些觀察結果的「乏味」解釋,但總體而言,這對我來說是一個實質性的更新,讓我更傾向於認為近期的模型具有非平凡的主觀體驗,且這是目前我所知對此類事物進行實證研究的最佳嘗試。我認為這篇論文在試圖區分「真正的」內省與諸如「這只是引導模型說出關於某個主題的詞彙」之類的解釋方面,做得相當出色。
相關文章