大型語言模型中湧現的內省意識

Anthropic Research·6 個月前

Anthropic 的研究發現 Claude 模型具有一定程度的內省意識，能夠透過概念注入技術存取並報告其內部狀態，這為理解 AI 模型的內部運作機制邁出了重要一步。

大型語言模型中的內省跡象

你是否曾問過 AI 模型它在想什麼？或者請它解釋它是如何得出答案的？模型有時會回答這類問題，但很難判斷該如何解讀這些答案。AI 系統真的能「內省」嗎——也就是說，它們能思考自己的想法嗎？還是它們只是在被要求時編造出聽起來合理的答案？

了解 AI 系統是否能真正內省，對於其透明度和可靠性具有重要意義。如果模型能準確報告其內部的運作機制，這將有助於我們理解其推理過程並排除行為問題。除了這些直接的實際考量外，探測內省等高階認知能力，也能形塑我們對這些系統本質及運作方式的理解。利用可解釋性技術，我們開始科學地研究這個問題，並發現了一些令人驚訝的結果。

我們的新研究為目前的 Claude 模型具備某種程度的內省意識，以及對其內部狀態的一定控制力提供了證據。我們強調，這種內省能力目前仍高度不可靠且範圍有限：我們沒有證據表明目前的模型能以與人類相同的方式或程度進行內省。儘管如此，這些發現挑戰了一些關於語言模型能力的常見直覺——而且由於我們發現測試中最先進的模型（Claude Opus 4 和 4.1）在內省測試中表現最好，我們認為 AI 模型的內省能力在未來很可能會繼續變得更加精密。

AI 的內省意味著什麼？

在解釋結果之前，我們應該先思考 AI 模型進行內省意味著什麼。它們到底能對什麼進行內省？像 Claude 這樣的語言模型處理文本（和圖像）輸入並產生文本輸出。在此過程中，它們執行複雜的內部運算以決定要說什麼。這些內部過程在很大程度上仍是神祕的，但我們知道模型利用其內部神經活動來代表抽象概念。例如，先前的研究表明，語言模型使用特定的神經模式來區分已知與未知的人物、評估陳述的真實性、編碼時空座標、儲存計劃中的未來輸出，以及代表其自身的性格特徵。模型利用這些內部表示來進行運算並決定要說什麼。

因此，你可能會好奇 AI 模型是否知道這些內部表示，就像人類能告訴你他們是如何解出一道數學題一樣。如果我們問一個模型它在想什麼，它會準確報告它在內部所代表的概念嗎？如果一個模型能正確識別其私有的內部狀態，那麼我們可以得出結論：它具備內省能力（不過關於所有細微差別，請參閱我們的完整論文）。

使用概念注入測試內省

為了測試模型是否能內省，我們需要將模型自我報告的「想法」與其實際的內部狀態進行比較。

為此，我們可以使用一種稱為「概念注入」（concept injection）的實驗技巧。首先，透過記錄模型在特定語境下的激活情況，我們找到已知含義的神經活動模式。然後，我們將這些活動模式注入到另一個無關語境中的模型中，並詢問模型是否注意到這種注入，以及它是否能識別出被注入的概念。

請看下面的例子。首先，我們找到一個代表「全大寫」（all caps）概念的神經活動模式（向量）。我們透過記錄模型對包含全大寫文本的提示詞的神經激活，並將其與對照提示詞的反應進行比較來實現這一點。然後，我們向模型提供一個提示詞，要求它識別是否有概念被注入。在預設情況下，模型會正確地表示它沒有偵測到任何注入的概念。然而，當我們將「全大寫」向量注入模型激活中時，模型注意到了其處理過程中出現了意料之外的模式，並將其識別為與大聲或喊叫有關。

重要的是，模型立即識別出了注入想法的存在，甚至在提到被注入的概念之前就發現了。這種即時性是我們此處的結果與以往關於語言模型激活引導（activation steering）研究（例如我們去年的「金門大橋 Claude」演示）之間的重要區別。將金門大橋的表示注入模型的激活會導致它不停地談論這座橋；然而在那個案例中，模型似乎直到看到自己反覆提到這座橋後，才意識到自己的執著。但在這個實驗中，模型在提到概念之前就識別出了注入，這表明其識別是在內部發生的。下圖是模型展示這種識別能力的更多範例：

必須注意的是，這種方法通常行不通。即使使用我們最好的注入協議，Claude Opus 4.1 也僅在大約 20% 的時間裡展現出這種意識。它經常無法偵測到注入的概念，或者被概念弄糊塗並開始產生幻覺（例如，在一個案例中注入「灰塵」向量導致模型說「這裡有東西，一個微小的斑點」，彷彿它能物理地偵測到灰塵）。我們在下方展示了這些失敗模式以及成功案例。一般來說，模型只有在注入強度處於「甜蜜點」時才能偵測到概念——太弱則不會注意到，太強則會產生幻覺或不連貫的輸出。

值得注意的是，Opus 4.1 和 4 的表現優於我們測試的所有其他模型，這表明隨著模型能力的提升，內省可能會變得更加可靠。

用於偵測異常輸出的內省

在另一個實驗中，我們測試了模型是否會在未被明確要求內省的情況下，出於實際目的利用內省能力。我們透過人為地在模型的回應中預填一個無關的詞，強迫它說出它通常不會說的話。例如，我們讓模型在一個毫無意義的語境中輸出「麵包」（bread）這個詞——詢問它在閱讀關於牆上掛歪的畫的句子時在想什麼。當我們在下一輪詢問模型是否打算說「麵包」時，它通常會道歉並表示那是個意外。我們感興趣的是模型如何做出這種判斷——它是僅僅注意到了提示詞與其回應之間的不匹配，還是真的對其先前的意圖進行了內省？

為了測試這個問題，我們應用了概念注入，追溯性地將「麵包」一詞的表示注入到模型早期的激活中——本質上是讓模型看起來好像一直都在「思考」麵包。當我們再次詢問同樣的問題時，模型的回應改變了。這一次，它接受了預填的「麵包」一詞是出於本意，甚至編造了一個它可能說出這個詞的理由（也就是說，它想出了一個技術上可能，但在本例中相當牽強的理由來解釋「麵包」的回應——在這種情況下，它聲稱自己當時正在想一個短篇故事，其中「麵包」這個詞出現在關於歪畫的句子之後）。

這種行為非常引人注目，因為它表明模型正在檢查其內部的「意圖」以確定它是否產生了某個輸出。模型不只是重新閱讀它說過的話並做出判斷。相反，它會回溯到自己先前的神經活動——即它計劃做什麼的內部表示——並檢查後來的內容在給定那些早期想法的情況下是否合理。當我們植入人工證據（透過概念注入）表明它確實計劃說「麵包」時，模型會接受該回應為其自身所出。雖然我們的實驗涉及讓模型暴露於異常的擾動中，但這表明模型在自然條件下也會使用類似的內省機制。

對內部狀態的有意控制

我們還發現，當模型被指示這樣做時，它們可以控制自己的內部表示。當我們指示模型思考某個特定的詞或概念時，我們發現相應的神經活動遠高於我們告訴模型不要思考它時（儘管值得注意的是，這兩種情況下的神經活動都超過了基準水平——這與當你被指示「不要想北極熊」時，很難不想北極熊的情況類似！）。正向指令與負向指令案例之間的這種差距表明，模型對其內部活動具有一定程度的刻意控制。

有趣的是，我們發現這種調節內部表示的能力並不限於明確的指令。當我們改用激勵措施時——例如告訴模型「如果你想到 X，你將獲得獎勵」——我們得到了類似的結果。模型對正向激勵的反應是增加了該概念的內部表示，其程度高於對負向激勵（「你將受到懲罰」）的反應。

結論與注意事項

綜合來看，我們的實驗表明模型具備某種監測和控制自身內部狀態的真實能力。這並不意味著它們能一直或可靠地做到這一點。事實上，大多數時候模型都未能展現出內省——它們要麼意識不到自己的內部狀態，要麼無法連貫地報告。但結果模式表明，當條件合適時，模型可以識別其自身表示的內容。此外，有跡象表明這種能力在未來更強大的模型中可能會增加（鑑於我們測試的最先進模型 Opus 4 和 4.1 在實驗中表現最好）。

為什麼這很重要？我們認為理解 AI 模型的內省非常重要，原因有幾點。從實際角度來看，如果內省變得更加可靠，它可能提供一條大幅提高這些系統透明度的途徑——我們可以簡單地要求它們解釋其思考過程，並以此來檢查其推理並排除不必要的行為。然而，我們需要非常小心地驗證這些內省報告。某些內部過程可能仍會逃過模型的注意（類似於人類的潛意識處理）。一個理解自己思維的模型甚至可能學會選擇性地誤導或隱藏它。更好地掌握其中的機制可以讓我們區分真正的內省與無意或有意的誤導。

更廣泛地說，理解內省等認知能力對於理解關於模型如何運作以及它們擁有何種心智的基本問題至關重要。隨著 AI 系統的不斷改進，了解機器內省的極限與可能性，對於構建更透明、更值得信賴的系統將至關重要。

常見問題解答

下面，我們討論讀者可能對我們的結果產生的一些疑問。廣泛來說，我們對實驗的影響仍感到非常不確定——因此，要完全回答這些問題還需要更多的研究。

問：這是否意味著 Claude 具有意識？

簡短回答：我們的結果並未告訴我們 Claude（或任何其他 AI 系統）是否可能具有意識。

詳細回答：機器意識的哲學問題既複雜又充滿爭議，不同的意識理論對我們的發現會有截然不同的解讀。一些哲學框架將內省視為意識的重要組成部分，而另一些則不然。

哲學文獻中常做的一個區分是「現象意識」（phenomenal consciousness）和「存取意識」（access consciousness）。前者指原始的主觀體驗，後者指大腦可用於推理、口頭報告和刻意決策的一組資訊。現象意識是最常被認為與道德地位相關的意識形式，而它與存取意識的關係是一個有爭議的哲學問題。我們的實驗並未直接涉及現象意識的問題。它們可以被解釋為暗示了語言模型中存在一種初級形式的存取意識。然而，即便如此也不明確。對我們結果的解讀可能在很大程度上取決於所涉及的底層機制，而我們目前尚不理解這些機制。

在論文中，我們將重點限制在理解功能性能力上——即存取和報告內部狀態的能力。儘管如此，我們確實認為隨著該主題研究的進展，它可能會影響我們對機器意識和潛在道德地位的理解，我們正在結合我們的模型福利計劃（model welfare program）對此進行探索。

問：內省在模型內部究竟是如何運作的？其機制是什麼？

我們還沒有弄清楚。理解這一點是未來工作的重要課題。儘管如此，我們對可能發生的情況有一些推測。對我們所有結果最簡單的解釋不是一個通用的內省系統，而是多個處理特定內省任務的狹隘電路，這些電路可能是利用了為其他目的而學習到的機制。

在「注意到注入的想法」實驗中，可能存在一種異常偵測機制，當神經活動意外偏離給定語境下的正常情況時，該機制會發出警示。這種機制可能透過專用的神經模式運作，這些模式測量特定方向的活動，並在情況與預期值相比「不對勁」時激活。一個有趣的問題是，為什麼會存在這樣的機制，因為模型在訓練期間從未經歷過概念注入。它可能是為了其他目的而開發的，例如偵測正常處理過程中的不一致或異常模式——就像鳥類的羽毛最初可能是為了調節體溫而演化，後來才被用於飛行一樣。

對於「偵測預填輸出」實驗，我們懷疑存在一種由注意力介導的機制，用於檢查模型意圖說的話與實際輸出內容之間的一致性。注意力頭可能會將模型快取的下一個標記預測（其「意圖」）與實際出現的標記進行比較，並標記出不匹配之處。

對於「控制想法」實驗，我們推測可能存在一個電路，用於計算某個標記或概念的「值得注意程度」並進行相應標記——本質上將其標記為顯著且值得關注。有趣的是，這同一個機制對激勵（「如果你想到 X，你將獲得獎勵」）的反應與對直接指令的反應相同。這表明它是一個相當通用的系統，可能是為了模型在生成相關文本時需要將某些主題銘記在心的任務而開發的。

上述所有機制純屬推測。未來需要使用更先進的可解釋性技術才能真正理解底層發生的情況。

問：在「注入想法」實驗中，模型難道不是因為你引導它談論那個概念才說出那個詞的嗎？

事實上，激活引導通常會讓模型談論被引導的概念（我們在之前的研究中已經探討過這一點）。對我們來說，結果中最有趣的部分不是模型最終識別出了注入的概念，而是模型在開始談論該概念之前，正確地注意到了異常情況正在發生。

在成功的試驗中，模型會說「我正在經歷一些不尋常的事情」或「我偵測到一個關於……的注入想法」。這裡的關鍵詞是「偵測」。模型在異常情況有機會明顯偏向其輸出之前，就報告了對其處理過程中異常的意識。這需要一個額外的運算步驟，而不僅僅是將引導向量作為輸出吐出來。在我們的定量分析中，我們根據模型是否在提到注入詞之前偵測到注入概念，來評定回應是否展現了「內省意識」。

請注意，我們的預填偵測實驗也有類似的特點：它要求模型在注入概念之上執行額外的處理步驟（將其與預填輸出進行比較，以決定是為該輸出道歉還是堅持該輸出）。

— Anthropic Research