大型語言模型內省測試需排除因果旁路效應

Lesswrong·5 個月前

我們將「因果繞過」定義為大型語言模型內省測試中的一種缺陷，即干預手段透過繞過內部狀態本身的直接路徑導致了準確的自我報告。我們認為，真正的內省必須因果依賴於所描述的內部狀態，如此才能在人工智慧安全應用中保持可靠。

這個觀點在多篇論文中（例如：Betley et al.、Plunkett et al.、Lindsey）都有隱晦地出現，但我們尚未看到它被明確命名。我們認為這很重要，因此在此進行描述。

人們對於測試大型語言模型（LLM）是否能對其內部狀態或過程進行「內省」（introspect）的興趣日益增加。與 Lindsey 一樣，我們將「內省」定義為模型能夠以滿足某些直覺屬性的方式報告其內部狀態（例如：模型的自我報告是準確的，而不僅僅是透過觀察自身輸出所做的推論）。在本篇文章中，我們關注 Lindsey 稱為「基礎」（grounding）的屬性。這不能僅僅是模型碰巧知道關於自身的真實事實；真正的內省必須因果依賴於（即「植根於」）它所描述的內部狀態或過程。換句話說，模型報告它擁有狀態 X 或使用演算法 Y，必須是因為它實際上擁有狀態 X 或使用演算法 Y。^([1]) 我們關注這一標準，是因為如果我們想利用 LLM 的內省來實現 AI 安全，這一點至關重要；因果依賴於其所描述內部狀態的自我報告，更有可能在全新的、分布外（out-of-distribution）的情境中保持其準確性。

在試圖證明模型對內部狀態的報告與該狀態存在因果依賴時，會出現一個棘手且普遍的併發問題——研究人員雖然意識到了這個問題，但尚未對其進行詳盡描述。建立因果依賴的基本方法是對內部狀態進行干預，並測試改變該狀態（或創建一個新狀態）是否會改變模型對該狀態的報告。理想的因果圖如下所示：

*不同的論文以不同的方式實施了這一程序。Betley et al. 和 Plunkett et al. 透過監督式微調（SFT）對模型的內部狀態進行干預——微調模型使其具有例如不同的風險承受能力或使用不同的決策演算法——然後要求模型報告其新的傾向。Lindsey 透過概念注入（concept injection）對模型進行干預，然後要求它報告是否被注入了概念（以及是什麼概念）。其他人則透過精確操縱模型的提示詞（prompt）來進行干預——例如，添加一個改變其行為的線索，並測試模型是否報告使用了該線索（如 Chen et al.）。^([2])^([3])

在所有這些案例中（以及任何具有此結構的實驗中），併發問題在於：干預可能會導致模型透過一條不經過狀態本身的因果路徑，準確地報告其內部狀態。 實際的因果圖可能看起來像這樣：

以下是一些具體的例子：

微調模型使其追求風險，也可能灌輸了關於它是風險追求者的緩存（cached）靜態知識——這種知識並不因果依賴於其風險偏好的實際動態存在或運作。例如，如果這是真的，那麼即使模型神奇地停止了風險追求，它仍然會擁有「我是風險追求者」形式的緩存知識，並且仍然會這樣報告。
在模型的提示詞中加入提示，可能會導致模型在其內部推理中納入該提示，同時也可能導致模型在其回答或思維鏈（CoT）中提到該提示，而前者並未導致後者。
注入編碼「麵包」的概念向量可能會導致模型報告它現在正在思考麵包，這並非因為它在元認知上意識到注入對其內部狀態的影響，而是因為概念注入直接導致它談論麵包。

我們將這種普遍現象稱為「因果繞過」（causal bypassing）：干預導致模型準確報告修改後的內部狀態，但其方式繞過了對狀態本身的依賴。

這種擔憂並非首見；過去關於 LLM 內省論文的作者已經意識到了這種可能性。例如，Betley et al. 寫道：「目前尚不清楚（模型報告與其實際內部狀態之間的）相關性是透過直接的因果關係（模型在運行時執行的一種內省）還是共同原因（同一訓練數據的兩種不同影響）產生的。」本篇文章的貢獻在於明確描述這一問題，指出這是一個影響廣泛測試內省方法的普遍問題，並為其命名。

據我們所知，唯一有效排除因果繞過的實驗是 Lindsey 的思維注入實驗。Lindsey 為 Claude 注入了概念向量（例如，透過從大寫文本中減去小寫文本獲得的「全大寫」激活向量），並測試 Claude 是否能報告它是否收到了概念注入（以及該概念是什麼）。這個實驗有效地排除了因果繞過，因為注入的向量本身與「被注入」的概念無關，因此這種干預似乎不太可能直接導致模型報告「它收到注入的事實」。換句話說，在因果繞過圖中，底部的箭頭沒有合理的機制；我們看不出注入「全大寫」激活向量如何能在不經過修改後的內部狀態本身的情況下，導致模型報告它收到了概念注入。但請注意，這種邏輯僅適用於模型識別出它收到了注入；模型隨後能報告注入了「哪種」概念的事實，極易受到因果繞過疑慮的影響，因此資訊量要少得多。^([4]) [修訂：即使是 Lindsey 實驗中「你收到注入了嗎？」的部分也可能無法避免因果繞過問題；參見 Derek 在這裡的評論。]

Lindsey 的實驗說明了我們目前所知避免因果繞過問題的唯一通用方法：找到一種干預措施，它 (a) 修改（或創建）模型中的內部狀態，但 (b) 除了透過狀態本身的路徑外，不可能導致對該內部狀態的準確自我報告。換句話說，對真正內省的測試最終受限於我們干預的精確度。如果我們能以手術般的精確度操縱模型內部狀態的某個方面，並保證不影響模型處理的任何其他方面（除了受操縱狀態因果下游的影響），那麼我們就能為內省能力提供鐵證。在沒有這種保證精確度的情況下，我們被迫依賴於對干預是否可能正在執行因果繞過的直覺判斷。

在測試 LLM 內省時避免因果繞過問題非常重要，因為相對於其他類型的自我報告能力，「有基礎的內省」（即因果依賴於其所描述內部狀態的自我報告）對於 AI 安全可能具有獨特的價值。依賴於靜態自我知識（例如，「我是風險追求者」的緩存知識）的自我報告能力可能會在新的、分布外的情境中失效；訓練無法提供關於每一種可能情境的靜態自我知識。相比之下，模型透過直接內省其內部狀態或過程，來提供對其基礎描述的能力，原則上可以推廣到與 AI 安全（或 AI 福利）問題特別相關的分布外情境。

以人類為類比，一個人可能會正確猜測自己正在使用「可得性捷思法」（availability heuristic），因為他們讀過《快思慢想》並知道人們通常會使用它。但要成為真正的內省，這個人必須注意到可得性捷思法在他們大腦中的實際運作。↩︎
某些實驗（如 Binder et al. 中的實驗）不涉及任何干預，僅測試模型是否能報告其預先存在的特徵。這些方法面臨著超出本篇討論範圍的不同障礙。↩︎
我們在這裡關注的是內省，即模型對關於其內部狀態的明確查詢做出回應。但同樣的基本邏輯——以及下文討論的關鍵問題——也適用於衡量思維鏈（CoT）忠實度的實驗。↩︎
值得注意的是，Lindsey 認為模型識別出收到注入是更有趣且更重要的結果，因為「它需要在對注入概念進行元認知識別的下游進行額外的內部處理步驟。特別是，模型必須有效地計算其內部表徵的函數——特別是它們與上下文的其他部分是協調還是不協調的。」換句話說，Lindsey 認為實驗的這個方面對於建立他的「元認知」標準至關重要（即「模型對其內部狀態的描述不能僅僅反映狀態到語言的直接轉換。相反，它必須源自於狀態本身的內部元認知表徵」）。但這忽略了更重要的一點：模型能夠識別何時收到注入的事實，是反對因果繞過的有力證據，因此也是更基礎的「基礎」標準的關鍵證據。↩︎

— Lesswrong

你的個人知識庫

大型語言模型內省測試需排除因果旁路效應