可擴展的端到端可解釋性

Lesswrong·4 個月前

我提出「可擴展的端到端可解釋性」，主張訓練專門的 AI 助手，透過預測模型行為等任務來理解神經網路。藉由溝通瓶頸與可驗證的目標，我們可以利用大規模算力來彌合務實與雄心勃勃的可解釋性研究路徑之間的差距。

這篇文章部分是關於《預測性概念解碼器》（Predictive Concept Decoders）的連結貼文，部分是對 Neel Nanda 的《人工智慧可解釋性的務實願景》（Pragmatic Vision for AI Interpretability）以及 Leo Gao 的《可解釋性的雄心願景》（Ambitious Vision for Interpretability）的回應。

目前在可解釋性社群中，存在著「務實可解釋性」（pragmatic interpretability）與「雄心可解釋性」（ambitious interpretability）之間的爭論。前者主張將問題紮根於可實證衡量的安全性任務中，後者則追求對神經網路獲得完整的、由下而上的理解。

在我看來，這兩者都觸及了重要的核心，但也都有所遺漏。它們各自正確的地方在於：

務實可解釋性 識別出需要紮根於實際行為和數據才能取得進展，且在解決特定問題（如不誠實行為）方面更接近「直擊要害」。
雄心可解釋性 正確地指出，神經網路中發生的許多事情具有高度的組合性（compositionality），而高效的解釋需要利用這種組合結構。它也在哲學層面上更直接地處理了內部過程與輸出之間的差距。

另一方面，務實可解釋性往往低估了組合性的重要性，而雄心可解釋性則讓人感覺非常間接，且可能無法實現。

我認為更好的方法是我稱之為可擴展的端到端可解釋性（scalable end-to-end interpretability）。在這種方法中，我們訓練端到端的人工智慧助手來為我們執行可解釋性工作，並確保其結果對人類仍然有用。具體而言，我們：

確定一個端到端任務，使得代理人為了在該任務中表現出色，必須學習到關於神經網路內部結構的重要知識。例如：預測干預的結果，或識別出能開啟或關閉特定行為的消融神經元。
將此任務作為訓練目標，在大量數據上訓練一個人工智慧助手。這個助手在理解特定 AI 模型的專門任務上，很可能達到超越人類的水平。
使助手學到的信息可被人類提取，方法可以是透過在架構中引入通訊瓶頸，或將可解釋性作為訓練目標的一部分。

我們最近關於《預測性概念解碼器》的論文就是一個例子。在這裡，端到端任務是根據模型的激活值（activations）預測其行為。我們可以在網路文本的大量（激活值，輸出）配對上預訓練一個系統，然後微調該模型以回答使用者的問題。為了讓這些答案紮根於表示（representations）中，我們引入了一個通訊瓶頸：有一個編碼器必須將激活值壓縮成一組稀疏的概念，而另一個獨立的解碼器在回答問題時只能看到這組稀疏概念。

這種編碼器-解碼器助手在重要方面同時具備了「雄心」與「務實」的特質：

學習到的助手是**「雄心勃勃」**的：人工智慧助手本身被激勵去完整理解它正在解釋的模型，並且在數據量和模型規模達到極限時，理應獲得這種理解。
助手的輸出是**「務實」**的：回答人類提出的、通常可以透過實證驗證的問題。（事實上，我們確實用它解決了幾個具體任務。）
通訊瓶頸將「務實」的回答紮根於「雄心」的理解之上。

或許更重要的是，這種方法在設計上是可擴展的——有一種自然的方式可以向助手投入更多的算力和數據，使其變得更好。

可擴展端到端哲學的一些啟示包括：

稀疏特徵之所以好，並非因為它們解決了疊加（superposition）問題，而是因為它們便於人類檢查。
特別是，我們可以在通訊瓶頸處使用更具結構性的對象（如命題公式），而不是僅有稀疏的特徵列表，從而找回雄心可解釋性所具備的組合性。
我們應該優化代理人以幫助人類理解模型——例如，我們可以要求代理人提出人類可以測試的主張，或者加入一個明確的獎勵項，追蹤人類在獲得助手回應後的表現（這裡的「人類」可以用另一個語言模型來模擬）。

最後一點實際上是編碼器-解碼器瓶頸的推廣：在這種情況下，編碼器試圖產生有助於解碼器回答問題的概念列表；如果我們將解碼器換成人類，那麼我們就是在直接優化這些概念，以幫助人類回答問題。

端到端可解釋性對我來說是處理可解釋性的正確方式：它給了我們衡量進展的紮實標準，它仍以直接的方式與潛在狀態掛鉤，並且它試圖確保某個代理人（人工智慧助手）對模型有完整的理解。從更具美感的角度來看，它也最符合「慘痛的教訓」（bitter lesson），讓我們能夠利用現代機器學習的洞見來解決模型理解中的問題。

總結來說：與其訓練超人類的通用人工智慧（AGI），不如讓我們訓練專門的、超人類的可解釋性助手！

— Lesswrong

你的個人知識庫

可擴展的端到端可解釋性