可解釋性的大膽願景

Lesswrong·5 個月前

我認為雄心勃勃的機械解釋性（AMI）仍是一個充滿活力且不斷進步的領域，它能提供比務實方法更具魯棒性與泛化性的神經網路深度見解。透過開發更強大的特徵品質與電路忠實度指標，我們可以超越表面的觀察，實現對人工智慧模型如同除錯工具般嚴謹的理解。

雄心勃勃的機械解釋性（Ambitious Mechanistic Interpretability, AMI）之目標，是為了充分理解神經網絡的工作原理。雖然有些人已轉向更務實的方法，但我認為關於 AMI 已死的報導被大大誇大了。AMI 領域在尋找日益簡單且嚴謹忠實的電路方面取得了長足進步，包括我們最近關於電路稀疏性的工作。在核心問題上，也有許多令人興奮的切入點等待探索。

理解的價值

如果我們可以從不那麼雄心勃勃的方法中獲得更直接的價值，為什麼還要嘗試去理解事物呢？在我看來，主要有兩個原因。

首先，機械性的理解可以讓我們更容易弄清楚到底發生了什麼，特別是當很難利用外部行為來區分假設時（例如，如果模型正在進行權謀）。

我們可以將這比作從「print 語句調試」轉向使用「真正的調試器」。Print 語句調試通常需要進行許多實驗，因為每次你只能獲得幾位元的資訊，勾勒出一幅奇怪、混亂且可能具有誤導性的圖景。當你開始使用調試器時，你會突然發現自己一直在做許多甚至沒有意識到的錯誤假設。

*典型的調試過程。*其次，由於通用人工智慧（AGI）可能看起來與當前模型非常不同，我們更希望獲得超越當前模型的知識。這是每個對齊研究議程都必須面對的對齊核心困難之一。

你越了解你的對齊方法為何有效，它在未來繼續有效的可能性就越大，或者至少能在失敗前向你發出警告。如果你只是在模型頭上敲敲打打，它看起來有效但你並不真正知道原因，那麼你根本不知道它何時會突然失效。如果你曾嘗試通過切換聽起來模糊相關的配置選項來修復損壞的軟體，直到它再次運行，你就會知道這種修復是多麼脆弱。另一方面，如果你對模型內部發生的事情有深刻的理解，你就能更好地判斷事情是否因正確的原因而運作，以及哪些類型的變化可能會破壞你的對齊方法。而且我們已經知道，許多務實的方法肯定會在某個時刻失效，我們只是希望它們能撐得足夠久。

AMI 具有良好的反饋循環

雖然開放式探索極具價值，且在產生突破方面具有不成比例的效果，但擁有良好的實證反饋循環對於一個領域的健康發展也至關重要。如果很難衡量你的工作有多好，就很難取得進展。

值得慶幸的是，我認為 AMI 具有出奇良好的實證反饋循環。我們對「充分理解」還沒有一個滴水不漏的定義，但我們可以用尚未接近飽和的方式來衡量進展。這與能力領域的指標現狀並無太大不同，儘管 AGI 難以定義，但該領域無疑取得了非常迅速的進展。

例如，我對基於以下核心思想的指標進展感到興奮：

特徵品質：我們能否通過找到特徵激活時的解釋，並通過用解釋模擬的激活替換模型激活而不降低模型性能，來證明這些解釋是正確的，從而證明特徵是人類可理解的？
電路忠實度：我們能否通過應用因果擦除（causal scrubbing）或其後繼技術而不降低模型性能，來證明我們的電路對於解釋模型行為確實是必要且充分的？

這些標準都不是滴水不漏的，但這並不是目前 AMI 的瓶頸。我們還沒有突破所有能想到的解釋性指標；相反，我們能想出的最強指標對所有現有的解釋性技術給出的分數都是精確的零，所以我們必須使用較弱的指標來取得進展。因此，進展看起來像是推動使用越來越強的解釋性指標的前沿。這產生了一個激勵問題——沒有人想寫那些結果看起來與之前電路同樣令人印象深刻的論文。這裡的解決方案是社會性的——作為一個領域，我們應該在更大程度上重視 AMI 論文的嚴謹性，而不是完全放棄嚴謹的雄心勃勃解釋性。

當然，隨著我們在這些指標上取得進展，我們會發現其中的缺陷。我們將需要創建新的指標，以及現有指標的更強變體。但對於一個健康的研究領域來說，這是理所當然的。

AMI 的過去與未來

在過去的幾年裡，我們在雄心勃勃的解釋性方面取得了很大進展，並且有望在未來幾年取得更多進展。就在幾年前的 2022 年，IOI 論文為一個簡單的模型行為找到了一個非常複雜的電路。這個電路包含超過兩打完整的注意力頭，每個頭由 64 個注意力通道組成，甚至沒有嘗試解釋 MLP。

今天，我們的電路稀疏性方法找到的電路比 IOI 電路簡單幾個數量級：我們只需六個注意力通道和神經元就能解釋複雜度大致相似的行為。^([1]) 我們還使用了稍微更強的電路忠實度概念：我們證明了我們可以使用來自整個預訓練分佈而非任務分佈的均值擦除來消融電路之外的所有節點。各種激活通常極其清晰易懂，由此產生的電路通常簡單到用一天的時間就能充分理解。

AMI 有許多令人興奮的未來方向。首先，有許多可行的方向可以建立在我們最近的電路稀疏性工作之上。預訓練分佈上的均值擦除比完全的因果擦除要弱，而且從整個模型中隨機選擇的神經元或連接通常遠不如我們隔離的特定電路中的神經元或連接那樣可解釋。如果我們設計出真正好的解釋性指標，然後進行爬山算法優化，我們就可以得到一個可解釋的 GPT-1。電路稀疏性也很有可能被應用於僅理解現有模型的一小部分；例如，通過使用橋接將稀疏模型的表示與特定子分佈上的現有模型聯繫起來，或者僅對網絡的一部分進行稀疏化並使用梯度路由來定位行為。

除了電路稀疏性，還有很多其他令人興奮的方向。來自 Anthropic 的電路追蹤議程是另一種 AMI 方法，它在嚴謹性與對前沿模型的擴展性之間做了權衡。此外，類似於 Jacobian SAEs 的方法似乎可以在不需要從頭開始訓練新模型的情況下強制執行電路稀疏性約束，而像 SPD/APD 這樣的方法則為稀疏化權重與激活之間的交互提供了一種極具前景的替代方案。遠離電路範式的方向：SLT 可以為模型泛化提供學習理論解釋，而計算力學可以解釋信念表示的幾何結構。

隨著我們越來越擅長嚴謹地理解小模型，我們可能會在模型內部發現反覆出現的主題，並利用這種結構優化我們的算法以提高效率。如果我們擁有了可解釋的 GPT-1，研究它將教會我們很多關於如何創建可解釋的 GPT-2 的知識。因此，即使是像電路稀疏性這樣本身無法擴展到前沿模型的方法，在通往 AMI 的道路上仍然至關重要，因為它們具有極高水平的表達能力，讓我們在最初對所發現的事物幾乎不抱成見。

「感受 AMI」*充分理解神經網絡並非易事。這甚至可能是不可能的。但做研究的意義在於進行高回報的大膽賭注，而雄心勃勃的機械解釋性的回報是難以超越的。

感謝 Adrià Garriga-Alonso, Jesse Hoogland, Sasha Hydrie, Jack Lindsey, Jake Mendel, Jacob Merizian, Neel Nanda, Asher Parker-Sartori, Lucia Quirke, 和 Aidan Smith 對本文草稿提出的建議。

^(^) 一個微妙之處在於，我們的工作涉及從頭開始創建更具可解釋性的新模型，而不是解釋現有模型，這使得比較變得有些困難。然而，我不認為這完全使比較失效，因為我猜測將我們的技術擴展到解釋現有模型是可行的。

— Lesswrong

你的個人知識庫

可解釋性的大膽願景

理解的價值

AMI 具有良好的反饋循環

AMI 的過去與未來