可解釋性研究人員如何助益AGI的順利發展？

Lesswrong·5 個月前

Google DeepMind 機械解釋性團隊主張採取務實的解釋性研究方法，重點關注診斷失控風險、增強其他安全領域以及監控極端錯誤行為等具體行動理論，以確保通用人工智慧（AGI）的安全發展。

執行摘要

在過去的一年中，Google DeepMind 機理性可解釋性（mechanistic interpretability）團隊已轉向一種務實的可解釋性研究方法，詳見我們的**配套文章 ^([1])**。我們很高興看到該領域有更多人擁抱務實主義！簡而言之，我們認為：
針對最終目標，透過良好的代理任務（proxy tasks）獲得經驗性回饋至關重要 ^([2])。
我們不需要近乎完美的理解就能產生重大影響。
我們可以透過從「變革理論」（theory of change）出發來執行良好的重點項目，並透過從「穩健有用的場景」出發來執行良好的探索性項目。
但這相當抽象。那麼，可解釋性如何幫助 AGI 順利發展？以下幾個變革理論對我們來說脫穎而出：
失調科學 (Science of Misalignment)：如果模型採取了有害行動，我們希望能夠嚴謹地判斷它是「在搞陰謀」還是僅僅是「搞錯了」 ^([3])。
賦能其他安全領域 (Empowering Other Areas Of Safety)：可解釋性並非能獨自解決安全問題的萬靈丹，但可以透過消除障礙或在適當處解決弱點來顯著幫助其他領域，例如：抑制評測意識（eval awareness），或解讀安全技術究竟教會了模型什麼。
防止極其嚴重的失調行為 (Preventing Egregiously Misaligned Actions)：我們如何在讓模型進行生產性工作的同時，確信它受到足夠的監控，以防止它採取極其有害的行動（即使它想這麼做）？
直接幫助對齊模型 (Directly Helping Align Models)：我們能否找到新的方法將訓練引導至更安全的方向？
這些如何轉化為研究領域？一種方法是直接從這些變革理論出發進行逆向推導，並識別關鍵的子問題：
模型生物學 (Model Biology)：給定一個模型行為的實例（例如：看似失調的行為），我們能否理解其驅動因素？
監控 (Monitoring)：例如使用探針（probes）來防止極其嚴重的失調行為。
另一種方法是識別穩健有用的場景並對其進行探索——這些場景從多個角度看都很有價值，而不僅僅依賴單一的變革理論：
推理模型可解釋性 (Reasoning Model Interpretability)：關於如何解釋涉及思維鏈（chain of thought）計算的基礎科學 ^([4])。
自動化可解釋性 (Automating Interpretability)：例如可解釋性智能體（interpretability agents）。
尋找良好的代理任務 (Finding Good Proxy Tasks)：例如構建良好的模型生物（model organisms）。
模型差異分析 (Model Diffing)
發現異常行為 (Discovering Unusual Behaviours)
以數據為中心的可解釋性 (Data-Centric Interpretability)：構建更好的方法從大型數據集中提取洞察。
應用可解釋性 (Applied Interpretability)

變革理論 (Theories Of Change)

為了應用我們的務實哲學，我們需要瞄準北極星目標。我們從事這項工作是因為我們高度關注 AGI 帶來的生存風險，並希望確保 AGI 的發展順利。我們尋找北極星的方法之一，是思考可解釋性研究者可以幫助 AGI 順利發展的變革理論（這遠超出了「經典」的機理性可解釋性範疇）。

我們下方的思考深受我們對機理性可解釋性研究者**比較優勢**看法的影響，如配套文章中所述：

在標準技術失效時，利用**模型內部機制（model internals）**創造價值。
對模型行為和認知範例進行深度鑽研，特別是利用工具識別行為的關鍵定性驅動因素和無監督發現假設，並以科學心態仔細考慮、測試和證偽假設。

值得注意的是，我們認為雖然可解釋性擅長產生定性洞察（包括意想不到的洞察），但在完整性或精確性方面較弱。因此，我們選擇的變革理論不需要高置信度的解釋，這與可解釋性領域傳統流行的一些觀點不同（例如：試圖排除合理懷疑地證明一個系統是對齊的）。

最後，我們鼓勵讀者將我們的務實框架應用於自己對 AGI 安全的看法！如果能被其他「機理性可解釋性心態有所助益」的變革理論所說服，我們會感到非常興奮。

失調科學 (Science Of Misalignment)

想像一個尖端模型採取了極其惡劣的行動——例如，在關鍵的監控代碼中引入了安全漏洞。我們如何知道它是惡意策劃（scheming），還是僅僅是搞錯了？

這種區別會導致完全不同的安全應對措施。如果它真的被發現是在搞陰謀，我們需要嚴肅對待、發出警報並全面修復這些問題。但如果它是無意的，我們就不應該為了小事大驚小怪（儘管仍應採取緩解措施）。

此外，如果我們真的發出警報，當我們需要證明採取嚴肅行動的合理性時，我們需要向利益相關者提供強大且嚴謹的證據。如果模型經常表現不佳，這很容易。但如果它在規避檢測的同時搞陰謀，那麼區分惡意行為與良性的偶發故障就會變得困難，而且可能沒有確鑿的證據（smoking gun）。

可解釋性可以透過分析行為不端的真實案例（例如：來自部署日誌）來幫助定罪或證明模型的清白。我們的關機抗拒案例研究是對一個較簡單問題的初步嘗試，我們在配套文章中討論了從中獲得的啟示。

為什麼選擇這個？ 因為它發揮了對模型行為定性理解、無監督發現以及收集支持和反對競爭假設之證據的科學方法的比較優勢。

在此取得成功需要：

更好的識別關鍵行為驅動因素的技術（模型生物學）。
釐清關於 LLM 心理學的概念性問題，例如「模型意圖」究竟意味著什麼。
強大的推理模型計算解釋方法（複雜的決策涉及許多具有顯著思維鏈的相互作用因素）。
用於假設生成（和驗證）的強大無監督發現技術（模型生物學）。

我們認為這是「證明模型是對齊的」的一個更集中且更易處理的類似方案 ^([5])。關鍵的轉變在於關注狹義的定罪而非廣義的清白證明。 我們不是在試圖證明一個全局性的否定命題；我們只需要為關於單一實例的特定假設收集足夠的證據，而這正是可解釋性大放異彩的地方。

我們還注意到，即使你對當前軌跡下的對齊感到悲觀，並希望 AI 進程暫停或放緩，這一議程仍然具有價值：嚴謹、高質量的證據雖然不充分，但對於幫助人們對任何警告信號做出正確反應非常有價值。

賦能其他 AGI 安全領域 (Empowering Other Areas Of AGI Safety)

可解釋性提供了其他機器學習領域通常缺乏的手段。我們不認為它是萬靈丹，但它提供了不相關（decorrelated）的工具，我們很高興能填補其他安全議程中的弱點。

— Lesswrong