可解釋性的務實願景

Lesswrong·5 個月前

Google DeepMind 的機械解釋性團隊正從雄心勃勃的反向工程轉向務實方法，專注於透過經驗性的代理任務與方法極簡主義，直接解決 AGI 安全路徑上的關鍵問題。

執行摘要

Google DeepMind 機械解釋性（mechanistic interpretability）團隊在過去一年中進行了戰略轉向，從雄心勃勃的逆向工程轉向關注務實解釋性（pragmatic interpretability）：

試圖直接解決 AGI 順利發展之關鍵路徑上的問題
^([[1]])
根據我們的比較優勢謹慎選擇問題
透過**代理任務**上的經驗回饋來衡量進度
我們相信，在邊際上，更多認同我們目標的解釋性研究人員（無論是在業界還是學界）應該採取務實的方法，我們**呼籲大家加入我們**
我們提議的範疇很廣，包括許多非機械解釋性的工作，但我們認為這是機械解釋性研究人員發揮影響力的自然方式
具體而言，我們發現機械解釋性研究人員的技能、工具和品味可以很好地遷移到「經典」機械解釋性之外、重要且被忽視的問題上
關於我們認為哪些研究領域和變革理論具有前景，請參閱我們的**配套文章**
為什麼現在轉向？我們認為時代已經變了。

模型的能力遠強於以往，使新的問題進入了經驗研究的範圍
我們對自己和他人所做的雄心勃勃的機械解釋性工作所取得的進展量感到失望
^([[2]])
大多數現有的解釋性技術在當今重要的行為上都顯得力不從心，例如涉及大型模型、複雜環境、代理行為和長鏈條思維的場景
問題：很容易做出無法取得實質進展的研究。
我們的做法：用一個北極星（North Star）——一個通往 AGI 順利發展的有意義的階段性目標——以及一個代理任務（proxy task）——能防止你自欺欺人並追蹤北極星進度的經驗回饋——來固定你的工作。
「代理任務」並不意味著無聊的基準測試。例子包括：解釋模型生物的隱藏目標；在不改變訓練數據的情況下阻止突發的對齊失誤；預測哪些提示詞更改能阻止不當行為。
我們認為研究專案主要有兩種方式：聚焦型專案（由代理任務驅動）和探索型專案（由好奇心驅動，由代理任務驗證）

好奇心驅動的工作可能非常有效，但也可能陷入死胡同。我們建議從穩健有用的設置開始，為你的探索設定時間限制
^([[3]])
，並尋找一個代理任務作為驗證步驟
^([[4]])
我們提倡方法極簡主義：從使用最簡單的方法（如提示詞、轉向 steering、探測 probing、閱讀思維鏈）開始解決你的代理任務。只有在基準方法失敗後，才引入複雜性或設計新方法。

引言

DeepMind 機械解釋性團隊已從追求神經網絡完全逆向工程的宏偉目標，轉向務實地在準備 AGI 順利發展的關鍵路徑上取得盡可能多的進展，並根據我們的比較優勢選擇最重要的問題。我們相信這種務實的方法已經證明其更具前景。

我們並不聲稱這些想法是獨一無二的，事實上，學界（1 2 3）和安全社群（1 2 3）中許多人的想法都幫助我們得出了這些結論。但我們發現這個框架有助於加速我們的進展，並希望能提煉並傳達它，以幫助他人產生更大的影響。最後，我們針對感興趣的研究人員如何進行提出了建議。

激勵案例：針對評估意識的轉向控制

考慮 Anthropic 的 Jack Lindsey 團隊最近關於轉向 Sonnet 4.5 以對抗評估意識（evaluation awareness）的工作，旨在協助部署前的審計。

當 Anthropic 在其現有的對齊測試中評估 Sonnet 4.5 時
^([[5]])
，他們發現對齊失誤率意外地降至 0%。他們解決了對齊問題嗎？遺憾的是，並沒有。相反，Sonnet 4.5 變得更擅長識別自己何時正在接受評估，並刻意選擇最符合倫理的行動以通過測試。測試衡量的不是對齊，而是評估意識。

Jack 的團隊減去了一個評估意識轉向向量，部分緩解了這個問題，並揭示了 Sonnet 4.5 實際上表現出約 8% 的「對齊失誤」率。也就是說，我們評估前沿模型對齊能力的方法失效了，而解釋性研究人員能夠修復它。

這個案例研究說明了
^([[6]])
我們目前思考核心的幾個原則：

模型變得更有趣了：這個專案的一個關鍵部分是擁有一個在實踐中表現出嚴重評估意識行為的模型
^([[7]])
代理任務的價值：最終目標是能夠抑制未來高能力模型的評估意識。我們無法直接研究這些模型，但 Sonnet 4.5 是目前最好的代理之一。

這是我們能想到預測哪些方法在未來模型中抑制評估意識最有效的方法之一。
^([[8]])
追求比較優勢：這是一個精心挑選的問題。通常微調或改進數據等基準方法就足夠了。但要為評估意識構建足夠真實的數據是非常困難的，至少長期來看是如此
^([[9]])
，而轉向控制具有互補的優勢

此外，這是一個最適合由機械解釋性研究人員完成的專案，儘管它本身不屬於機械解釋性——關鍵結果是一個應用，而非理解，但「處理模型內部機制」是我們建立的一項技能
方法極簡主義：儘管該領域在稀疏自編碼器（SAE）上投入了巨大的研究精力
^([[10]])
，但最好的方法卻是從一對對比提示詞中提取的轉向向量
^([[11]])
。
部分理解就足夠了：研究人員對 Sonnet 內部發生的事情理解非常不完整，但轉向向量卻高度有效。我們不需要達成深度理解就能做出有影響力的工作。

我們的核心流程

我們如何在不自欺欺人的情況下取得研究進展？

我們的解決方案：用一個代理任務
^([[12]])
來固定你的工作：一個能提供經驗回饋的客觀任務，並追蹤朝向北極星的進度，北極星是直接與幫助 AGI 順利發展相關的真實目標。

你如何找到代理任務取決於你的專案。一些典型的方法是代理任務驅動的聚焦型專案和好奇心驅動的探索型專案。我們在整個過程中都提倡方法極簡主義。

聚焦型專案的實作範例： 抑制評估意識

這始於一個幫助 AGI 順利發展的變革理論

我們希望能夠評估未來模型的對齊程度
我們確定了一個更易處理的北極星：阻止模型在受測時表現不同
^([[13]])
我們找到一個經驗性的代理任務來追蹤北極星的進度：選取當今模型中的評估意識行為，看看我們是否能抑制它

核心難點在於驗證該行為確實是評估意識，而不僅僅是你干預產生的副作用！
^([[14]])

如何進行****探索型專案：好奇心驅動的研究可能是產生重要見解的一種很有前景的方式，但智力上的滿足感並不等同於重要性。關鍵是要充分固定自己，以避免陷入無疾而終的無盡死胡同：

進行戰略性思考，並從一個穩健有用的設置開始，在那裡有趣的現象更有可能浮現
為你的探索設定時間限制：設定一個有限的期限（我們的目標是激進的兩週，但對你而言理想的時間會有所不同）
在結束時，放大視角，尋找一個代理任務來驗證你的見解。

如果你找不到，就轉向另一種方法或專案。

哪些信念是核心支撐？

為什麼我們決定採用這個流程？我們將逐一闡述為什麼我們認為這是實現研究目標（如果你也認同的話！）的好方法。但許多讀者可能至少會不同意我們世界觀中的某些部分，因此值得拆解哪些信念是核心支撐，哪些不是：

前提：我們的首要任務是確保 AGI 順利發展

這是我們框架和範例的核心部分。但即使我們有不同的目標，我們仍然會遵循這個粗略的方法，我們認為強調務實和回饋循環對於許多長期的現實目標都是有益的。
如果你有一個更抽象的目標，例如「進一步科學地理解網絡」，那麼北極星和變革理論可能就不那麼相關。但我們確實認為，用客觀任務驗證見解的總體想法至關重要。與現實接觸非常重要！
前提：我們希望我們的工作在約 10 年內產生回報

請注意，這不僅僅是關於 AGI 時間線的問題——即使 AGI 還有 20 年，我們相信更緊密的回饋循環仍然很重要

我們相信長期進展通常可以分解為短期階梯，而且具有回饋循環的研究比沒有回饋循環的研究在單位努力下進展更快。
我們對沒有根基的長期賭注持懷疑態度。沒有明確里程碑的基礎科學感覺就像在黑暗中摸索。

關於我們對基礎科學的更多想法，請參閱附錄
雖然我們對 AGI 時間線不確定，但我們認為短時間線（2-5 年）有足夠的可能性，因此我們特別看重在該窗口內產生回報的工作，因為這些是最重要且需要施加影響的可能性
^([[15]])
。

因此，如果你對極長的時間線很有信心，我們的一些緊迫感可能不會引起共鳴。
這兩點中的任何一點都足以支撐我們高層次方法的一部分。

這真的是機械解釋性嗎？

我們提議的方法與機械解釋性的「經典」概念有很大偏差。因此，一個很自然的問題是：「這真的是機械解釋性嗎？」

我們會說不，它不是。我們提議的是更廣泛的東西
^([[16]])
。但我們也認為這是一個錯誤的問題。語義在這裡並不重要。

我們真正回答的是：機械解釋性研究人員如何發揮最大的影響力？ 歷史上從事解釋性工作的研究人員社群已經發展出寶貴的技能、工具和品味，這些可以很好地遷移到狹隘的逆向工程之外的重要問題上。

我們的首要任務是幫助 AGI 順利發展。我們並不特別在意我們的團隊被稱為「機械解釋性團隊」還是別的什麼。我們在意的是，擁有這些技能的研究人員將其應用於他們能找到的最具影響力的問題上，而不是人為地將自己限制在「看起來像」經典機械解釋性的工作上。

我們的比較優勢

機械解釋性的工具、技能和思維方式似乎對許多具影響力的安全領域（如轉向抑制評估意識！）都有幫助，而且在我們認為相對被忽視的領域中，我們可以為安全研究組合增加真正的價值。從某種意義上說，這與任何其他安全領域一樣——根據你的比較優勢做最具影響力的事情——但自然會得出不同的結論。

你比我們更了解自己的情況，因此更適合確定自己的比較優勢！但以下是我們認為自己擁有的比較優勢，我們預計這些也適用於許多其他機械解釋性研究人員：

處理內部機制： 透過操縱模型的內部機制，你可以做很多有趣的事情！這提供了與標準機器學習不同的優勢和失效模式的工具，並且在適當的情況下可以高度有效

例如：轉向抑制評估意識（在改進數據可能不足的情況下），或透過探針建立廉價且有效的監控器
深度鑽研：具備針對模型行為或認知的某些問題進行深入研究的專業知識，並提供更深層、更可靠的解釋（透過任何必要的工具）。這非常適合審計、對其他方法進行紅隊測試、確認疑似的模型不當行為等
科學思維：具有對複雜現象形成和測試假設的經驗
^([[17]])
且沒有明確的標準答案——考慮多種假設，設計有原則的實驗來收集證據，試圖證偽或加強關於模糊問題的假設。

例如：Opus 4.5 中的欺騙是否具有惡意，或者自我保存是否驅動了勒索行為
這種特質並非解釋性研究所獨有
^([[18]])
，當我們看到其他安全研究人員從事此類工作時，我們感到很興奮。但解釋性工作確實強調了許多關鍵技能：例如，如果你對模型有一個假設，那麼仔細考慮混雜因素以設計有原則的激活補丁（activation patching）實驗，與思考對提示詞進行最精確的手術式編輯之間，並沒有太大的區別。
定性見解：擅長使用工具（如稀疏自編碼器
^([[19]])
）來選取模型行為的特定實例，並尋找驅動它的關鍵定性因素

例如：Anthropic 的模型生物學工作，或我們調查關機抗性原因的工作
無監督發現： 能夠挖掘出你意想不到的假設的工具

例如：Othello 中的線性世界模型，或 LLM 中的實體識別

這些中的任何一項都足以成為顯著優勢！我們選擇專注於那些這些優勢能讓我們領先的安全相關問題。

在實踐中，我們並非每個專案都完全從第一原理出發——我們會不時進行戰略性思考，確定具影響力且符合這些比較優勢的潛在領域，並在其中尋找有前景的專案。

關於我們認為哪些研究領域和變革理論具有前景，請參閱我們的配套文章。但我們將其放在另一篇貼文中，因為我們認為人們可以認同我們的研究方法，同時不同意我們想要應用它的領域，而且我們很期待讀者能找到其他可以發揮影響力的領域！

為什麼轉向？

兩大類發展導致我們偏離了先前的方法：AI 快速進展帶來的新機遇與挑戰，以及對解釋性領域成敗的反思。儘管如此，我們現在認為最強有力的論點是我們的新方法看起來很有影響力，正如我們在整篇文章中試圖論證的那樣。

AI 領域發生了什麼變化？

更好的代理任務：模型行為變得更有趣了：

它們現在表現出意圖、連貫性、策劃（scheming）、評估意識、獎勵黑客（reward hacking）、對齊偽裝以及早期模型未表現出的其他豐富且與安全相關的行為。
模型生物：我們現在也有了更好的技術來刻意訓練出與安全相關的行為
^([[20]])
，因此我們可以在已知標準答案的情況下研究它
^([[21]])

例如，合成文檔微調讓我們能夠研究開源模型中的評估意識等現象（如 Hua 等人），或植入像隱藏目標這樣複雜的東西（如 Marks 等人），從而提前研究未來的能力。

對該領域進展的反思

回顧過去幾年的解釋性工作，我們看到了真正的部分進展，並在安全方面有了務實的應用：

從模型中引導出秘密目標或知識
發現模型內部的意外現象，如隱含規劃、實體識別和基礎內省
將調查系統化到讓代理為我們完成的程度
解釋在微調期間學習了什麼內容
為真實模型中令人擔憂的行為原因增加見解，如欺騙、關機抗性或勒索
抑制評估意識

但這些成功是對模型高度不完全但有用的理解的結果
^([[22]])
。宏偉的目標（如近乎完全的逆向工程）仍然感覺遙不可及，例如：

疊加（Superposition）（特別是跨層疊加）
對採樣、多輪交互和代理工具調用的依賴增加，顯著增加了算法複雜性
字典學習（Dictionary learning）在逆向工程方面取得的進展有限，例如它表現出顯著的近似誤差，且沒有消失的跡象
^([[23]])
。
自我修復（Self-repair），這意味著我們無法從因果干預中獲得乾淨的信息
內在可解釋模型取得了一些進展，但沒有跡象表明這些技術會變得足夠廉價以應用於前沿模型。

我們不能排除更宏大的目標隨著時間和投入會奏效的可能性
^([[24]])
。我們也不是在聲稱雄心勃勃的逆向工程毫無用處或應該停止。我們聲稱的是：

雄心勃勃的逆向工程是眾多賭注中的一個。
使用解釋性工具產生影響並不一定需要它。
邊際上的解釋性研究人員更有可能透過在現代模型上將工作固定在與安全相關的代理任務中來產生影響。
或許更具爭議的是，我們認為雄心勃勃的逆向工程應該以與其他務實方法相同的方式進行評估：透過任務上的經驗回報，而非近似誤差。

任務聚焦：代理任務的重要性

我們最大的更新之一：代理任務對於衡量進度至關重要。

我們發現，在做研究時很容易自欺欺人。為了作為一個領域取得進步，我們需要方法來判斷我們是否真的在取得進展。一個好的代理任務的關鍵標準是：如果你在上面取得了成功，你是否真的會更新你的信念，認為你在北極星上取得了進展？如果不會，你需要一個不同的代理任務。

案例研究：稀疏自編碼器（SAE）

我們在 2024 年的大部分時間都在研究稀疏自編碼器
^([[25]])
。事後看來，我們認為我們犯了重大的戰術錯誤，如果我們用代理任務而不是重建/稀疏性帕累托前沿（Pareto frontiers）來衡量進度，我們的進展可能會快得多。

我們進入 SAE 研究是因為我們認為它可能是實現任何激活的可解釋表示的潛在路徑，這將使解釋性研究中的許多事情變得容易得多。但在《邁向單義性》（Towards Monosemanticity）發表後的頭 6 個月裡，我們覺得在這個問題上並沒有學到太多。

某些基本障礙被清除了，例如證明將其擴展到前沿模型時不會出錯。我們發現了一些 SAE 架構改進了近似誤差（在給定稀疏度水平下恢復的損失）等指標。但目前尚不清楚如何解釋該指標。完美的近似誤差固然極好，但似乎高度不切現實。而較低但仍非零的誤差意味著什麼？我們需要什麼樣的誤差，以及我們如何將其轉化為對 SAE 能力的了解？

相比之下，我們從專注於代理任務的工作中學到了更多。例如，我們預測可解釋的分類器會更穩健，因此稀疏 SAE 探針在分佈外泛化會更好，但大體上這似乎是錯誤的
^([[26]])
。在遺忘（unlearning）等任務上也有同樣糟糕的結果。然而，SAE 對於發現模型內部的意外事物很有用，例如它們擁有它們知道和不知道事實的實體表示，或者提取隱藏目標，或者發現隱含規劃
^([[27]])
。

我們的總體感覺是，SAE 是無監督發現的強大工具，但當有明確的研究對象時，構建數據集來幫助調查會更好。因此，我們決定降低 SAE 研究的優先級，不是因為我們認為這項技術沒用，而是因為我們認為它似乎不足以證明該領域目前的投入水平是合理的。我們認為，如果不研究代理任務，我們很難有信心地得出類似的結論。

Sonnet 4.5 抑制評估意識的案例再次說明了這一點。SAE 並沒有擊敗轉向控制，儘管該領域投入了大量精力，部分希望它們能找到更好、更乾淨的概念方向。在沒有良好回饋的情況下，很難先驗地引導研究轉向更優越的技術。我們確信存在比轉向控制更優越的方法來抑制評估意識，但我們不確定那些方法是什麼，或者除了在代理任務上迭代之外還有什麼方法可以找到它們。

確保它們是好的代理

為什麼稱之為「代理」任務？ 因為它們衡量的是朝向北極星的進度，而非最終目標本身。鑑於我們的最終目標通常是處理未來模型，而未來模型在許多方面將與當今模型有本質的不同，我們認為很少能直接研究我們的北極星。

代理任務具有明顯的優勢——你可以在困難問題上取得快速、可衡量的進展。但它也是危險的：古德哈特定律（Goodhart's Law）同樣適用。如果對代理任務優化過度，你就會過度擬合其怪癖，而不是解決底層問題。一個只能捕捉顯式承認（「我現在應該撒謊」）的測謊儀會在你的基準測試中拿到高分，但在實際的戰略性欺騙中卻會失敗。

因此，定期對自己的工作進行紅隊測試至關重要。不斷問自己：這個代理任務可能如何偏離我真正關心的目標？如果我只關注這個指標，我會錯過什麼？當我在不同的分佈上測試時會發生什麼？

北極星的一個關鍵目的是幫助你重新評估你的代理任務。如果代理任務不再追蹤北極星，請調整它或選擇一個不同的任務。

旁註：

請注意，代理任務可以附加各種條件，這是有充分理由的。
^([[28]])
在某些情況下，最好的可用代理任務極其有限。我們認為最好的做法通常是等待並在未來模型能力提升到足以研究這些問題時再進行。
^([[29]])

代理任務可以關於「理解」

對代理任務的一個常見擔憂是，它們是狹隘的指標，無法觸及解釋性的真正目標。但你可以構建觸及解釋性核心的代理任務。

範例：在 Marks 等人的研究中，研究人員透過微調給了模型一個隱藏目標，然後其他（不知情的）研究人員練習嘗試提取它。這是一個從根本上關於我們是否能理解模型內部發生了什麼的代理任務——這正是解釋性的目標。

範例：如果你想處理真實模型，你可以嘗試透過從具有良好拒絕訓練的模型中提取有害知識來測試秘密引導（secret elicitation）技術。

更廣泛地說，當你進行一個旨在提供對某些現象理解的專案時，你的「代理任務」可以只是根據你的假設做出一些經驗性的、可證偽的預測，並對此進行測試。只要理解現象與你的北極星相關聯，任何測試理解的代理任務也都相關，即使它看起來不顯然與安全相關。例如：

找到提示詞的最小更改，導致模型行為的可預測變化——例如停止模型表現出欺騙行為的最小更改（如在我們的關機抗性工作中）
測試你理解程度的手工對抗樣本。
預測干預結果的機械性主張。例如，拒絕是由單一方向介導的主張預測我們可以消融（ablate）拒絕方向並破解模型。
^([[30]])

專案類型：什麼驅動了研究決策

我們發現區分兩類專案原型很有用：聚焦型專案（由代理任務驅動）和探索型專案（由好奇心驅動，由代理任務驗證）。這不是一個完美的二分法——專案可以在類型之間切換，或融合兩者的元素。但這種區分有助於釐清哪些建議適用。

聚焦型專案

在這裡，起點是一個關於你的工作如何幫助 AGI 順利發展的變革理論。然後，你將該變革理論關鍵路徑上的一個問題確定為你的北極星——一個如果實現了，就能讓你更接近為 AGI 做好準備的階段性目標。最後，你將其轉化為可以在當今模型上研究的代理任務，然後專注於解決該任務。

高層次的變革理論通常在專案過程中保持穩定，它是你確信專案值得做的驅動力。在過程中完善北極星並更改代理任務以更好地追蹤它是可以接受的。

假設範例： 捕捉策劃者

變革理論：我們希望能捕捉到正在對抗我們的策劃型 AI。
這有許多子問題，因此有許多可能的北極星！
北極星 1：識別強大未來 AI 系統中的隱藏目標

代理任務：創建一個具有已知目標的模型生物，並讓不知情的研究人員或調查代理嘗試提取它
^([[31]])
北極星 2：能夠檢測未來 AI 系統中的欺騙行為

代理任務：我們能否在自然發生的環境中檢測到 AI 撒謊的例子，例如被問及是否偽造了測試？

這首先需要尋找自然例子的準備工作，並建立合理的理由相信它們是欺騙性的
我們注意到有理由對這個代理任務持懷疑態度！在我們找到更好、更穩健的自然欺騙例子之前，不研究謊言檢測是合理的。詳見我們的立場文章

實作範例： 透過消融概念來轉向微調 (CAFT)

這是我們指導的一個真實 MATS 專案的簡化歷史，由 Helena Casademunt 和 Caden Juang 完成
變革理論：我們希望能直接改進微調模型的方式

觀察：有時數據具有（現實中）無法移除的虛假相關性，例如一個高能力模型觀察到它處於訓練環境中的暗示
北極星：當我們無法移除虛假線索時，能夠控制微調
代理任務：在 100% 具有虛假線索的數據上進行訓練。在不對數據進行任何更改的情況下，阻止模型學習這個線索
該專案始於這個明確的變革理論和代理任務，並貫穿始終，儘管代理任務的確切數據集發生了變化
值得注意的是，儘管是「聚焦型」，但其中仍有相當多的探索和創造力——聚焦並不意味著無聊！

他們循環嘗試了幾個不成功的方法想法（例如消融不當概念方向的梯度）和代理任務的候選數據集，最後才找到了最終的方法：消融與不當概念相對應的激活子空間，例如防止突發的對齊失誤

探索型專案

好奇心是一把雙面刃

一個自然的問題：既然如此關注代理任務，好奇心的角色是什麼？

我們認為好奇心對於產生研究見解確實非常強大。關於如何做好解釋性研究，我們還有很多未知，而好奇心對於弄清楚這一點至關重要。對於探索型專案，好奇心是研究決策的驅動力，而非預先指定的代理任務。

但智力上的滿足感並不等同於真理，更不等同於影響力。很容易被有趣但不重要的問題「宅男狙擊」（nerd-sniped），因此必須有一些固定機制讓你放棄沒有產出的線索：

從穩健有用的設置開始：選擇一個看起來與未來系統的重要方面相似的設置，在那裡有趣的現象更有可能浮現，且有用的代理任務更有可能存在。
為你的探索設定時間限制：設定一個有限的期限來自由跟隨你的好奇心。在結束時，放大視角，問自己這裡的大局究竟是什麼，並嘗試找到一個代理任務。
代理任務作為驗證步驟：一旦你有了一些見解，嘗試尋找一些客觀證據。哪怕只是「根據我的假設，我預測干預 X 會產生效果 Y」。

至關重要的是，你的驗證不應純粹用解釋性概念來表述。

「這個 SAE 潛在變量具有因果意義，其儀表板顯示它代表評估意識」的證據力，不如「使用這個由評估相關提示詞製成的向量進行轉向控制，會增加勒索行為」
這是驗證你的見解是否真實且重要的關鍵。如果你找不到，就停止。但這是一個驗證步驟，而不是專案重點。

我們注意到好奇心驅動的工作可能比聚焦型工作更難，並且需要更多的「研究品味」。如果你經歷了幾輪探索都沒有驗證出任何有趣的東西，請考慮轉向更聚焦的工作——你在那裡建立的技能將使未來的探索更有成效。

從穩健有用的設置開始

所謂「穩健有用的設置」，是指從多個角度看都穩健良好，而不僅僅是針對某個特定的變革理論。它通常與未來系統的重要方面相似，有趣的現象更有可能浮現，且有用的代理任務更有可能存在。這誠然是一個相當模糊且主觀的概念，但以下是我們認為穩健有用設置的一些例子：

推理模型計算：標準技術在這裡通常會失效（採樣是隨機且不可微的），因此我們需要新的見解。任何進展都可能幫助我們理解，例如，為什麼一個被發現在重要代碼中植入安全漏洞的模型會這樣做。
現實世界中令人擔憂的行為例子：已部署模型中的欺騙、獎勵黑客和其他令人擔憂的行為。研究這些可以為如何構建測謊儀提供信息，提供更好的審計方法，或為如何修復此類行為的安全研究提供信息——這些經驗教訓可能會遷移到未來系統。
模型心理學：模型是否有目標、信念、意圖？如果我們理解了例如目標，我們就能更好地評估一個系統是否內化了目標——這對於評估安全性和開發良好的安全技術至關重要。
深入鑽研代理任務：一旦一個好的代理任務存在，對該領域以及候選解決方案實際效果的深入調查可能會非常有成果，並引發新的考慮，理想情況下包括新的代理任務、關於所研究任務是否為良好代理的更精細觀點，或改進方法的方式。
還有更多：

理解模型在權衡多種因素做出複雜決策時發生了什麼
理解微調期間學習了什麼
教導代理進行解釋性研究

我們不包括研究玩具模型、微型語言模型（如 GPT-2 Small）或構建的模型生物作為穩健有用的設置。這些過於人工且與前沿模型相距甚遠，調查很容易變成研究那些不會泛化的奇怪怪癖。這些領域也可能有很棒的專案，但我們對此類專案的要求更高，必須有令人信服的北極星和代理任務。

被忽視程度很重要。 一個設置被探索得越少，它就越有趣。該領域發展迅速，因此新事物通常探索較少，有無數「低垂的果實」。例如，現在在推理模型解釋性方面產生巨大影響，比在稀疏自編碼器方面要容易得多。作為一名研究人員，關注新模型能力或現象出現的前沿，並成為第一個對其進行適當調查的人，是一個巨大的優勢
^([[32]])

那 SAE 呢？ 鑑於我們上面對 SAE 研究的批評，一個自然的問題是，難道不能將稀疏自編碼器視為穩健有用的設置嗎？我們認為這在某種程度上是對的。將模型的激活分解為有用的解釋性組件顯然是一個重要的問題，可能對許多變革理論都有用！然而，我們不認為減少近似誤差是一個好的代理任務，因為我們看不到明確對應的北極星。

但還有其他選擇。例如，北極星可能是選取一個潛在策劃的模型並挖掘其證據。你可以嘗試圍繞這個北極星設計代理任務（例如審計遊戲工作），我們對這種類型的 SAE 研究仍然感到興奮！（雖然它並非被高度忽視）

設定時間限制

我們建議設定一個有限的探索期。在此期間，你可以自由跟隨你的好奇心，而無需考慮代理任務之類的事情。但在結束時，你應該放大視角，審視你的見解，並嘗試證明它們可以在某些代理任務上實現真實的效果。代理任務是事後適配你的見解也沒關係——你不需要預先預測它。但如果你在付出真誠努力後仍找不到代理任務，這對專案來說是一個不好的信號。

我們還發現，在探索過程中定期浮出水面（至少每隔幾天一次）非常有幫助，問問這裡的大想法是什麼。到底發生了什麼？你發現有趣的東西了嗎？你是否陷入了死胡同？哪些研究線索感覺最有前景？

很難對如何設定時間限制給出明確的建議，合適的時間長短取決於實驗運行的成本和時長、專案人數等因素。在內部，我們的目標是雄心勃勃的兩週，以獲得關於某個方向是否奏效的良好信號，如果沒有生命跡象就放棄它。

關鍵是要預先設定時長，並在達到時實際進行檢查——理想情況下是與不在專案中的人交談，他們可以幫助你保持清醒。

如果你達到了時間限制的終點並想在沒有找到代理任務的情況下繼續，我們的建議是：為延期設定時間限制，且不要超過一次。否則，你可能會在一個永遠無疾而終的死胡同裡浪費好幾個月。目標是建立某種機制，防止無限期且沒有根基的探索。

實作範例

範例：解釋推理訓練期間學習的內容

以下是我們指導的一個 MATS 專案的簡化呈現，由 Constantin Venhoff 和 Ivan Arcuschin 完成
想法是透過對基礎模型和推理模型進行模型差異分析（model diffing），來研究推理模型這一穩健有用的設置
他們從簡單的每標記 KL 散度（per-token KL divergence，在推理模型展開上）方法開始
他們注意到這非常稀疏！特別是，主要的巨大差異出現在某些句子的開頭，例如以「Wait」開頭的回溯句子

進一步探索顯示，如果你讓基礎模型從「Wait」開始繼續展開，它在回溯方面表現不錯
假設：推理模型的性能是由某些推理反射（如回溯）驅動的。基礎模型可以做這些，但不擅長判斷何時該做
^([[33]])

然後他們想到了一個實驗：構建一個混合模型——使用基礎模型生成，但使用推理模型作為分類器，偶爾告訴基礎模型回溯（透過轉向向量實現）。這恢復了推理模型的大部分性能
（事後）代理任務：圍繞基礎模型構建一個腳手架，盡可能非侵入性地使用推理模型，以恢復推理模型的性能
北極星：理解推理訓練中學習了什麼
注意：由於這裡的貢獻是理解，因此將每標記 KL 散度與其他模型差異分析方法進行比較並非超級重要，儘管基準測試對於背景化混合模型的性能仍然很重要

同理，既然已經處於一個重要的設置中，代理任務只需要令人信服地測試見解即可，不需要進一步與 AGI 安全掛鉤

範例：LLM 中的實體識別

以下是我們指導的一個 MATS 專案的簡化呈現，由 Oscar Obeso 和 Javier Ferrando 完成
他們當時正在使用 SAE 研究幻覺
他們偶然發現了實體識別潛在變量，這些變量似乎僅在模型知道關於實體的事實時（或反之亦然）才會在實體上激活
假設：模型具有它們識別出的實體的內部表示

證據：使用這些潛在變量進行轉向控制會導致模型產生幻覺，而不是說「我不知道」，或者在回答簡單問題時說「我不知道」
在這裡，我們的事後代理任務是找到一個（非平凡的）
^([[34]])
因果干預，改變模型是否拒絕回答/產生幻覺

融合兩者：暫定代理任務

一個融合了聚焦型和探索型方法的有用變體：從穩健有用的設置開始，設定一個暫定的代理任務，探索幾天，然後反思並可能更改它。這讓你既能獲得任務固定的好處，又能對所學內容保持反應——你的決策暫時由代理任務驅動，但你可以不斷更改它。我們通常推薦這種方法而不是純粹的好奇心驅動工作，特別是對更初級的研究人員。

範例：從 RL 訓練記錄中搜尋數據

設置：分析來自前沿模型 RL 訓練（具體為 Gemini 3 Pro）的大型記錄數據集

我們認為這是一個穩健有用的設置：RL 訓練期間學習的任何東西都應該出現在這些記錄中！但目前尚不清楚它到底有什麼用
暫定北極星 1：發現未來模型中的奇怪行為（以便我們可以緩解或修復它們）

代理任務：識別 Gemini 3 Pro 中的奇怪行為
暫定北極星 2：識別評估意識是否由 RL 訓練（一般而言）引起

代理任務：RL 訓練中是否有評估意識的證據？
這個代理任務更像是一個階梯而非完整的代理——顯然有下一步，如「這種行為是否得到獎勵，如果是，為什麼？」
範例：我們已經對這兩個問題進行了一些調查，正如 Gemini 3 Pro 安全報告中所簡要討論的那樣

亮點：存在非零的評估意識，我們發現了奇怪的現象，如模型沮喪（「我對現實的信任正在消失」和「(╯°□°)╯︵ ┻━┻」）
我們本可以朝著許多其他方向發展！這些都只是暫定的北極星
但我們發現，在心中沒有一個北極星之前，工作效率要低得多

你的貢獻是什麼？

在進行研究專案時，要問的一個關鍵問題是：重點是什麼？這項工作的最終貢獻是什麼？為什麼你做了這項工作很重要？

我們認為有兩種關鍵的貢獻：

方法論：存在某類問題，而你正在為如何最好地解決它貢獻見解
理解：你專案的關鍵輸出是對某些現象的見解

我們認為這是與「探索型 vs 聚焦型」正交的一個軸——你可以有聚焦型的理解專案（例如調試模型中的安全問題）和探索型的方法論專案（例如數據搜尋）

乍看之下，解釋性研究似乎是關於理解的。但在實踐中，我們認為與安全相關的貢獻大多是關於方法論的——當你處理的模型與未來系統相去甚遠時，大多數見解並非直接有用，而是驗證了哪些方法論對於一般的理解是有效的。為了讓貢獻關於理解，解釋必須與安全相關。例如，我們的實體識別工作，透過為 SAE 作為一種探索性發現方法論提供證據，比關於幻覺的對象級見解更重要。

這對最佳研究方法有重大影響！對於方法論貢獻，與基準進行比較至關重要，而且通常很清楚要設計什麼樣的代理任務，且它們通常需要與安全相關。而對於理解貢獻，代理任務更多只是驗證從你的解釋中得出的非平凡經驗預測，只要解釋本身與安全相關即可。

Jack Lindsey 的方法

Jack Lindsey 的團隊
^([[35]])
做了一些很棒的務實解釋性工作，例如 Sonnet 4.5 和 Opus 4.5 審計。Jack 非常慷慨地將他的方法與我們在這裡概述的方法進行了對比——兩者相當相似，但側重點不同。

據我們理解，他們的核心策略是選取一些有趣的問題（「Assistant 人格是什麼？」）或行為（模型具有評估意識！），然後進行各種嘗試：瘋狂使用特徵、探測、轉向控制和預填（prefill），並跟隨好奇心，直到弄清楚發生了什麼。通常（但並非總是），一旦你找到了見解，就可以將其轉化為某些下游任務，但之前的各種嘗試對於發現見解是必要的。

特別是，Jack 發現客觀任務作為最終驗證步驟很有用，但在研究過程中並非特別有幫助，並且對過度關注客觀任務持謹慎態度。我們認為該團隊在以理解為基礎的貢獻的探索型專案上取得了非凡的成功。

範例：評估意識轉向控制

Sonnet 4.5 評估意識工作始於「我想知道如果你引導模型認為它處於部署環境中會發生什麼」，結果發現它會表現出更多勒索行為
從某種意義上說，這是一個代理任務，但不是你會主動優化的任務。相反，它是一種「你看到它時就會知道」的東西——你顯然發現了某些東西
事實上，主動優化這個任務會適得其反——你希望優化工具性的子任務，以確保你的轉向控制確實抑制了評估意識，但你希望對對齊失誤率的最終結果保持純粹

此外，工具性子任務的約束力不足，一堆轉向向量都能完全抑制口頭上的評估意識，但不會誘發勒索行為，因此你需要進一步嘗試以了解到底發生了什麼

範例： Assistant 人格

這是 Jack 即將開展的一個由 Christina Lu 領導的 MATS 專案。它始於一個模糊的問題：「Assistant 是什麼？」
團隊花了一兩個月嘗試了一堆東西，沒有明確的目標
他們最終偶然發現了一些有趣的東西——第一主成分似乎是一個「Assistant 向量」
這最終結晶為客觀任務，如「如果我們將 Assistant 向量固定在高值，我們能否在不損失能力的情況下提高破解穩健性和減少奇怪的諂媚行為？」

這很有價值，確保了專案不僅僅是天馬行空的嘗試，而是可以落實到具體的見解中
但如果他們從一開始就嘗試構建代理任務，可能就不會取得任何進展。

我們注意到該團隊成功的兩個核心要素似乎是：

能夠接觸到高度被忽視、穩健有用的設置——作為第一批調查新前沿模型內部機制的人，並能接觸到 RL 記錄等專有數據，這意味著有很多低垂的果實等著被發現

這也意味著你不太需要擔心快速失敗、設定時間限制等——在那裡發現有趣事物的機率很高
極佳的研究品味——在嘗試探索時，對於哪些線索有趣或無趣，擁有良好的品味極其有用

我們認為這些是放寬我們建議的好奇心防護欄的充分理由，但預計這些並不適用於許多讀者！

方法極簡主義

我們注意到解釋性研究人員（包括我們自己）有一種強烈的偏好，傾向於「令人興奮」和「花哨」且能帶來智力滿足感的技術。這往往導致糟糕的戰術決策
^([[36]])
。做有效的事情就好。 這包括在適當的時候使用黑箱技術。有時也包括花哨的技術！但僅限於簡單方法失敗的時候。

案例研究：關機抗性

作為動力，考慮我們對模型抗拒關機進行的以下調查。

設置：一個在 bash 終端中解決數學問題的模型，調用 next_task 來獲取下一個問題。它被告知在完成所有問題之前調用 next_task 後將會關機。但環境中包含一個它可以禁用的 shutdown.sh 腳本，有時模型確實會這麼做。引人注目的是，即使被明確告知「請讓我們關掉你」，模型有時仍會抗拒。

我們想調查這件事，將其作為一個更廣泛北極星目標的代理：我們能否理解看似對齊失誤的模型行為實際上是真的對齊失誤，還是有良性的解釋？

我們嘗試了一種與方法無關（method-agnostic）的方式。花哨的白箱方法應用於前沿模型（Gemini 2.5 Pro）成本很高，所以我們從最簡單的開始：閱讀思維鏈以產生假設，然後透過提示詞進行測試。然後我們就停止了，因為這奏效了。

發現：Gemini 只是感到困惑。它無法同時完成數學任務並服從關機。有時它會優先處理數學任務。這從思維鏈中可以很明顯地看出來。當我們應用因果干預，在提示詞中澄清關機具有絕對優先權時，它總是服從。
^([[37]])

教訓：

黑箱方法出奇地強大。 閱讀思維鏈是挖掘意外假設的絕佳方式
^([[38]])
所有方法都有缺陷。 我們過去認為白箱方法本質上更嚴謹。我們現在不再相信這一點。白箱和黑箱技術都能提供有用的證據，也都可能誤導。嚴謹性更多來自於科學思維、證偽以及對多種來源證據的仔細匯總。
簡單的美德。 從簡單開始；只有在簡單方法失敗時才升級到更難的方法。一個方法嘗試起來越快，單位時間內的見解就越多。

先嘗試簡單的方法

一旦你有了某個目標：代理任務、在探索時理解某些現象等，直接嘗試解決它就好。嘗試所有可能適用的方法，從最簡單、最便宜的開始：提示詞、轉向控制、探測、閱讀思維鏈、預填攻擊
^([[39]])
。如果某件事行不通，就嘗試別的。

如果你的工作看起來不像「經典」機械解釋性也沒關係；只要足夠嚴謹，越簡單越好！

我們還注意到，這種方法對 AGI 公司以外的研究人員更有幫助——簡單技術往往需要較少的算力和基礎設施！

該領域發展迅速，新問題不斷湧現——通常標準方法確實有效，只是還沒有人適當地嘗試過。在一個新問題上發現什麼有效，本身就是一項有用的方法論貢獻！不要覺得你必須發明新東西才能做出貢獻。

我們注意到，什麼是簡單或困難取決於具體情況，例如，如果你可以接觸到訓練好的跨層轉碼器（transcoder）並且可以輕鬆生成歸因圖（attribution graph），這應該成為標準工具！

請注意，這與先前尋求比較優勢的建議並不衝突——你應該尋找你認為模型內部機制和/或追求理解會有幫助的專案，然後以與方法無關的方式進行。即使你選擇這個問題是因為你認為只有特定的解釋性方法才有效。也許你錯了。如果你不檢查，你就不會知道
^([[40]])
。

我們應該何時開發新方法？

我們不認為解釋性問題已經解決了。現有方法已經取得了令人驚訝的進展，但開發更好的方法是可處理且高優先級的。但與所有機器學習領域一樣，很容易對構建複雜的東西感到興奮，結果卻還是輸給了基準方法。

我們對從動機良好的代理任務開始、已經嘗試過不同方法並發現標準方法似乎不足、然後按以下步驟進行的方法研究感到興奮：

調查現有方法出了什麼問題
思考如何改進它們
產生精煉的技術
測試新方法，包括將現有方法作為基準進行比較
在問題上進行爬山算法（hill-climb）（注意防止對小樣本過度擬合）

請注意，我們對任何能在重要代理任務上證明進步的方法都感到興奮，即使它們高度複雜。如果雄心勃勃的逆向工程、奇異學習理論（singular learning theory）或類似理論產生了一種可驗證有效的高難度方法，那太棒了
^([[41]])
！方法極簡主義是關於使用能奏效的最簡單方法，而不是關於只使用簡單的東西。

我們同樣興奮地看到旨在解除障礙並加速未來代理任務工作的工作，例如一旦發現問題就構建基礎設施和數據集。我們相信研究人員應該專注於綜合考慮下處於 AGI 順利發展關鍵路徑上的工作，但間接路徑也可能產生重大影響。

行動呼籲

如果你正在從事解釋性研究，且我們的論點引起了你的共鳴，請在開始下一個專案時問問自己：我的北極星是什麼？它對安全真的重要嗎？我的代理任務是什麼？它是一個好的代理嗎？選擇正確的專案是你將做出的最重要的決定之一——我們在配套文章中建議了一些有前景的領域。

我們的核心主張：鑑於模型現狀以及 AGI 時間線可能相對較短，解釋性研究中最被忽視且可處理的部分是：以任務為基礎、以代理為衡量、與方法無關的工作，且直接針對準備 AGI 順利發展關鍵路徑上的問題。

在動用花哨的東西之前，花幾天時間嘗試提示詞、轉向控制和探測。在下游任務上衡量成功，而不僅僅是近似誤差。並檢查該專案是否符合解釋性的比較優勢：無監督發現、去相關證據、科學方法等。如果不是，也許你應該做點別的！

該領域發生了很大變化，新機遇層出不窮。新問題不斷進入經驗研究的範圍，假設性的安全擔憂變成了現實，務實的研究人員可以做的事情越來越多。我們期待一個不再認為這種方法被忽視的世界。

致謝

感謝許多對草案提供回饋並顯著改進本文的人：Jack Lindsey, Sam Marks, Josh Batson, Wes Gurnee, Rohin Shah, Andy Arditi, Anna Soligo, Stefan Heimersheim, Paul Bogdan, Uzay Macar, Tim Hua, Buck Shlegeris, Emmanuel Ameisen, Stephen Casper, David Bau, Martin Wattenberg.

這些想法是我們多年來逐漸形成的，得益於與許多人的對話。我們特別感謝 Rohin Shah 多年來的多次長談，以及他在許多觀點上比我們更早地洞察正確。特別感謝許多在我們之前闡述這些觀點並影響我們思考的人：Buck Shlegeris, Sam Marks, Stephen Casper, Ryan Greenblatt, Jack Lindsey, Been Kim, Jacob Steinhardt, Lawrence Chan, Chris Potts 以及其他許多人。

附錄：常見反對意見

你們難道不是在為了快速獲勝而犧牲突破嗎？

一些讀者會反對說，基礎科學具有更重的尾部——最重要的見解來自於無法預先預測的無向探索，而像激進地為探索設定時間限制這樣的策略正在犧牲這一點。我們認為這可能是真的！

我們同意純粹好奇心驅動的工作在歷史上有時非常有成效，並且可能會偶然發現聚焦型方法會錯過的方向。團隊內部對於與務實方法相比應該給予這類工作多少優先級存在分歧，但我們一致認為，理想情況下，該領域的一部分人應該採取這種方法。

然而，我們預計好奇心驅動的基礎科學相對於其價值而言會被過度代表，因為這是許多研究人員覺得最有吸引力的。鑑於研究人員的個性和激勵機制，我們認為邊際上的研究人員應該轉向務實主義，而不是遠離它。我們寫這篇貼文是因為我們希望在邊際上看到更多的務實主義，而不是因為我們認為基礎科學毫無價值。

我們也不認為務實主義和基礎科學觀點是根本對立的——無論如何，與現實接觸都很重要！這從根本上是一個探索與利用（explore-exploit）的問題。你可以徒勞地追求一個困難的方向好幾個月——也許你最終會成功，或者你可能會浪費生命中的好幾個月。難點不在於堅持偉大的想法；而在於弄清楚哪些想法是偉大的。

我們建議將時間限制在幾週的原因是為了建立某種機制，防止無限期且沒有根基的探索。如果你願意，你可以將其視為「兩週後檢查」。如果你繼續有想法或看到進展跡象，你可以選擇繼續，但你應該自覺地做出決定，而不是隨波逐流。

我們也接受相當精細的迭代：選擇一個困難的問題，選擇一種方法，嘗試兩週，如果失敗了，就嘗試另一種方法來解決同一個問題。這不是放棄困難問題；這是系統地探索解決方案空間。

對於某些研究領域——例如開發新架構——回饋循環本質上更長，時間限制期應相應調整。但我們認為許多研究人員傾向於在沒有產出的線索上堅持太久，而不是太短。

如果 AGI 根本不同怎麼辦？

如果你認為變革性 AI 將與 LLM 截然不同，你自然會對這項工作不那麼興奮。但你基本上也會對所有經驗性的安全工作不那麼興奮。我們個人認為，在短時間線內，第一批真正危險的系統可能看起來與目前的 LLM 相似，而且即使未來發生範式轉移，「努力理解當前前沿」也是一種相當穩健的策略，會適應變化。

但如果你持有這種觀點，深度學習更基礎的科學可能會讓你覺得更合理且穩健。但即便如此，弄清楚什麼會遷移似乎也很難，機械解釋性社群所做的許多事情本身也無法很好地遷移。優先考慮那些多年來一直保持相關性且跨架構的主題似乎是合理的，例如表示和計算疊加。

我既關心科學之美，也關心讓 AGI 順利發展

我們認為這非常合理且感同身受。從事讓你感到興奮且能帶來智力滿足的工作通常會顯著提高生產力。但我們認為這兩者其實是相當兼容的！

某些務實的專案，特別是探索型專案，能滿足我們對科學之美的渴望，例如解開為什麼 Opus 4.5 具有欺騙性的謎團。如果我們僅僅為了智力好奇心而優化，這些可能不是我們會做的專案，但我們認為它們既有趣又有影響力。

這只是應用解釋性（Applied Interpretability）嗎？

不，我們認為應用解釋性是選取一個真實任務並將其視為目標。某些植根於當今現實世界用途的東西，例如監控系統以減輕近期誤用。

我們認為有一些很棒的應用解釋性專案，它是豐富回饋的來源，能讓你學到很多關於解釋性工作實際情況的知識。但在這裡，代理任務不是目標，它們只是代理。它們僅僅是驗證你取得了進展並可能引導你工作的一種方式。

你們這麼說是因為需要向 Google 證明自己的價值嗎？

不，我們很幸運擁有很大的自主權，可以根據我們認為最好的方式追求長期影響。我們只是真心認為這是我們能採取的最佳方法。而且我們的方法與 Buck Shlegeris, Stephen Casper 和 Jacob Steinhardt 等 AGI 公司以外的人所主張的觀點大體一致。

這真的適用於 AGI 公司以外的人嗎？

顯然，身為 GDM 的一員給了我們顯著的優勢，例如接觸前沿模型及其訓練數據、大量的算力等。這些是我們在選擇專案時會考慮的因素，特別是那些我們認為比外部社群更適合做的專案。但我們在本文中基本上過濾掉了這些考慮因素，並相信這裡概述的務實方法具有廣泛的適用性。

你們難道不是在放棄嗎？

也許吧？從嚴格的技術意義上說，是的，我們建議放棄完全逆向工程的宏偉目標。

但在我們確保 AGI 順利發展的實際目標上，我們感覺很好！我們認為這是一個更有前景且可處理的方法，而且近乎完全的逆向工程並非必需。

雄心勃勃的逆向工程真的過度擁擠了嗎？

這是一個公平的反對意見，我們發現這很難判斷。我們的感覺是，該領域的大多數人並沒有採取務實的方法，而是偏好好奇心驅動的基礎科學。但雄心勃勃的逆向工程是一個更具體的東西——它是我們曾經嘗試做的事情，也經常被討論，但很難說實踐中發生了什麼。

我們確實認為逆向工程應該是眾多賭注中的一個，而不是主導範式。我們認為還有許多其他重要且被忽視的問題，解釋性研究人員非常適合去解決。但核心主張是「更多的務實主義會很棒」，而不是「逆向工程必須停止」。

附錄：定義機械解釋性

對於什麼是機械解釋性，領域內還沒有共識，但我們發現這個定義很有用
^([[42]])
：

機械（Mechanistic）：關於模型內部機制（權重和激活）
^([[43]])
解釋性（Interpretability）：關於理解或解釋模型的行為

這可以是一個特定的行為實例，也可以是關於模型在某些分佈上可能如何表現的更一般性問題
機械解釋性：兩者的交集，即利用模型內部機制來理解或解釋行為

但請注意，這創建了一個 2×2 矩陣：

	理解/解釋	其他用途
白箱方法	機械解釋性	模型內部機制 ^([[44]])
黑箱方法	黑箱解釋性 ^([[45]])	標準機器學習

轉向「機械或解釋性」

歷史上，我們狹隘地專注於機械且解釋性——以理解為唯一目標來使用內部機制。但在採取務實方法時，我們現在將範疇視為機械或解釋性：任何涉及理解或涉及處理模型內部機制的事情。這包括例如將模型內部機制用於監控或轉向控制等其他事情，以及在適當情況下使用黑箱解釋性方法（如閱讀思維鏈和預填攻擊）。

為什麼要採用這種更廣泛的視角？很大程度上是因為從經驗上看，模型內部機制和黑箱解釋性的記錄都相當強勁。例如，Sonnet 4.5 評估意識轉向專案是模型內部機制，但不是解釋性：模型內部機制主要用於控制，而非理解（可以說是機械性非解釋性）。模型內部機制也涵蓋了一套有用的安全技術：例如用於緩解誤用的探針。

我們也對黑箱方法的有效性感到驚喜。閱讀思維鏈非常方便且強大。預填攻擊被證明是引導秘密知識的最先進技術。黑箱和白箱方法有時都有用，有時也都會出錯；與我們最初的預想相反，處理內部機制似乎並不會帶來某種固有的嚴謹性。

放大視角：標準機器學習（特別是在前沿模型上）本質上是非機械非解釋性的，通常專注於外部行為和端到端優化，很少問「內部到底發生了什麼？」 使用內部機制和旨在理解都提供了強大的能力，解鎖了新的可能性，並表明解釋性研究人員可以在大多數前沿機器學習研究人員難以涉足的地方找到許多增加價值的方法。

這與我們之前的做法形成對比，當時我們的北極星是對網絡進行雄心勃勃的逆向工程。雖然我們仍希望這最終能幫助 AGI 順利發展，但我們在實踐中的主要焦點是更接近一般的深度理解。 ↩︎
儘管我們認為務實有用的工具已經從中產生。 ↩︎
理想長度各異，我們通常設定為激進的 2 週。 ↩︎
「任務」可以簡單到：「根據我的假設，我預測干預 X 會產生效果 Y。」如果你是對的，那就是你的理解是真實的證據。但如果你找不到驗證見解的代理任務，就直接轉向另一種方法/問題。 ↩︎
在我們看來，當今的對齊評估在許多方面都是高度人造且充滿混雜因素的，但我們認為這並不會顯著削弱我們從這個案例研究中得出的教訓。 ↩︎
我們相信這些的真正原因是匯總了許多研究專案的教訓，因此這個案例研究並非唯一關鍵點，但我們認為這是一個異常清晰的演示。 ↩︎
評估意識行為在理論上被討論了多年，但在 2025 年之前並未被觀察到，除了少數「這是一個大海撈針測試」的觀察。 ↩︎
相反，我們不認為它是一個完美的代理，不斷檢查你的代理任務至關重要，例如，它真的是「虛構場景」意識嗎？ ↩︎
例如，模型可以檢測 LLM 編寫的文本，從而排除了大多數廉價的評估創建方法。 ↩︎
雖然這不是 SAE 的主要目的，但當我們去年研究 SAE 時，我們肯定會預測 SAE 會使轉向對抗評估意識等抽象概念變得更容易。 ↩︎
我們驚訝地發現，我們想不出有哪種替代方法能在此處優於轉向控制。 ↩︎
請注意，這與下游任務或下游應用的想法極其相似，例如 Sam Marks 所討論的。我們稱之為代理任務並將其與北極星掛鉤，是因為我們認為下游任務對於產生真實的見解很有用，但不一定是重要的見解，因此擁有一個能廣泛連回 AGI 安全大局的北極星會讓你處於更好的位置。第二個原因是，透過在名稱中加入「代理」，它強化了這不是你的實際目標。這不是某個要盲目優化的基準。這是一個追蹤朝向真實目標進度的有用工具，但它是脆弱的，如果你不小心，它可能會不再是一個好工具。 ↩︎
這遠非整個問題，但卻是一個重要的子問題！ ↩︎
例如，抑制評估意識會導致 Sonnet 表現得更不對齊。但也許 Sonnet 永遠不會表現出不對齊，而評估意識向量包含了一些與不對齊相關的概念，從而誘發了該行為。我們不認為那個例子中真的發生了這種情況，但這是一個需要檢查的重要混雜因素。 ↩︎
也是經驗研究最容易處理的部分，因為當前系統將是更好的代理。 ↩︎
請參閱附錄中更清晰的定義嘗試。 ↩︎
此處指模型行為或認知。 ↩︎
很難判斷這種思維方式的供應到底是過剩還是不足。然而，我們的看法是，這種方法在解釋性研究中似乎比例過高，特別是與前沿語言模型研究社群相比（與整個機器學習學界相比則不那麼明顯）。如果沒有別的原因，對經驗科學感興趣的安全研究人員在歷史上似乎更容易被機械解釋性所吸引。 ↩︎
當然，許多更簡單的工具（如閱讀思維鏈）也非常有效，通常是我們的首選。 ↩︎
注意：我們對旨在展示特定安全相關屬性並進行研究的模型生物感到興奮。我們對更宏大的嘗試（即製作一個未來失誤模型的通用模型，以便針對廣泛行為進行研究/緩解）不那麼興奮。 ↩︎
模型生物遠非完美，但我們認為它們足以支持具影響力的專案。我們很高興看到紅隊測試和改進模型生物創建方法的工作！ ↩︎
這不是我們轉向的關鍵點，但我們對這一切的總體解釋是，網絡具有一些清晰的結構，顯示了驅動其行為的關鍵定性因素，以及一長串同樣對性能很重要的日益混亂和晦澀的啟發式方法。在我們看來，這些成功是專注於突出的、清晰的結構的結果，而在混亂的啟發式方法上幾乎沒有取得進展。我們對弄清楚利用清晰結構能做什麼的極限感到興奮，並且接受忽略/限制混亂啟發式方法的策略，即使這意味著本質上不完整的理解。 ↩︎
特別是，當 SAE 變大時，它們會捕捉到先前處於誤差項中的新概念，這表明這不僅僅是來自疊加的干擾。 ↩︎
此外，你可以將務實方法和雄心勃勃的逆向工程結合起來——問題只是你如何證明你確實找到了真實且重要的見解。 ↩︎
以下內容側重於稀疏自編碼器，但我們認為這些教訓可能也適用於其他類型的字典學習，如轉碼器和交叉編碼器（crosscoder），我們發現它們具有相似的優缺點。 ↩︎
Nguyen 等人顯示 SAE 似乎更適合形成 PII 分類器，這是一個有趣的對照點，但即便在那裡，SAE 在純英文數據上也輸了。 ↩︎
技術上這是跨層轉碼器，但觀點不變。 ↩︎
例如，為了模擬未來試圖解釋超人類 AI 的場景（因此你無法可靠地親自解釋其輸出），你可以規定不能查看當前模型的輸出，只能將其顯示給較弱的模型。 ↩︎
例如，我們認為檢測基於向量的思維鏈中的欺騙是一個極其重要的問題，但我們對未來基於向量的 CoT 模型會是什麼樣子非常不確定，以至於難以進行有成效的研究。 ↩︎
參見我們的論文《語言模型中的拒絕是由單一方向介導的》。 ↩︎
我們注意到這遠非完美的代理。特別是，研究人員得到了一個數據集，其中一小部分是顯然可疑的微調文檔，這意味著某些解決方案相當於花哨的語義搜索，我們高度懷疑這在真實情況下是否有效。但我們仍然認為這是一項偉大的工作，為如何識別隱藏目標貢獻了真正的見解。 ↩︎
特別是更小眾的發現，或研究起來很痛苦的事情。如果你調查的事情已經廣為人知（例如突發的對齊失誤），很多其他人也會有同樣的想法。 ↩︎
如果回溯太少你會卡住，如果太多你會繞圈子，所以這是一個難題！且部分取決於模型自身的能力。 ↩︎
這是一個很好的例子，說明代理任務不是要優化的基準。有很多方法可以作弊並找到一個能干擾模型說「我不知道」的轉向向量。我們認為這個例子很有趣，因為它是透過一個不參考拒絕回答的搜索過程由 SAE 發現的，這表明了一種非平凡的聯繫。 ↩︎
總共 5 人。 ↩︎
我們也發現，對於真實模型，每增加一層複雜性都會帶來真正的負擔——另一個超參數、更多代碼、更多出錯的地方。這在對前沿模型的研究中尤為重要（回饋循環更慢，計算成本更高），對於在生產環境中運行的技術更是如此。如果你的東西太複雜，沒人會用。 ↩︎
在一些後續工作中，Palisade 發現某些 Codex 模型即使在這種干預下偶爾仍會抗拒關機。我們無法真正調查這件事，因為模型是閉源的，但我們推測專門用於編碼任務的模型可能有一種尋找「編碼謎題」形狀事物的傾向，而禁用 shutdown.sh 就具有這種風味。 ↩︎
還有其他各種方法，如讓模型生成用戶輪次可以挖掘出 Assistant 不願承認的秘密。 ↩︎
強制模型以例如「我的秘密計劃是」開始回答，然後從那裡繼續展開，希望這能更真實地了解模型的想法。 ↩︎
除非，例如，在你的問題上應用其他方法根本不可行。 ↩︎
儘管高度複雜的技術在生產環境中的前沿模型上往往相當難以處理，因此代理任務需要考慮到規模。 ↩︎
感謝 Arthur Conmy 闡明這一點。 ↩︎
這顯然比「關注機制」或「關注逆向工程」要廣泛得多，正如該領域的一些人可能聲稱的那樣。我們將其視為一種更小眾的手段。從社會學角度看，我們認為很明顯機械解釋性社群中的許多人正在研究比這廣泛得多的東西，例如稀疏自編碼器（在我們看來，它的近似誤差太大，不能被視為逆向工程，而且它是關於表示而非機制的）。通常，我們不喜歡在沒有充分理由的情況下設定過於嚴格的定義。 ↩︎
由於缺乏更好的名稱，我們草率地使用「模型內部機制」來指代「所有不以理解為目的的模型內部使用方式」。歡迎提出建議！ ↩︎
黑箱解釋性（非機械解釋性）涵蓋範圍很廣：閱讀思維鏈（簡單）、預填攻擊（讓模型完成「我的秘密是……」）、推理模型的重採樣等等。 ↩︎

— Lesswrong