宣布 Gemma Scope 2

Lesswrong·4 個月前

Google DeepMind 正式發布 Gemma Scope 2，這是一套針對 Gemma 3 模型系列訓練的稀疏自動編碼器（SAEs）與轉碼器（transcoders）套件，旨在促進機械解釋性研究。本次發布涵蓋了所有層級以及最高達 27B 的模型規模，並包含跨編碼器等先進工具，同時更加著重於對話微調模型的分析。

TLDR

Google DeepMind 機械解釋性（mech interp）團隊正在發佈 Gemma Scope 2：一套針對 Gemma 3 模型系列訓練的 SAE（稀疏自編碼器）與轉碼器（transcoders）。Neuronpedia 演示請點此，HuggingFace 權重獲取請點此，Colab 筆記本教學請點此 [1]

相對於之前的 Gemma Scope 版本，本版本的主要特點包括：

更先進的模型系列（V3 而非 V2）應能支持對更複雜行為形式的分析。
更全面的發佈（涵蓋所有層的 SAE，支持高達 27b 的所有模型，以及跨層模型如 crosscoders 和 CLT）。
更專注於對話模型（每個在預訓練 PT 模型上訓練的 SAE 都有對應的指令微調 IT 模型版本）。

雖然我們降低了對 SAE 等工具基礎研究的優先級（原因見此），但我們仍希望這些工具能為社群提供有用的幫助。

一些潛在特徵（Latents）範例

以下是取自 Gemma V3 27B IT 殘差流（residual stream）SAE 的一些潛在特徵範例。

第 53 層，特徵 50705
第 31 層，特徵 23266
第 53 層，特徵 57326
第 53 層，特徵 2878
第 53 層，特徵 57326

發佈內容包含什麼

本次發佈包含在 3 個不同位置（殘差流、MLP 輸出和注意力輸出）訓練的 SAE，以及 MLP 轉碼器（包含有和無仿射跳躍連接的版本）。這些涵蓋了 Gemma 3 系列中全部 10 個模型（即 270m、1b、4b、12b 和 27b，各包含 PT 和 IT 版本）的每一層。對於每一層，我們提供 4 個模型（寬度分別為 16k 和 262k，以及兩個不同的目標 L0 值）。我們沒有給出精確的 L0 值，而是將其標記為「小」（10-20）、「中」（30-60）和「大」（90-150）。

此外，對於每個模型中的 4 個特定層（深度分別為 25%、50%、65%、85%），我們針對寬度和 L0 值進行了更大規模的超參數掃描，包括為每個模型提供寬度高達 1m 的殘差流 SAE。

最後，我們還包含了數個多層模型：針對 270m 和 1b 的 CLT，以及針對每個基礎模型尺寸和類型、在 4 層（上述相同的 4 個深度）串聯上訓練的弱因果跨編碼器（weakly causal crosscoders）。

所有模型均為 JumpReLU，使用二次 L0 懲罰以及額外的頻率懲罰進行訓練，後者可防止高頻特徵的形成。我們在訓練期間還使用了一種 Matryoshka 損失函數版本，據記載這有助於減少特徵吸收（feature absorption）的情況。

（取自技術報告的可選模型表格）

你應該使用哪一個？

如果你感興趣的是尋找與某些行為特徵相關的特徵（以進行引導 steering、更好地歸因某些模型行為，或使用監督方法分析你在模型內部發現的方向等），我們建議使用在模型層子集上訓練的殘差流模型（例如此處）。對於大多數人來說，具有中等 L0 值（30-60 範圍）的 262k 寬度模型應該很合適，儘管 16k 和 65k 寬度也可能有用。上述截圖中的所有範例均來自在 Gemma V3 270m IT 上微調的 262k 寬度、中等 L0 的 SAE。

如果你感興趣的是進行電路級分析（例如使用歸因圖 attribution graphs），我們建議使用我們在模型所有層上訓練的轉碼器套件（例如此處）。仿射跳躍連接（Affine skip connections）具有明顯優勢，因此我們建議使用這些版本。寬度較大的模型可以帶來更豐富的分析，但電路級工作的計算成本可能會變得非常大，特別是對於較大的基礎模型，因此你可能希望使用 16k 寬度而非 262k。Neuronpedia 很快將託管一個交互式頁面，允許你使用這些轉碼器生成並探索自己的歸因圖。

一些有用的連結

以下是與本次發佈相關的所有連結：

GDM 部落格文章
技術報告
推特討論串
Neuronpedia 演示（推理和歸因圖即將推出！）
HuggingFace 倉庫（獲取所有模型權重）
Colab 筆記本演示 / 教學

^ ARENA 材料也將進行更新，使用這套新模型取代 2024 年 Gemma Scope 發佈的模型。

— Lesswrong

其他收藏 · 0