宣布 Gemma Scope 2

宣布 Gemma Scope 2

Lesswrong·

Google DeepMind 正式發布 Gemma Scope 2,這是一套針對 Gemma 3 模型系列訓練的稀疏自動編碼器(SAEs)與轉碼器(transcoders)套件,旨在促進機械解釋性研究。本次發布涵蓋了所有層級以及最高達 27B 的模型規模,並包含跨編碼器等先進工具,同時更加著重於對話微調模型的分析。

TLDR

Google DeepMind 機械解釋性(mech interp)團隊正在發佈 Gemma Scope 2:一套針對 Gemma 3 模型系列訓練的 SAE(稀疏自編碼器)與轉碼器(transcoders)。Neuronpedia 演示請點此HuggingFace 權重獲取請點此Colab 筆記本教學請點此 [1]

相對於之前的 Gemma Scope 版本,本版本的主要特點包括:

  • 更先進的模型系列(V3 而非 V2)應能支持對更複雜行為形式的分析。
  • 更全面的發佈(涵蓋所有層的 SAE,支持高達 27b 的所有模型,以及跨層模型如 crosscoders 和 CLT)。
  • 更專注於對話模型(每個在預訓練 PT 模型上訓練的 SAE 都有對應的指令微調 IT 模型版本)。

雖然我們降低了對 SAE 等工具基礎研究的優先級(原因見此),但我們仍希望這些工具能為社群提供有用的幫助。

一些潛在特徵(Latents)範例

以下是取自 Gemma V3 27B IT 殘差流(residual stream)SAE 的一些潛在特徵範例。

  • 第 53 層,特徵 50705
  • 第 31 層,特徵 23266
  • 第 53 層,特徵 57326
  • 第 53 層,特徵 2878
  • 第 53 層,特徵 57326

發佈內容包含什麼

本次發佈包含在 3 個不同位置(殘差流、MLP 輸出和注意力輸出)訓練的 SAE,以及 MLP 轉碼器(包含有和無仿射跳躍連接的版本)。這些涵蓋了 Gemma 3 系列中全部 10 個模型(即 270m、1b、4b、12b 和 27b,各包含 PT 和 IT 版本)的每一層。對於每一層,我們提供 4 個模型(寬度分別為 16k 和 262k,以及兩個不同的目標 L0 值)。我們沒有給出精確的 L0 值,而是將其標記為「小」(10-20)、「中」(30-60)和「大」(90-150)。

此外,對於每個模型中的 4 個特定層(深度分別為 25%、50%、65%、85%),我們針對寬度和 L0 值進行了更大規模的超參數掃描,包括為每個模型提供寬度高達 1m 的殘差流 SAE。

最後,我們還包含了數個多層模型:針對 270m 和 1b 的 CLT,以及針對每個基礎模型尺寸和類型、在 4 層(上述相同的 4 個深度)串聯上訓練的弱因果跨編碼器(weakly causal crosscoders)。

所有模型均為 JumpReLU,使用二次 L0 懲罰以及額外的頻率懲罰進行訓練,後者可防止高頻特徵的形成。我們在訓練期間還使用了一種 Matryoshka 損失函數版本,據記載這有助於減少特徵吸收(feature absorption)的情況。

(取自技術報告的可選模型表格)

你應該使用哪一個?

如果你感興趣的是尋找與某些行為特徵相關的特徵(以進行引導 steering、更好地歸因某些模型行為,或使用監督方法分析你在模型內部發現的方向等),我們建議使用在模型層子集上訓練的殘差流模型(例如此處)。對於大多數人來說,具有中等 L0 值(30-60 範圍)的 262k 寬度模型應該很合適,儘管 16k 和 65k 寬度也可能有用。上述截圖中的所有範例均來自在 Gemma V3 270m IT 上微調的 262k 寬度、中等 L0 的 SAE。

如果你感興趣的是進行電路級分析(例如使用歸因圖 attribution graphs),我們建議使用我們在模型所有層上訓練的轉碼器套件(例如此處)。仿射跳躍連接(Affine skip connections)具有明顯優勢,因此我們建議使用這些版本。寬度較大的模型可以帶來更豐富的分析,但電路級工作的計算成本可能會變得非常大,特別是對於較大的基礎模型,因此你可能希望使用 16k 寬度而非 262k。Neuronpedia 很快將託管一個交互式頁面,允許你使用這些轉碼器生成並探索自己的歸因圖。

一些有用的連結

以下是與本次發佈相關的所有連結:

  • GDM 部落格文章
  • 技術報告
  • 推特討論串
  • Neuronpedia 演示(推理和歸因圖即將推出!)
  • HuggingFace 倉庫(獲取所有模型權重)
  • Colab 筆記本演示 / 教學

^ ARENA 材料也將進行更新,使用這套新模型取代 2024 年 Gemma Scope 發佈的模型。

Lesswrong

相關文章

其他收藏 · 0