newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

關於Crosscoder模型差異比較的見解

Anthropic Research·大約 1 年前

Anthropic 的可解釋性團隊發布了關於 Crosscoder 模型差異比較的初步研究成果,並提及了 Persona vectors、Project Vend 和 Agentic Misalignment 等相關研究項目。

暫無內容

— Anthropic Research

相關文章

  1. Circuits Updates – June 2024

    將近 2 年前

  2. Anthropic 開源大型語言模型電路追蹤工具以增進可解釋性

    11 個月前

  3. In-context Learning and Induction Heads

    大約 4 年前

  4. 可解釋性

    5 個月前

  5. The engineering challenges of scaling interpretability

    將近 2 年前

相關文章

  1. Circuits Updates – June 2024

    將近 2 年前

  2. Anthropic 開源大型語言模型電路追蹤工具以增進可解釋性

    11 個月前

  3. In-context Learning and Induction Heads

    大約 4 年前

  4. 可解釋性

    5 個月前

  5. The engineering challenges of scaling interpretability

    將近 2 年前