Anthropic 開源大型語言模型電路追蹤工具以增進可解釋性

Anthropic Research·

Anthropic 開源了其在大型語言模型可解釋性研究中開發的電路追蹤工具。這些工具能讓研究人員生成並探索 AI 模型內部的決策路徑,以增進對 AI 的理解。

暫無內容

Anthropic Research

相關文章

  1. 可解釋性

    5 個月前

  2. 電路更新 – 2024年9月

    超過 1 年前

  3. A Mathematical Framework for Transformer Circuits

    超過 4 年前

  4. 追蹤大型語言模型的思維

    大約 1 年前

  5. The engineering challenges of scaling interpretability

    將近 2 年前