newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

Persona vectors:監測與控制語言模型中的角色特質

Anthropic Research·9 個月前

Anthropic 的研究提出了「Persona vectors」概念,旨在監測並控制語言模型中的角色特質,以解決模型行為不可預測的問題,並已在開源模型上進行驗證。

暫無內容

— Anthropic Research

相關文章

  1. In-context Learning and Induction Heads

    大約 4 年前

  2. A Mathematical Framework for Transformer Circuits

    超過 4 年前

  3. 野生的價值觀:在真實世界語言模型互動中發現與分析價值觀

    大約 1 年前

  4. Sycophancy to subterfuge: Investigating reward tampering in language models

    將近 2 年前

  5. 預測罕見語言模型行為

    大約 1 年前

相關文章

  1. In-context Learning and Induction Heads

    大約 4 年前

  2. A Mathematical Framework for Transformer Circuits

    超過 4 年前

  3. 野生的價值觀:在真實世界語言模型互動中發現與分析價值觀

    大約 1 年前

  4. Sycophancy to subterfuge: Investigating reward tampering in language models

    將近 2 年前

  5. 預測罕見語言模型行為

    大約 1 年前