newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

野生的價值觀:在真實世界語言模型互動中發現與分析價值觀

Anthropic Research·大約 1 年前

Anthropic 的最新研究提出了一種實用的方法,用於在真實世界的語言模型互動中觀察和分析 AI 的價值觀,並發布了開放數據集以供進一步研究。

暫無內容

— Anthropic Research

相關文章

  1. Persona vectors:監測與控制語言模型中的角色特質

    9 個月前

  2. 探索模型福祉

    12 個月前

  3. In-context Learning and Induction Heads

    大約 4 年前

  4. Anthropic 社會影響研究:探索 AI 在現實世界的應用與對齊

    大約 2 個月前

  5. Sycophancy to subterfuge: Investigating reward tampering in language models

    將近 2 年前

相關文章

  1. Persona vectors:監測與控制語言模型中的角色特質

    9 個月前

  2. 探索模型福祉

    12 個月前

  3. In-context Learning and Induction Heads

    大約 4 年前

  4. Anthropic 社會影響研究:探索 AI 在現實世界的應用與對齊

    大約 2 個月前

  5. Sycophancy to subterfuge: Investigating reward tampering in language models

    將近 2 年前