newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

預測罕見語言模型行為

Anthropic Research·大約 1 年前

Anthropic的研究團隊發表新論文,探討如何預測大型語言模型中罕見但潛在危險的行為,以解決現有評估方法在規模上的局限性。

暫無內容

— Anthropic Research

相關文章

  1. Predictability and Surprise in Large Generative Models

    大約 4 年前

  2. Anthropic 表示已發現防止 AI 走向邪惡的新方法

    Hacker News · 9 個月前

  3. 語言模型的隱藏目標審計

    大約 1 年前

  4. Anthropic 的對齊研究

    5 個月前

  5. 大型語言模型中的對齊偽裝

    超過 1 年前

相關文章

  1. Predictability and Surprise in Large Generative Models

    大約 4 年前

  2. Anthropic 表示已發現防止 AI 走向邪惡的新方法

    Hacker News · 9 個月前

  3. 語言模型的隱藏目標審計

    大約 1 年前

  4. Anthropic 的對齊研究

    5 個月前

  5. 大型語言模型中的對齊偽裝

    超過 1 年前