歡迎

你的個人知識庫

從開放網路上發現值得讀的內容，收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

預測罕見語言模型行為

Anthropic Research·大約 1 年前

Anthropic的研究團隊發表新論文，探討如何預測大型語言模型中罕見但潛在危險的行為，以解決現有評估方法在規模上的局限性。

暫無內容

— Anthropic Research

相關文章

Predictability and Surprise in Large Generative Models
大約 4 年前
Anthropic 表示已發現防止 AI 走向邪惡的新方法
Hacker News · 9 個月前
語言模型的隱藏目標審計
大約 1 年前
Anthropic 的對齊研究
5 個月前
大型語言模型中的對齊偽裝
超過 1 年前

相關文章

Predictability and Surprise in Large Generative Models
大約 4 年前
Anthropic 表示已發現防止 AI 走向邪惡的新方法
Hacker News · 9 個月前
語言模型的隱藏目標審計
大約 1 年前
Anthropic 的對齊研究
5 個月前
大型語言模型中的對齊偽裝
超過 1 年前