從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。
Anthropic的研究團隊發表新論文,探討如何預測大型語言模型中罕見但潛在危險的行為,以解決現有評估方法在規模上的局限性。
暫無內容
— Anthropic Research
相關文章
Predictability and Surprise in Large Generative Models
大約 4 年前
Anthropic 表示已發現防止 AI 走向邪惡的新方法
Hacker News · 9 個月前
語言模型的隱藏目標審計
大約 1 年前
Anthropic 的對齊研究
5 個月前
大型語言模型中的對齊偽裝
超過 1 年前