歡迎

你的個人知識庫

從開放網路上發現值得讀的內容，收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

前沿AI模型的破壞性評估

Anthropic Research·超過 1 年前

Anthropic開發了一套新的評估方法，用於測試先進AI模型誤導使用者或顛覆監督系統的能力，並分享了Claude 3 Opus和Claude 3.5 Sonnet的測試結果。

暫無內容

— Anthropic Research

相關文章

Claude Sonnet 4.6
Hacker News · 2 個月前
Anthropic 的 Claude 模型現可終止有害或辱罵性對話
Techcrunch · 8 個月前
利用AI保障AI安全：評估Anthropic的程式碼安全審查功能
Hacker News · 8 個月前
為防禦者提供前沿網路安全能力
Hacker News · 2 個月前
Anthropic關於模型潛在破壞風險的報告
Lesswrong · 6 個月前

相關文章

Claude Sonnet 4.6
Hacker News · 2 個月前
Anthropic 的 Claude 模型現可終止有害或辱罵性對話
Techcrunch · 8 個月前
利用AI保障AI安全：評估Anthropic的程式碼安全審查功能
Hacker News · 8 個月前
為防禦者提供前沿網路安全能力
Hacker News · 2 個月前
Anthropic關於模型潛在破壞風險的報告
Lesswrong · 6 個月前