從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。
Anthropic開發了一套新的評估方法,用於測試先進AI模型誤導使用者或顛覆監督系統的能力,並分享了Claude 3 Opus和Claude 3.5 Sonnet的測試結果。
暫無內容
— Anthropic Research
相關文章
Claude Sonnet 4.6
Hacker News · 2 個月前
Anthropic 的 Claude 模型現可終止有害或辱罵性對話
Techcrunch · 8 個月前
利用AI保障AI安全:評估Anthropic的程式碼安全審查功能
Hacker News · 8 個月前
為防禦者提供前沿網路安全能力
Anthropic關於模型潛在破壞風險的報告
Lesswrong · 6 個月前