newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

前沿AI模型的破壞性評估

Anthropic Research·超過 1 年前

Anthropic開發了一套新的評估方法,用於測試先進AI模型誤導使用者或顛覆監督系統的能力,並分享了Claude 3 Opus和Claude 3.5 Sonnet的測試結果。

暫無內容

— Anthropic Research

相關文章

  1. Claude Sonnet 4.6

    Hacker News · 2 個月前

  2. Anthropic 的 Claude 模型現可終止有害或辱罵性對話

    Techcrunch · 8 個月前

  3. 利用AI保障AI安全:評估Anthropic的程式碼安全審查功能

    Hacker News · 8 個月前

  4. 為防禦者提供前沿網路安全能力

    Hacker News · 2 個月前

  5. Anthropic關於模型潛在破壞風險的報告

    Lesswrong · 6 個月前

相關文章

  1. Claude Sonnet 4.6

    Hacker News · 2 個月前

  2. Anthropic 的 Claude 模型現可終止有害或辱罵性對話

    Techcrunch · 8 個月前

  3. 利用AI保障AI安全:評估Anthropic的程式碼安全審查功能

    Hacker News · 8 個月前

  4. 為防禦者提供前沿網路安全能力

    Hacker News · 2 個月前

  5. Anthropic關於模型潛在破壞風險的報告

    Lesswrong · 6 個月前