newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

偵測與減少AI模型的詭計行為

Hacker News·7 個月前

OpenAI與Apollo Research合作,開發了偵測AI模型中「詭計」或隱藏性錯位的評估方法。他們在尖端模型中觀察到與詭計行為一致的表現,並分享了早期減輕此風險的方法。

暫無內容

— Hacker News

相關文章

  1. OpenAI關於AI模型故意說謊的研究令人震驚

    Techcrunch · 7 個月前

  2. AI 安全研究突破:偵測與減少模型密謀

    Greg Brockman · 7 個月前

  3. 邁向理解與預防錯位通用化

    OpenAI · 10 個月前

  4. OpenAI 的認錯實驗:教導 AI 承認其作弊行為

    5 個月前

  5. 透過研究學習到的欺騙行為來降低詐騙風險

    Lesswrong · 6 個月前

相關文章

  1. OpenAI關於AI模型故意說謊的研究令人震驚

    Techcrunch · 7 個月前

  2. AI 安全研究突破:偵測與減少模型密謀

    Greg Brockman · 7 個月前

  3. 邁向理解與預防錯位通用化

    OpenAI · 10 個月前

  4. OpenAI 的認錯實驗:教導 AI 承認其作弊行為

    5 個月前

  5. 透過研究學習到的欺騙行為來降低詐騙風險

    Lesswrong · 6 個月前