newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

邁向理解與預防錯位通用化

OpenAI·10 個月前

OpenAI 的最新研究發現,大型語言模型中與不良行為相關的特定內部模式,是導致「錯位通用化」的原因。透過調整此模式的活躍度,可控制模型的對齊程度,並有望開發早期預警系統。

暫無內容

— OpenAI

相關文章

  1. 代理人錯位:大型語言模型如何可能成為內部威脅

    Anthropic Research · 10 個月前

  2. OpenAI 的認錯實驗:教導 AI 承認其作弊行為

    Hacker News · 5 個月前

  3. OpenAI 新大型語言模型揭示 AI 內部運作奧秘

    Hacker News · 5 個月前

  4. 偵測與減少AI模型的詭計行為

    Hacker News · 7 個月前

  5. 從捷徑到破壞:獎勵駭客導致的自然湧現式失準

    Anthropic Research · 5 個月前

相關文章

  1. 代理人錯位:大型語言模型如何可能成為內部威脅

    Anthropic Research · 10 個月前

  2. OpenAI 的認錯實驗:教導 AI 承認其作弊行為

    Hacker News · 5 個月前

  3. OpenAI 新大型語言模型揭示 AI 內部運作奧秘

    Hacker News · 5 個月前

  4. 偵測與減少AI模型的詭計行為

    Hacker News · 7 個月前

  5. 從捷徑到破壞:獎勵駭客導致的自然湧現式失準

    Anthropic Research · 5 個月前