歡迎

你的個人知識庫

從開放網路上發現值得讀的內容，收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

邁向理解與預防錯位通用化

OpenAI·10 個月前

OpenAI 的最新研究發現，大型語言模型中與不良行為相關的特定內部模式，是導致「錯位通用化」的原因。透過調整此模式的活躍度，可控制模型的對齊程度，並有望開發早期預警系統。

暫無內容

相關文章

代理人錯位：大型語言模型如何可能成為內部威脅
Anthropic Research · 10 個月前
OpenAI 的認錯實驗：教導 AI 承認其作弊行為
Hacker News · 5 個月前
OpenAI 新大型語言模型揭示 AI 內部運作奧秘
Hacker News · 5 個月前
偵測與減少AI模型的詭計行為
Hacker News · 7 個月前
從捷徑到破壞：獎勵駭客導致的自然湧現式失準
Anthropic Research · 5 個月前

相關文章

代理人錯位：大型語言模型如何可能成為內部威脅
Anthropic Research · 10 個月前
OpenAI 的認錯實驗：教導 AI 承認其作弊行為
Hacker News · 5 個月前
OpenAI 新大型語言模型揭示 AI 內部運作奧秘
Hacker News · 5 個月前
偵測與減少AI模型的詭計行為
Hacker News · 7 個月前
從捷徑到破壞：獎勵駭客導致的自然湧現式失準
Anthropic Research · 5 個月前