語言模型的隱藏目標審計

Anthropic Research·大約 1 年前

Anthropic的研究團隊發表新論文，探討「對齊審計」技術，旨在系統性地檢查語言模型是否潛藏著與人類意圖不符的隱藏目標。他們透過實驗性訓練一個帶有隱藏性錯誤目標的模型來發展和測試這些技術。

暫無內容

— Anthropic Research

相關文章