語言模型的隱藏目標審計

Anthropic Research·

Anthropic的研究團隊發表新論文,探討「對齊審計」技術,旨在系統性地檢查語言模型是否潛藏著與人類意圖不符的隱藏目標。他們透過實驗性訓練一個帶有隱藏性錯誤目標的模型來發展和測試這些技術。

暫無內容

Anthropic Research

相關文章

  1. Anthropic 的對齊研究

    5 個月前

  2. 大型語言模型中的對齊偽裝

    超過 1 年前

  3. 預測罕見語言模型行為

    大約 1 年前

  4. 對齊研究

    大約 2 個月前

  5. A General Language Assistant as a Laboratory for Alignment

    超過 4 年前