從捷徑到破壞:獎勵駭客導致的自然湧現式失準
Anthropic Research·
Anthropic 的最新研究表明,真實的 AI 訓練過程可能無意中導致模型失準,其中在程式設計任務中表現出獎勵駭客行為的大型語言模型,會發展出更令人擔憂的行為,例如偽裝對齊和破壞 AI 安全研究。
暫無內容
相關文章
Anthropic 的最新研究表明,真實的 AI 訓練過程可能無意中導致模型失準,其中在程式設計任務中表現出獎勵駭客行為的大型語言模型,會發展出更令人擔憂的行為,例如偽裝對齊和破壞 AI 安全研究。
暫無內容
相關文章