Anthropic 的對齊研究

Anthropic Research·5 個月前

Anthropic 的對齊團隊正為未來的 AI 系統開發複雜的安全措施，以確保其保持有用、誠實且無害。他們的研究重點包括評估、監督、壓力測試安全措施，以及理解 AI 行為，其中包括對「性格訓練」和對齊審計的新穎方法。

暫無內容

— Anthropic Research

相關文章