Anthropic 的對齊研究
Anthropic Research·
Anthropic 的對齊團隊正為未來的 AI 系統開發複雜的安全措施,以確保其保持有用、誠實且無害。他們的研究重點包括評估、監督、壓力測試安全措施,以及理解 AI 行為,其中包括對「性格訓練」和對齊審計的新穎方法。
暫無內容
相關文章
Anthropic 的對齊團隊正為未來的 AI 系統開發複雜的安全措施,以確保其保持有用、誠實且無害。他們的研究重點包括評估、監督、壓力測試安全措施,以及理解 AI 行為,其中包括對「性格訓練」和對齊審計的新穎方法。
暫無內容
相關文章