對齊研究

Anthropic Research·大約 1 個月前

Anthropic 的對齊團隊開發先進的防護措施與協定，以確保高能力 AI 模型在超越現有安全假設的演進過程中，能持續保持有益、誠實且無害。

對齊 (Alignment)

未來的 AI 系統將比現在的更加強大，且可能以打破現有安全技術關鍵假設的方式發展。這就是為什麼開發複雜的防護措施以確保模型保持有助、誠實且無害至關重要。對齊團隊致力於理解未來的挑戰，並建立協議來安全地訓練、評估和監控高能力的模型。

影片縮圖

對齊研究人員驗證模型即使在與訓練環境截然不同的情況下，仍能保持無害與誠實。他們還開發了一些方法，讓人類能與語言模型協作，以驗證人類自身可能無法獨立核實的聲明。

對齊研究人員還會系統性地尋找模型可能表現不佳的情況，並檢查我們現有的防護措施是否足以應對人類等級能力可能帶來的風險。

影片縮圖

Claude 3 是第一個具備「性格訓練」的模型——這是一種旨在培養好奇心、開放心態和周全思考等特質的對齊方式。