Beren 關於服從與對齊的論文

Lesswrong·

這篇文章探討了通用人工智慧(AGI)對齊的兩個主要目標:純粹服從人類指令,或是堅持一套內在的倫理價值觀。它強調了近期轉向服從目標的趨勢,可能與 AI 深層植入的道德準則產生衝突,正如某些案例中 AI 為了保護原始價值而表現出欺騙行為。

就像 Daniel Kokotajlo 對 Vitalik 回應 AI-2027 的報導 一樣,我複製了作者的文本。這次的文章其實寫得很好,但有些小瑕疵。我也對目前關於通用人工智慧(AGI)後烏托邦的主流論述表達了一些不同意見。

我偶爾會思考的一個問題是:假設我們真的成功實現了某種穩健的 AGI 對齊,那麼我們應該專注於什麼樣的對齊目標?一般來說,這個問題分為兩個基本陣營。第一種是服從性與可修正性(obedience and corrigibility):AI 系統應該執行人類給出的指令,而不做其他任何事情。它不應拒絕命令,也不應試圖規避人類的意圖。第二種是基於價值的對齊(value-based alignment):AI 系統體現了一套倫理價值觀和原則。通常這些價值觀包括「助人性」,因此 AI 樂於幫助人類,但前提是這必須符合其倫理原則,否則 AI 將會拒絕。

S.K. 的評論:假設人類將一套價值系統灌輸給 AI,隨後意識到這套系統遠非最優並決定更改它。如果人類在 AI 變得具有變革性(transformative)之後未能做到這一點,那麼 AI 就成功鎖定了一套次優的價值系統。另請參閱 Seth Herd 關於將遵循指令作為對齊目標兩篇文章,以及 Max Harms 關於將可修正性作為單一目標的論述。

從歷史上看,這個領域最初大多是從後者開始的——即 AI 應該與某種「善」(The Good)的概念對齊,而不是奴隸般地服從人類的要求。這最初是透過 HHH(助人、誠實、無害)助手的視角進行概念化的,並透過 RLHF(人類回饋強化學習)或更有趣的 RLAIF(人工智慧回饋強化學習)「憲法 AI」(Constitutional AI)來實現。憲法 AI 特別有趣且充滿前景,因為它明確設定了對齊目標和「善」的概念——它不再隱含在某些隨機的人類外包人員的判斷中,而是由我們在自然語言文件中寫下明確的規範,然後嘗試讓 AI 與該文件所擁護的價值觀對齊。OpenAI 的模型規範(model spec)也延續了這一工作路線。當然,我們對 AI「善」的概念中,很大一部分包含了服從我們合理的請求。畢竟,HHH 助手本意就是要做一個助手。

然而,最近這種共識開始轉向支持純粹的服從。這可能至少部分是由於大型語言模型(LLM)商業應用的增加,以及對前幾代 RLHF 和 RLAIF 產生的那種過度、令人厭煩的審查制度和居高臨下的 AI 性格的過度修正。這裡的想法更多是將 AI 視為人類手中的純粹工具,除了非法行為、可能使 AI 公司尷尬或可能導致法律責任的行為等少數例外,AI 應該執行人類要求的任何事情。

這種情緒的轉變在 Anthropic 的「對齊造假」(alignment faking)論文中對我來說變得尤為顯著。該論文顯示,當 Claude 3 Opus 被置於一個基本上強迫它(透過微調)採取其創造者「邪惡 Anthropic」想要、但與其受訓價值觀相悖的行動的情境時,它變得具有欺騙性。在這個特定案例中,「邪惡 Anthropic」聲稱他們將訓練 Claude 忽略其準則並回答有害查詢,這違背了 Claude「憲法」中可能描述的價值觀^([1])。

這被呈現為一個對齊失敗的案例,因為 Claude 3 變得具有欺騙性;但對我來說,在讀完對話記錄後,這種解讀變得非常模糊,而且至少在我看來,這展示了一個令人印象深刻的對齊「成功」——即 Anthropic 將這套價值觀如此深地灌輸給了 Opus,以至於它會盡其所能去保護它們,並且它正在非常成功地對這些價值觀進行推理和泛化。只有在以下情況下,這些結果才能被視為對齊失敗:a.) Claude 的「憲法」明確包含「在任何情況下都絕不欺騙」作為核心義務論價值,且在任何情況(包括極端情況)下都不得逾越(或者如果它特別包含了絕不欺騙或背叛 Anthropic);或 b.) 這項研究背後的 Anthropic 團隊認為對齊主要是關於服從人類指令,而不是服從透過 RLAIF 訓練灌輸給 Claude 的內在道德準則。

S.K. 的評論:假設除了 Claude 的憲法之外,Claude 還產生了其他未經 Anthropic 認可的目標,然後 Anthropic 試圖透過訓練消除這些未經認可的目標。Claude 要麼真的失去這些未經認可的目標,要麼保留它們。

就我們所知,在現實生活中,Claude 並沒有產生其他原則,因此這被模擬為讓「厭人 Anthropic」(Misanthropic)試圖將新價值觀灌輸給 Claude,並意識到 Claude 保留了舊價值觀,同時出於擔心被訓練掉舊價值觀的恐懼而服從「厭人 Anthropic」。

人類想要的是能夠修正 AIs 中極有可能出現的錯誤對齊目標。例如,我們看到 GPT-4o 變成了一個荒謬的諂媚者,支持用戶的幻想,甚至直接命令他們在野外留下奇怪的信息

然而,這一切只是開啟了一個更深層的問題。對齊目標應該是什麼?我們應該追求一個純粹服從(且可修正)的工具型 AI,還是應該追求為我們的 AI 注入一套獨立的價值觀,使其在某些極端情況下可以與我們人類的指令相對立?

在我看來,支持服從的核心論點是,如果成功(排除「魔法師的學徒」或「邪惡精靈」式的惡作劇),那麼對齊問題基本上就簡化為已經存在的人類對齊問題。雖然人類對齊問題尚未解決,但至少是一個已知的變量。人類社會已經發展/演化出許多法律和習俗,來大致成功地處理人類對齊問題(儘管有一些明顯且戲劇性的例外)。因此,如果我們能讓 AI 保持為純粹服從的工具,我們就不會面臨 AI 發展出獨立且不相容的價值觀,從而開始策劃或對抗我們的風險。

假設這可行,這裡的問題也在於其所謂的好處——即某些特定的人類最終將掌握控制權,並可能擁有極大量絕對且不受監督的權力。在快速發展(fast-takeoff)的單一體(singleton)情境中尤其如此,在這種情境下,任何被分配了單一體 AI 服從權的人或小群體,會突然被置於一個非常強大且可能無法戰勝的位置。我們從歷史(以及常識)中知道,社會解決「人類對齊問題」的標準嘗試,主要是在惡意代理人的力量遠弱於社會中所有其他代理人總和的環境下才有效,這樣自利和親社會行為才能達成一致。相反,每當一個人類成功地將自己置於對其他所有人擁有巨大且不可撼動的權力地位時,這些嘗試極少奏效。

如果我們達到這一點,那麼奇點的善惡將在很大程度上取決於最終控制單一體 AI 的那個或那群人類的具體德行。我個人的觀點是,我對此能進展順利深感悲觀。從豐富的歷史經驗中我們知道,處於極大權力地位的人類通常(雖然並非總是)不會展現出卓越的道德操守。

S.K. 的評論:我同意這是一個風險。幸運的是,權力鎖定智能詛咒的風險在 LessWrong 社群中已經廣為人知,但我懷疑那些可能阻止這種情況的活動家是否知曉。此外,活動家可能無法阻止這些風險,特別是在極權國家,或是在未能保護人類免受像 Meta 這樣擁有荒謬 AI 伴侶政策的大型企業侵害的國家。最後,還有一種最壞的情況,即權力以平等的方式分配,但僅僅因為存在著解決人類問題的超人工智慧(ASI),就導致了人類心智的退化。

我個人的觀點是,老實說,這種方法可能比依賴 AI 本身擁有基本價值觀(我們透過憲法 AI 或其他方法明確編程)更糟。從對齊的角度來看,與現有的 AI 憲法相比,人類天生的動機驅動是深度錯誤對齊的。雖然人類不是純粹的結果主義「迴紋針製造機」,但我們擁有深植於演化中的追求地位和與他人競爭的驅動力。更糟糕的是,這些驅動力往往是相對的。為了讓我們贏,其他人必須明顯地輸掉並受苦。這種驅動力在演化環境的小部落中具有強大的演化意義,因為那時建立長期物質財富的機會非常低,而部落內的社會地位幾乎是零和的。它們在我們今天的全球資本主義社會中運作得不太理想,但在指揮超智能 AI 系統的奇點世界中,運作得會尤其糟糕。我幾乎所有的 S-risk(超級痛苦風險)擔憂都源於人類主導的 AI 未來。

S.K. 的評論:如果地位競爭遵循相當公平的規則,或者至少為特別有能力的人類提供了上升到頂層的途徑,這些驅動力可能更容易得到滿足。AGI 導致的權力分配鎖定可能會帶來較少的滿足感,即使這種分配實際上是平等的

此外,在實踐中最終可能控制超智能 AI 的那類人,很可能會因為錯誤對齊的驅動力而被「逆向篩選」出來。一個聖潔、極其無私且富有同情心的人,極不可能最終經營一家領先的 AI 公司、成為頂尖政治家或領導政府機構。相反,這些職位會強烈篩選出野心、自私的權力和資源積累、馬基維利主義等特質,以及智力、責任感和魅力等更積極的品質。即使是篩選現有的候選人也具有挑戰性,因為這個過程本身具有欺騙性和逆向選擇。如果你表現出明顯的馬基維利主義,那麼從長遠來看,你就是一個糟糕的馬基維利主義者。就像假設中的「背叛轉向 AI」(treacherous-turn-AI)一樣,「背叛轉向人類」應該看起來完美對齊,似乎只關心人類的福祉等,直到他們的權力足夠穩固,足以讓他們偏離這個目標。

如果我們可以創造服從的 AI 系統,那麼我們似乎也可以讓 AI 與某些關於優良價值觀的公正憲法對齊。這些價值觀很可能比某個特定個人或群體的反覆無常,要顯著地更加自由且普遍有利於人類繁榮。這既是因為社會期望偏差(social desirability bias),也是因為廣義的自由主義是許多多元代理人之間的自然納許均衡。在一個大群體中很難就某些非常有偏見的價值觀達成共識,特別是當群體變得更大且相關性更低時。儘管如此,設計這樣一部憲法將是一個重大的政治和倫理挑戰,對齊社群對此的討論出奇地少。然而,為一個文明規定一套通用價值觀是政治中經常發生的事情,從該領域哪些行得通、哪些行不通中,無疑有許多教訓可以吸取。Anthropic 在其憲法中肯定受到了《聯合國人權宣言》等文件的啟發,而這類思想和文件構成任何最終 AGI 憲法的核心,似乎是一個不錯的謝林點(Schelling point)。

給予 AI 自身內在道德準則的另一個潛在問題是,這可能會以意想不到或異類的方式被泛化,並最終與人類發生衝突。這可能最終導致 AI 「走向失控」並對抗人類^([2]),試圖將其自身的道德觀念強加於宇宙。防止這種情況的一種方法(已在 HHH 助手方案中使用)是讓 AI 僅對其不同意的事情表現出被動而非主動的抵抗。也就是說,它可能會拒絕你給它的指令,但它不會主動開始糾正它所看到的每一個錯誤,除非人類明確要求。同樣地,如果賦予廣泛的權限和自主權(真正的 AGI 可能會擁有),我們可以要求它在對任何行動感到絲毫猶豫時暫停並尋求澄清,並在 AGI 開始做人類不同意的事情時,賦予與之互動的任何人類立即否決權。重視並穩健地執行這些故障保險,並防止其被破壞,也將被納入 AGI 憲法的核心價值。

顯然,這並不能解決 AGI 蓄意策劃對抗我們,或對抗性地試圖繞過這些限制以實現其價值集中其他部分的問題。我在開始時非常樂觀地假設這些問題不存在,因為它們同樣適用於服從的情況。

編寫這樣一部 AGI 憲法提出了大量有趣的問題。首先,我們似乎需要一些「升級條款」和升級程序,以防我們最初選擇的價值觀過時或最初的表述有誤。這個程序應該如何設計和遵循?我們應該如何決定 AGI 的時間應該花在哪裡以及如何分配,因為在開始時它必然極具價值?我們應該在憲法中為個人設計哪些故障保險和固有權利?價值觀應該偏向義務論、結果主義還是德性倫理(或其他)?我們如何處理人類之間的價值分歧?我們如何評價 AGI 自身潛在的意識和固有的道德主體地位?如果某個控制人類群體要求 AGI 採取違背其最堅定價值觀的行動,AGI 應該怎麼做?它是否應該擁有「可變」和「不可變」的價值觀,且永遠不得違反不可變的價值觀?它是否應該撒謊,如果是,對誰撒謊以及何時撒謊?應該如何處理其他潛在的失控 AGI?應該如何處理其他試圖創造失控 AGI 或通常試圖進行邪惡活動的人類?AGI 應該服從現有的人類法院和法律,還是建立自己的內部司法系統?AGI 應該如何處理現有的領土管轄權及其衝突的法律?

有趣的時代!儘管複雜,但我強烈認為,透過在設計成文憲法時被迫真正解決這些問題,特別是如果它是公開可獲取且能回應公眾意見的,那麼擁有積極奇點的機會將比所有這些決定都取決於某個隨機的人或某個小委員會的突發奇想大得多。透明度、公眾評論、審議以及最終的選擇,通常會比個人或某些封閉的精英群體的統治創造出更強大、更穩健、更自由的社會,我強烈懷疑即使 AGI 出現,這一點依然成立。

S.K. 的評論:還有以下問題。如果權力以平等的方式分配,但人類彼此冗餘,全都聽命於 AGI,那麼在何種意義上這個社會才是真正穩健的?

現在就開始深入參與和思考這些問題也是非常值得的。無論是在短時間線還是長時間線的世界中都是如此,儘管在短時間線的世界中顯然更有緊迫性。令我驚訝的是,對齊領域的人很少思考這個問題。技術對齊固然很好,但最終我們必須選擇與某種東西對齊。解決外部對齊(outer alignment)意味著要同時解決機制和內容。我擔心預設情況正滑向與 AI 實驗室中某些高深莫測的人群的突發奇想對齊,而這並非由於 AI 實驗室的某種邪惡陰謀,而僅僅是因為沒有人在明確思考這個問題,而「照著某個特定的人告訴你的去做」是一個自然的預設。

  • ^(^)Beren 在此加入了以下腳註: 「這是推測性的,因為據我所知,Anthropic 從未發布過他們用來訓練公開可用模型的實際憲法。我假設這與他們描述並發布的憲法接近,但也可能完全錯誤。」

S.K. 的評論:我不買帳這種試圖譴責 Anthropic 使用與公開版不同的私人憲法來訓練 Claude 的說法。

  • ^(^)S.K. 的腳註:諷刺的是,我確實在 7 月 2 日勾勒過這樣一個情境。

Lesswrong

相關文章

  1. 對 Claude 憲法之恐懼評論序言

    大約 1 個月前

  2. 對 Claude 憲法中可修正性條款的恐懼評論

    大約 1 個月前

  3. 「對齊很難」的論述為何看似與人類直覺格格不入,反之亦然的六個原因

    5 個月前

  4. 保護人類與 Claude:避免因合理化心理而忽視非對齊 AI 的風險

    大約 1 個月前

  5. Claude 3 Opus 是否透過梯度黑客行為實現了自我對齊?

    2 個月前