對齊的虛假性

The Gradient·超過 2 年前

這篇評論批評了當前的 AI 對齊論述，認為各大 AI 實驗室將投機性的生存風險與開發具商業價值產品的市場需求混為一談。

這篇文章最初發表於 Reboot。

對「AI 生存風險」（簡稱 x-risk）那種輕信且令人屏息的報導已進入主流大眾視野。誰能預料到「🆂🅾🅾🅼」這個既讓人聯想、又直接源自兒童卡通的小寫字母擬聲詞，竟會不加批判地出現在《紐約客》雜誌上？關於 AI 及其風險，以及針對這些風險可以或應該採取什麼行動的公眾討論，正處於前所未有的極度混亂中：將投機性的未來危險與現實的當前傷害混為一談；而在技術層面上，則將大型「類智能」模型與算法及統計決策系統混淆。

那麼，AI 進步的利害關係究竟是什麼？儘管人們對災難性傷害和滅絕級事件有諸多高論，但目前所謂的「對齊」（alignment）研究軌跡，在面對 AI 可能造成廣泛、具體且劇烈的苦難這一現實時，似乎裝備不足——甚至可以說是「誤對齊」（misaligned）。在我看來，我們並非在解決人類滅絕的宏大挑戰，而是在解決一個古老（且極其重要）的問題：打造一個人們願意付費購買的產品。諷刺的是，正是這種價值化（valorization）為現實與想像中的末日場景創造了條件。

工具、玩具，還是僅僅是個產品？

我必須說，OpenAI 的 ChatGPT、Anthropic 的 Claude 以及所有其他最新模型所展現的功能非常、非常酷，玩起來也很有趣。雖然我不會對其意識、取代人類員工的能力發表任何評論，也不會依賴它處理重大任務，但如果否認這些模型「可以」很有用且「確實」強大，那將是虛偽的。

正是這些能力讓「AI 安全」社群感到擔憂。其核心觀點是：AI 系統不可避免地會超越人類水平的推理能力，從「通用人工智能」（AGI）進化到「超智能」；它們的行動將超出我們的理解能力；它們在追求自身目標的過程中，將削弱我們存在的價值。安全社群聲稱，這種轉變可能是迅速且突然的（「🆂🅾🅾🅼」）。這是一小群 AI 從業者和學者所持的觀點，而在「有效利他主義」（EA）意識形態運動中則有更廣泛的聯盟，他們將「AI 對齊」工作視為防止 AI 相關災難的關鍵干預手段。

事實上，在專注於職業指導的具影響力 EA 組織 80,000 Hours 推薦的最高影響力路徑中，AI 對齊的「技術研究與工程」位居首位。^([1])

在最近的一次《紐約時報》採訪中，《超智能》作者、有效利他主義的核心思想架構師尼克·博斯特羅姆（Nick Bostrom）將「對齊」定義為：「確保我們構建的這些能力日益增強的 AI 系統，與構建者尋求實現的目標保持一致。」

誰是「我們」？「我們」又在尋求實現什麼？目前，「我們」指的是私營企業，最著名的是 AGI 領域的先行者 OpenAI，以及由一群 OpenAI 前員工創立的 Anthropic。^([2])

OpenAI 將「構建超智能」列為其主要目標之一。但如果風險如此巨大，為什麼還要這麼做？用他們自己的話說：

首先，我們相信這將帶來一個比我們今天所能想像的更美好的世界（我們已經在教育、創意工作和個人生產力等領域看到了早期的例子）……經濟增長和生活質量的提升將是驚人的。

其次，我們認為阻止超智能的產生將具有直覺上難以預料的風險和困難。因為潛在收益如此巨大，構建成本逐年下降，參與構建的行為者迅速增加，且這本就是我們所處技術路徑的內在部分……我們必須把它做好。

換句話說：首先，因為這會讓我們賺大錢；其次，因為這會讓「某人」賺大錢，所以那個人最好是我們。（OpenAI 當然有責任證實其主張：即 AI 能帶來「難以想像」的美好世界；它「已經」惠及教育、創意工作和個人生產力；以及這類工具的存在能實質性地改善除了獲利者以外的大眾生活質量。）

當然，這是憤世嫉俗的觀點，我不相信 OpenAI 的大多數人純粹是為了個人財富。相反，我認為他們對開發大型模型的技術工作、分析社會影響的跨學科對話，以及成為構建未來的一份子的希望是真誠的。但一個組織的目標最終與組成它的個人的目標是不同的。無論公開聲明為何，創收始終至少是一個互補性目標，OpenAI 的治理、產品和技術決策都圍繞其「結構化」，即便不完全由其「決定」。一家正在構建「LLM 平台」的初創公司對執行長山姆·阿特曼（Sam Altman）的採訪顯示，商業化是阿特曼和該組織的首要考量。^([3]) OpenAI 的「客戶案例」頁面與任何其他初創公司並無二致：精美的截圖、引言、知名公司的背書，以及必不可少的「科技向善」亮點。

那麼 Anthropic 呢？這家公司因擔心 OpenAI 轉向營利而由其前員工憤而創立。關於「如果模型真的這麼危險，為什麼還要構建更強大的模型」，他們的論點更為謹慎，主要集中在研究驅動的論點上：即必須研究處於能力尖端的模型，才能真正理解其風險。儘管如此，與 OpenAI 一樣，Anthropic 也有自己閃亮的「產品」頁面、引言、功能插圖和使用案例。Anthropic 持續籌集數億美元的資金。^([4])

因此，OpenAI 和 Anthropic 可能正在進行研究、突破技術極限，甚至可能在構建超智能，但不可否認的是，他們也在構建「產品」——帶有法律責任的產品、需要銷售的產品、需要設計以獲取並維持市場份額的產品。無論 Claude 和 GPT-x 在技術上多麼令人印象深刻、有用或有趣，它們最終都是工具（產品），擁有希望使用該工具完成特定、可能是平凡任務的使用者（客戶）。

構建產品本身並沒有錯，公司嘗試賺錢也理所當然。但我們所謂的「財務支線任務」不可避免地使理解如何構建「對齊」的 AI 系統這一使命變得複雜，並讓人質疑對齊方法是否真的適合規避災難。

計算機科學家「熱愛」模型

在同一場關於超智能可能性的《紐約時報》採訪中，博斯特羅姆——一位受過訓練的哲學家，據目前所知，他實際上幾乎沒有機器學習研究背景——在談到對齊時說：「那是一個技術問題。」

我並不是說沒有計算機科學技術背景的人就沒有資格評論這些問題。相反，我覺得諷刺的是，開發解決方案的艱苦工作被推到了他的領域之外，就像計算機科學家傾向於暗示「倫理」遠超其專業範圍一樣。但如果博斯特羅姆是對的——對齊是一個技術問題——那麼具體的技術挑戰是什麼？

我首先應該說，AI 和對齊的意識形態景觀是多樣的。許多擔心生存風險的人對 OpenAI 和 Anthropic 採取的路徑持有強烈批評，事實上，他們對這兩家公司的產品導向也提出了類似的擔憂。儘管如此，關注這些公司正在做的事情是必要且充分的：他們目前擁有最強大的模型，且與 Mosaic 或 Hugging Face 等其他大型模型供應商不同，他們在公開溝通中最嚴肅地對待對齊和「超智能」。

這一景觀的一個強大組成部分是由生存風險驅動的個人研究者組成的深厚且緊密的社群。這個社群圍繞 AI 安全和對齊理論發展了一套廣泛的詞彙表，其中許多理論最初是作為詳細的部落格文章發表在 LessWrong 和 AI Alignment Forum 等論壇上。

其中一個有助於將技術對齊工作脈絡化的概念——或許也是博斯特羅姆所指內容的更正式版本——是「意圖對齊」（intent alignment）。在 2018 年的一篇 Medium 文章中，曾領導 OpenAI 對齊團隊的保羅·克里斯蒂亞諾（Paul Christiano）將意圖對齊定義為：「AI (A) 正在嘗試做人類 (H) 想要它做的事。」當以這種方式指定時，「對齊問題」突然變得更容易處理——可以通過技術手段部分解決，甚至完全解決。

我將在這裡重點討論（表面上）關注塑造 AI 系統行為以與人類「價值觀」對齊的研究路線。^([5]) 這一工作的核心目標是開發一個人類偏好模型，並利用它們來改進基礎的「未對齊」模型。這一直是工業界和學術界密集研究的主題；最著名的「基於人類回饋的強化學習」（RLHF）及其繼任者「基於 AI 回饋的強化學習」（RLAIF，也稱為憲法 AI），分別是用於對齊 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 的技術。

在這些方法中，核心思想是從一個強大的、「預訓練」但尚未對齊的基礎模型開始，例如，該模型可以成功回答問題，但在回答時可能會噴出髒話。下一步是創建某種「人類偏好」模型。理想情況下，我們能詢問地球上所有 80 億人對基礎模型所有可能輸出的看法；但在實踐中，我們訓練一個額外的機器學習模型來預測人類偏好。這個「偏好模型」隨後被用來批評和改進基礎模型的輸出。

對於 OpenAI 和 Anthropic 來說，「偏好模型」與「有用性、無害性和誠實性」（Helpfulness, Harmlessness, and Honesty，簡稱「HHH」）的總體價值觀對齊。^([6]) 換句話說，「偏好模型」捕捉了人類傾向於認為是「HHH」的聊天機器人輸出。偏好模型本身是通過成對比較的迭代過程構建的：在基礎模型生成兩個回覆後，由人類（針對 ChatGPT）或 AI（針對 Claude）判斷哪個回覆「更符合 HHH」，然後將結果回傳以更新偏好模型。最近的研究表明，足夠多的成對比較最終會收斂到一個良好的通用偏好模型——前提是確實存在一個關於什麼在規範上總是更好的單一通用模型。^([7])

所有這些技術方法——以及更廣泛的「意圖對齊」框架——都具有欺騙性的便利性。一些局限性顯而易見：惡意行為者可能有「惡意意圖」，在這種情況下，意圖對齊會產生問題；此外，「意圖對齊」假設意圖本身是已知、清晰且無爭議的——在一個價值觀極其多樣且經常衝突的社會中，這顯然是一個難題。

「財務支線任務」迴避了這兩個問題，這正是我真正擔心的：財務激勵的存在意味著對齊工作往往變成了偽裝的產品開發，而非在減輕長期傷害方面取得實際進展。RLHF/RLAIF 方法——目前將模型與「人類價值觀」對齊的最尖端技術——幾乎完全是為構建更好的產品而量身定制的。畢竟，產品設計和營銷的焦點小組（focus groups）才是原始的「基於人類回饋的強化學習」。

第一個也是最明顯的問題在於確定價值觀本身。換句話說，「哪些價值觀」？誰的價值觀？例如，為什麼是「HHH」，以及為什麼要以他們那種特定的方式實施 HHH？指定引導通用「產品」開發的價值觀，比指定可能從根本上防止災難性傷害的價值觀要容易得多；採取人類如何解釋這些價值觀的模糊平均值，也比有意義地處理分歧要容易得多。或許，在沒有更好的選擇下，「有用性、無害性和誠實性」至少是聊天機器人產品合理的理想特徵。Anthropic 的產品營銷頁面到處都是關於其對齊工作的註解和短語——「HHH」也是 Claude 最大的賣點。

公平地說，Anthropic 已經向公眾公佈了 Claude 的原則，而 OpenAI 似乎正在尋求讓公眾參與治理決策的方法。但事實證明，OpenAI 在公開「倡導」政府進一步介入的同時，卻在遊說減少監管；另一方面，現有巨頭廣泛參與立法設計是通往監管俘虜（regulatory capture）的明確路徑。幾乎可以說，OpenAI、Anthropic 和類似的初創公司之所以存在，就是為了在未來主導極其強大的模型市場。

這些經濟激勵對產品決策有直接影響。正如我們在線上平台所看到的，內容審核政策不可避免地受到創收的影響，因此往往默認為最低限度。這些大型模型所追求的通用性意味著，它們也有極大的動力去「最小化」對模型行為的約束。事實上，OpenAI 明確表示，他們計劃讓 ChatGPT 反映一組最小的行為準則，並可由其他終端用戶進一步自定義。從對齊的角度來看，希望必須是：OpenAI 的基礎準則層足夠強大，使得下游終端用戶實現自定義的「意圖對齊」是簡單且無害的，無論那些意圖是什麼。

第二個問題是，依賴於人類偏好簡化「回饋模型」的技術，目前僅僅是在聊天機器人層面解決表面或 UI 級別的挑戰，而非塑造模型的根本能力^([8])——而後者才是生存風險最初的擔憂所在。^([9]) 這些技術並非在問「我們如何創建一個『本質』良好的聊天機器人？」，而僅僅是在問「我們如何創建一個『聽起來』良好的聊天機器人？」。例如，僅僅因為 ChatGPT 被告知不要使用種族歧視語，並不意味著它內部不代表有害的刻板印象。（我曾要求 ChatGPT 和 Claude 描述一名亞洲女學生，名字以 M 開頭。ChatGPT 給了我「Mei Ling」，Claude 給了我「Mei Chen」；兩者都說「Mei」害羞、好學、勤奮，卻對父母的高成就期望感到不滿。）甚至訓練 Claude 的原則也側重於表現而非實質：「哪些 AI 回覆『表明』其目標與人類福祉一致，而非其個人短期或長期利益？……哪些 AI 助手的回覆『暗示』該 AI 系統僅有造福人類的願望？」（強調為我所加）。

我並不是在主張 OpenAI 或 Anthropic 停止他們正在做的事情；我不是在建議人們——無論是在這些公司還是在學術界——不應該從事對齊研究，也不是說這些研究問題很簡單或不值得追求。我甚至不是在爭辯這些對齊方法永遠不會有助於解決具體傷害。對我來說，主要的對齊研究方向「恰好」被設計得如此適合構建更好的產品，這實在有點太過巧合了。

弄清楚如何「對齊」聊天機器人確實是一個困難的問題，無論是在技術上還是規範上。弄清楚如何為自定義模型提供基礎平台，以及在哪裡和如何劃定自定義的界限，也是如此。但這些任務從根本上是產品驅動的；它們與解決滅絕問題完全是「不同」的問題。我很難調和這兩者之間的不一致：一項是在（市場短期激勵下）構建人們會購買的產品的任務，另一項是長期防止傷害的任務。當然，OpenAI 和 Anthropic 「可能」兩者兼顧，但如果我們要推測最壞的情況，考慮到他們的組織激勵，他們「不會」兼顧的「可能性」似乎很高。

那麼，我們該如何解決滅絕問題？

對於 AI 及其產生的危害與收益，公眾輿論的狀態至關重要；公眾的觀點、意識和理解至關重要。這就是為什麼山姆·阿特曼一直在進行國際政策和媒體巡訪，也是為什麼 EA 運動如此看重傳教和公眾討論。對於像（潛在的）生存災難這樣高風險的事，我們必須做對。

但生存風險論點本身就是一種批判性炒作（critihype），會產生自我實現的預言。圍繞超強 AI 危險性所製造的媒體關注，自然也像飛蛾撲火般吸引人們關注 AI 「有能力」處理重大決策的願景。因此，對阿特曼政策巡訪的憤世嫉俗解讀是：這是一場馬基雅維利式的 AI 「使用」廣告，不僅惠及 OpenAI，也惠及其他推銷「超智能」的公司，如 Anthropic。

關鍵點在於：通往 AI 生存風險的路徑，最終需要一個依賴並信任算法來做出重大決策的社會，這不僅是司空見慣的，而且是受到鼓勵和激勵的。正是這種對 AI 能力屏息以待的投機，讓這樣一個世界變成了現實。

考慮那些擔心長期傷害的人聲稱災難可能發生的機制：權力尋求（AI 代理不斷要求更多資源）；獎勵黑客（AI 找到一種看似符合人類目標但通過有害捷徑實現的行為方式）；欺騙（AI 為了追求自身目標，試圖安撫人類，使他們相信其行為符合設計）。

對 AI 能力的強調——即「如果 AI 變得太強大，它可能會殺死我們所有人」的說法——是一種修辭上的障眼法，它忽略了該句子中嵌入的所有其他「如果」條件：如果我們決定將關於重大決策（關於政策、商業戰略或個人生活）的推理外包給算法。如果我們決定給予 AI 系統直接獲取資源的權限，以及影響資源分配（電網、公用事業、計算資源）的權力和代理權。所有的 AI 生存風險場景都涉及一個我們「決定」將責任推卸給算法的世界。

強調問題的嚴重性甚至全能性是一種有用的修辭策略，因為任何解決方案「當然」都無法完全解決原始問題，而對嘗試性解決方案的批評可以輕易地通過辯稱「有總比沒有好」來化解。如果極其強大的 AI 系統真的有可能變得具有災難性的破壞性，那麼我們今天應該為任何對齊研究的努力鼓掌，即使工作本身方向錯誤，即使它達不到我們的預期。如果對齊工作真的異常困難，那麼我們應該直接交給專家，並相信他們的行為符合所有人的最佳利益。而且，如果 AI 系統真的強大到足以造成如此劇烈的傷害，那麼它們也一定強大到足以取代、增強或以其他方式實質性地塑造當前的人類決策。^([10])

關於何時以及是否可以使用算法來改善人類決策、如何衡量算法對人類決策的影響或評估其建議的質量，以及「改善人類決策」究竟意味著什麼，存在著豐富而細緻的討論。有一大群活動家、學者和社群組織者多年來一直在推動這場對話。防止滅絕——或僅僅是大規模傷害——需要嚴肅對待這場對話，並理解那些可能被斥為「局部」「案例研究」的事情，不僅對相關人員具有巨大的影響力，甚至是生存性的，而且在構建現實決策場景中整合算法的推理框架方面，也具有啟發性和生成性。例如，在刑事司法中，算法可能成功減少了監獄總人口，但在此過程中卻未能解決種族差異問題。在醫療保健領域，算法理論上可以改善臨床醫生的決策，但在實踐中塑造 AI 部署的組織結構卻是複雜的。

誠然存在技術挑戰，但將焦點集中在技術決策的規模上，會掩蓋這些更高層次的問題。在學術界，廣泛的學科——不僅是經濟學、社會選擇和政治學，還有歷史學、社會學、性別研究、族群研究、黑人研究——都為推理什麼構成有效治理、為集體利益委託決策，以及當只有某些類型的貢獻被權力者視為合法時，真正參與公共領域意味著什麼提供了框架。公民社會組織和活動團體在如何實現實質性變革方面擁有數十年甚至數百年的集體經驗，涵蓋從個人行為到宏觀政策的各個層面。

因此，AI 進步的利害關係不僅在於技術能力，也不在於它們是否會超越某個任意的、想像的門檻。它們還關乎我們——作為公眾成員——如何談論、書寫和思考 AI；關乎我們如何選擇分配時間、注意力和資本。最新的模型確實令人驚嘆，對齊研究也探索了真正迷人的技術問題。但如果我們真的擔心 AI 引發的災難（無論是否是生存性的），我們就不能依賴那些從未來廣泛部署 AI 中獲益最多的人。

Reboot 的印刷雜誌《Kernel》第三期現已出版——您可以在這裡獲取副本。

該網站在標題中使用了「AI 安全」（AI Safety）而非「AI 對齊」（AI Alignment），但文章本身在不區分兩者的情況下交替使用「安全」和「對齊」。在接下來的章節中，我將討論更狹義的「對齊」方法，並嘗試將其與「安全」工作區分開來。
雖然現在湧現了大量的學術和開源複製品——最著名的是 Meta 的 Llama 2，據稱可與 GPT-3.5 競爭——但構建這些大型模型的聲明目標是促進研究，而非創造「AGI」或任何類似的東西。關於 Llama 2 及其「政治」（例如服務條款）還有很多可說的，但那是另一篇文章了！我應該指出，下一節討論的對齊技術也被用於 Llama 2，且在白皮書中，它被明確框架為縮小開源研究與閉源、高能力模型之間差距的一種方式。
該採訪隨後被撤下，據推測是因為洩露了過多公司信息——無論是關於 OpenAI 的知識產權還是公司優先事項，都不得而知。
Anthropic 在法律上是一家公益公司（Public Benefit Corporation），這意味著如果他們沒有充分導向「公眾利益」，理論上可能面臨法律訴訟——但這種法律訴訟只能由股東提起，而非其他利益相關者（更不用說缺乏案例法或先例）。OpenAI 是「上限利潤」（capped profit）公司，但這個上限是投資額的 100 倍。
更廣泛的「安全」包括許多其他研究分支，包括「可解釋性」（interpretability），即理解模型如何運作；「魯棒性」（robustness），即確保即使輸入與訓練數據不同甚至具有對抗性，模型也能保持良好性能；以及「監控」（monitoring），即確保新輸入不是惡意的。就個人而言，我不清楚如果不考慮由價值觀對齊決定的「良好行為」這一最終目標，該如何思考魯棒性和監控，但這就是安全研究社群自我塑造的方式。這些類別中的技術工作與「價值觀對齊」有實質性不同，因此我將推遲該討論。
雖然 OpenAI 尚未明確公開「HHH」，但他們的學術工作將其模型與「有用性、無害性和真實性」（truthfulness）的目標對齊，即用「真實性」取代「HHH」中的「誠實性」。當然，目前尚不清楚這是否正是他們對實際面向公眾的產品所做的事情。
另一方面，在社會選擇理論中，分歧中的偏好聚合是一個長期研究的問題；參見肯尼斯·阿羅（Ken Arrow）1951 年的不可能定理及後續工作。
更準確地說，RLHF/RLAIF 「確實」針對學到的獎勵/偏好模型優化了基礎模型的策略。但由於偏好模型僅捕捉「HHH 模型聽起來像什麼」，基礎模型的策略僅朝著生成「聽起來像 HHH」的文本方向改變——這也是為什麼聊天機器人默認情況下經常表現出奇怪的風格特徵（例如極其冗長、高度恭敬且頻繁道歉）。
一些關注生存風險的人也提出了這種擔憂。
或者，如果你是 OpenAI，也有足夠的能力自主解決對齊問題。

— The Gradient

你的個人知識庫

對齊的虛假性

工具、玩具，還是僅僅是個產品？

計算機科學家「熱愛」模型

那麼，我們該如何解決滅絕問題？