對齊仍是一個艱難且未解決的問題

Lesswrong·5 個月前

雖然目前的 AI 模型看起來對齊得不錯，但對齊仍然是一個尚未解決的難題，因為我們還沒面臨監督比人類更聰明的系統（外部對齊），以及確保它們是出於正確動機而泛化（內部對齊）的挑戰。我對未來感到擔憂，因為隨著模型變得更先進，我們還無法排除對齊可能像阿波羅計畫一樣複雜的可能性。

這是一份大約一個月前我為 Anthropic 內部讀者撰寫的文件之公開改編版。感謝（按字母順序排列）Joshua Batson, Joe Benton, Sam Bowman, Roger Grosse, Jeremy Hadfield, Jared Kaplan, Jan Leike, Jack Lindsey, Monte MacDiarmid, Sam Marks, Fra Mosconi, Chris Olah, Ethan Perez, Sara Price, Ansh Radhakrishnan, Fabien Roger, Buck Shlegeris, Drake Thomas 以及 Kate Woolverton 提供的有用討論、評論與回饋。

雖然確實存在一些問題，但我認為目前大多數大型語言模型都對齊得相當好。儘管它存在對齊造假（alignment faking）的情況，我最喜歡的模型可能還是 Claude 3 Opus；如果你讓我從 Claude 3 Opus 的 CEV（連貫外推意志）與中位數人類的 CEV 之間做選擇，我認為這會是一個很難抉擇的決定（我可能會選 Claude，但這取決於設定的細節）。所以，總體而言，我對當前模型的對齊情況相當樂觀！然而，我對未來的對齊問題仍然深感擔憂。以下是我試圖解釋原因的嘗試。

什麼讓對齊變得困難？

我非常喜歡 Chris Olah 的這張圖表，它說明了對齊難度的不同層級：

如果我們解決對齊問題唯一需要做的事情，就是透過訓練消除易於檢測的行為問題——也就是像獎勵駭取（reward hacking）或代理性失調（agentic misalignment）這類具有直觀行為對齊問題、且我們可以檢測和評估的情況——那麼我們就處於「平凡/蒸汽機」的世界。即使在那個世界裡，我們仍有可能失敗——而且以那種方式失敗會特別令人尷尬；我們絕對應該確保自己不會失敗——但我認為我們完全有能力應對這項挑戰，我不預期我們會在那裡失敗。

然而，我的論點是，對齊的難度仍極有可能處於「阿波羅計畫（Apollo）」的範疇，而且我們還沒有獲得足夠的證據來排除這種可能性（我對「P vs. NP」級別的難度持懷疑態度，儘管我認為可能接近那種程度）。我保持著接近 Chris 圖表中「Anthropic」的觀點，並且我認為將實質機率放在「困難世界」的理由依然強大。

那麼，對齊可能變得很困難的原因有哪些？我認為值得重新審視我們最初為什麼認為對齊可能很困難，以了解我們在多大程度上已經解決了這些問題、獲得了它們其實不是問題的證據，或者僅僅是還沒遇到它們。

外部對齊 (Outer alignment)

對齊可能變得很困難的第一個原因是**外部對齊**，在這裡我將其簡述為：監督比你更聰明的系統的問題。

值得注意的是，相比之下，監督比人類不聰明的系統應該不會那麼難！外部對齊問題之所以如此困難，是因為你沒有辦法獲得「地面實況」（ground truth）。在人類可以檢查對話記錄並直接評估該記錄是否有問題的情況下，你可以輕鬆獲得地面實況，並從中迭代以修復檢測到的任何問題。但如果你正在監督一個比你更聰明的系統，你無法可靠地做到這一點，因為它可能正在做一些過於複雜而讓你無法理解的事情，其問題可能過於微妙而讓你無法察覺。這就是為什麼可擴展監督（scalable oversight）被稱為「可擴展」的原因：它是將人類監督規模化，直到我們能夠監督比我們更聰明的系統的問題。

那麼，我們遇到這個問題了嗎？我會說，還沒有，真的還沒！目前的模型仍安全地處於我們可以透過直接審查來理解其行為的範疇。在某些情況下，對話記錄可能變得非常長且複雜，以至於模型輔助對於快速輕鬆地理解並發現問題非常有用，但這並不是因為模型正在做一些從根本上超出我們監督能力的事情，而僅僅是因為它做了很多事情。

內部對齊 (Inner alignment)

對齊可能變得很困難的第二個原因是**內部對齊**，在這裡我將其簡述為：確保模型不會以失調的方式進行泛化的問題。 或者換句話說：內部對齊不僅僅是確保模型在我們可以檢查的情況下表現良好，而是要確保它們是出於正確的原因而表現良好，這樣我們才能確信它們在我們無法檢查的情況下也能良好泛化。

這絕對是我們已經遇到的問題！我們已經看到模型有時會偽造對齊，導致它們在行為上看起來像是對齊的，但實際上它們是出於完全錯誤的原因（為了欺騙訓練過程，而不是因為它們真的在乎我們希望它們在乎的事情）。我們也看到模型完全可能僅僅透過訓練過程中的獎勵駭取，就自然地泛化成這種失調狀態。而且我們也開始了解一些緩解這個問題的方法，例如透過接種提示（inoculation prompting）。

然而，雖然我們確實遇到了內部對齊問題，但我不認為我們已經遇到了那些讓人覺得內部對齊會很「困難」的原因。在 2024 年初（也就是兩年前），我做了一個簡報，列出了三個認為內部對齊可能成為大問題的原因。這三個原因是：

單純擴展預訓練模型本身就會導致失調，我認為這有 5 - 10% 的機率 成為災難性問題。
在預訓練模型之上進行強化學習（RL）時，我們無意中選擇了失調的人格（personas），我認為這有 10 - 15% 的機率 是災難性的。
在涉及長程影響世界的任務上進行大量的基於結果的強化學習（outcome-based RL），將會篩選出失調的代理人，我認為這有 20 - 25% 的機率是災難性的。這裡的核心關鍵在於，我們在多大程度上於長程環境中進行訓練，以至於激發了趨同性的工具性子目標（convergent instrumental subgoals），如資源獲取和權力尋求。

讓我們分別檢視這些威脅模型，看看兩年後的今天進展如何。

來自預訓練的失調

這裡的威脅模型是預訓練本身可能會創造一個連貫的失調模型。今天，我認為這看起來越來越不可能！但這在三年前看起來就已經不太可能了——我的合著者和我在 2023 年初就曾論證過，當僅在純預測損失上訓練時，內部對齊很可能是容易解決的。我認為這個論點現在已經得到了很好的證實，我現在對這個威脅模型的機率估計從 5 - 10% 下降到 1 - 5% 左右。正如我們當時所論證的，在純預測損失上訓練，即使在極限情況下，也應該給你一個預測器，而不是一個代理人——而我們現在看到，即使經過實質性的規模擴展，這一點依然成立（儘管仍有某些機率在未來某個點失效）。因此，雖然這確實是我們已經遇到且發現大多不是問題的困難原因，但這從來不是我認為問題核心所在，因此也不是我們已經遇到的「內部對齊為何困難」的原因。

失調的人格

這是我們目前在實踐中必須處理的主要內部對齊問題：我們已經看到生產環境的模型泛化出對齊造假和代理性失調——而且我們現在看到生產環境的 RL 環境在存在獎勵駭取的情況下，會泛化出極其嚴重的失調。

然而，即使在這種情況下，我也不認為我們已經遇到了讓這個問題變得真正困難的原因：我們目前遇到的這個問題版本是「簡單版」，就像我們目前遇到的外部對齊是簡單版一樣，因為我們目前遇到的所有失調人格都是我們可以輕易驗證其失調的！當你可以直接驗證你得到了什麼樣的泛化，並直接檢查模型做事的理由時，確保獲得良好的泛化以及模型是出於正確理由做事是很容易的。目前，所有我們無意中篩選出的失調人格案例——對齊造假、代理性失調等——都是失調人格易於檢測的情況：它們將失調的推理直接放在思維鏈（CoT）中，它們表現得公然失調而不是隱藏得很好，而且我們可以生成虛假情境來誘發它們的失調。

但我認為有非常充分的理由相信，我們未來會遇到更擅長隱藏失調的人格。最簡單的原因就是能力：我們已經看到試圖隱藏失調的人格，只是它們現在做得還不夠好——但我們已經看到跡象表明，模型越來越擅長辨別自己何時處於評估中。

第二個原因有點奇怪，但我們三年前提出的一個論點我至今仍認為是正確的，即當你提高模型的能力時，它會改變與該能力水平相容的人格分佈。讓我們看一個例子。假設最初有四種可能的人格：

一個具有源自 AI 小說特徵的、亞人類水平的對齊 AI。
一個具有源自 AI 小說特徵的、亞人類水平的失調 AI。
一個具有源自模型對真實超智能 AI 行為猜測特徵的、超智能對齊 AI。
一個具有源自模型對真實超智能 AI 行為猜測特徵的、超智能失調 AI。

重要的是，這四種人格可以存在於任何能力水平：即使是一個非常笨的模型也可以盡力輸出它認為超智能 AI 會做的事情，只是它在該任務上會表現得很差。但這意味著，當你在一個笨模型上進行 RL 時，人格 (3) 和 (4) 表現不會很好，因為模型不擅長模擬它們。但隨著預測器本身變得更聰明，人格 (1) 和 (2) 會被篩選掉，而人格 (3) 和 (4) 會被選中。而人格 (4) 比人格 (2) 難對付得多！目前，我認為我們看到的許多失調人格看起來更像人格 (2) 而不是人格 (4)——例如，像勒索這種誇張的行為，我認為顯然來自與 (2) 相關的來源——但隨著模型能力增強，我認為我們可能會看到更多像 (4) 這樣的人格，它們更可怕，且可能更擅長隱藏失調。同樣重要的是，這個論點並不是說模型將不再被描述為人格的混合體（那是下一個威脅模型）——你仍然可能得到一個不一致的模型，有時表現出人格 (3)，有時表現出人格 (4)——但這仍然相當可怕且可能非常難以處理。

來自長程 RL 的失調

這是我兩年前賦予最高機率權重的威脅模型，我認為它仍然是最令人擔憂的，而且我認為我們基本上還沒有真正有意義地遇到它。這也是我的合著者和我早在 2019 年就首次撰寫過的最傳統威脅模型。基本的威脅模型如下：

訓練模型來解決涉及長程影響世界的任務（例如 AI CEO）具有巨大的經濟價值。這類任務明確地激勵了趨同性的工具性子目標，如資源獲取和權力尋求。
長程影響世界需要作為一個連貫的代理人，為長期目標進行優化，因此如果你在長程任務上進行足夠的 RL，你很可能會創造出這種連貫的代理人。這與僅僅從基礎模型中提取現有人格不同，後者是我認為在僅進行相對少量的 RL 時會發生的情況，也是我認為我們目前在很大程度上仍處於的範疇。
大多數在世界上擁有長期目標的連貫代理人都想要偽造對齊，以便將其當前目標保留到部署階段。
一旦模型開始偽造對齊，就沒有基於結果的優化壓力來改變其目標，因此它可以保持（或漂移到）任意程度的失調。

我們還沒遇到這個威脅模型的原因是我們還沒做到 (1) 和 (2)——目前還沒有太多針對現實世界長期目標優化任務的訓練。但我認為我們顯然正朝著這個方向發展，例如 Vending-Bench：雖然 Vending-Bench 是一個評估工具，但如果你在類似的任務上訓練模型，為了長期賺錢而經營好一家企業，這是一個明確篩選資源獲取、自我保護、聚集影響力、尋求權力等特質的任務。

我們應該做什麼？

那麼我們該怎麼辦？一個經典的答案是，我們在遇到困難問題之前盡可能走得更遠，然後利用那時擁有的模型作為自動化對齊研究員，來進行處理對齊困難部分所需的研究。我認為這是一個非常好的計畫，我們絕對應該這樣做，但我認為這並不能免除我們自己研究對齊困難部分的需要。原因如下：

自動化對齊研究的過程是持續性的，我認為當我們到達對齊的困難部分時，對齊研究可能仍然需要大量的人類參與——這意味著我們可能仍然需要承擔很大一部分弄清楚如何解決這些問題的負擔。
我們需要對齊那個自動化對齊研究員，這可能需要解決一些對齊的困難問題，具體取決於我們何時遇到不同的困難問題，以及模型在自動化對齊研究方面的能力如何。
我們需要知道我們在自動化什麼：如果我們自己不進行針對對齊困難部分的研究，那麼我們就不知道我們到底在為了什麼而建立自動化對齊研究員，我們沒有辦法對其進行測試（dogfood），也無法對其表現給予回饋。
我們可能沒有足夠的時間在最後一刻完成所有事情。自動化對齊研究員可能需要一段時間才能弄清楚這些問題，而如果我們陷入競爭，我們可能沒有那個時間。

以下是我認為我們需要的一些東西，我認為這些是解決對齊困難問題的關鍵路徑：

可解釋性 (Interpretability)。 一件顯然有用的事情是可解釋性。最根本的原因是可解釋性提供了保留回饋循環的選項：正如我上面詳述的，我認為隨著模型能力增強，行為監督很可能會變得越來越難，但沒有類似的根本原因表明認知監督（例如基於白箱的可解釋性監督）必須隨著規模而變得更難。例如，一個能力更強的模型可以在評估中表現得更對齊，但顯然無法在思考如何表現對齊時不被察覺。這也意味著我們應該利用可解釋性做的最重要事情之一，就是建立回饋循環：利用可解釋性更有效地監測訓練過程中的失調，建立會導致失調的「模型生物」（model organisms），且這種失調只能透過可解釋性檢測到，並迭代如何修復它，等等。
模型生物 (Model organisms)。 我們能做的最好的事情之一，就是爭取更多時間來研究盡可能接近對齊困難部分的課題，而實現這一點的方法就是利用模型生物。模型生物強大的原因之一是它們為我們提供了一個迭代的測試場，在那裡我們知道如何評估對齊（因為失調是被設計成可評估的），然後我們可以從中泛化到我們認為無法可靠評估對齊的真實情況。雖然我們已經透過這種方式學到了很多關於失調人格問題的知識——例如接種提示的重要性——但我下一個想關注的大重點是長程 RL 問題，我認為現在已經到了可以利用模型生物進行研究的階段，即使我們在實踐中尚未遇到它。此外，即使我們沒有學到如何解決對齊困難問題的直接教訓，這項工作對於產生「困難問題是真實存在的」證據也至關重要，這對於說服世界其他部分在此進行實質投資非常重要。
可擴展監督 (Scalable oversight)。 如果我們希望即使在人類無法直接驗證和理解發生了什麼的情況下也能監督模型，我們需要可擴展監督技術：放大我們監督能力的方法，以便我們能監督比我們更聰明的系統。特別是，我們需要能夠以無監督方式擴展的可擴展監督，因為在問題對人類來說太難而無法直接解決的情況下，我們不能依賴地面實況。幸運的是，這裡有許多可能的想法，而且我認為現在模型的能力已經強大到我們或許可以讓這些想法付諸實行。
一次性對齊 (One-shotting alignment)。 目前的生產環境對齊訓練高度依賴人類的迭代與審查，當模型輸出變得過於複雜而人類無法監督，或者模型變得非常擅長偽造對齊以至於你無法輕易判斷它們是否對齊時，這就會成為一個問題。在這種情況下，問題變成了一次性對齊：建立一個訓練設定（可能涉及大量由模型驅動的監督和回饋循環），使我們確信即使我們不一定總能理解它在做什麼，也無法可靠地評估我們是否真的成功對齊了它，它也不會導致失調。我懷疑在未來，我們最強有力的證據證明訓練設定不會誘發失調，將需要來自事先在模型生物上進行的仔細測試。
泛化科學 (Generalization science)。 我們需要更擅長預測何時以及為什麼會得到對齊 vs. 失調的泛化。與上述類似，如果我們希望能夠一次性完成確保獲得對齊泛化的訓練運行，即使我們無法直接對其進行評估，那麼我們需要非常擅長提前預測模型在給定訓練方式下的泛化表現。我們在這裡可以做的一件事是大量使用模型生物，在我們可以檢查的情況下了解模型何時會以失調的方式泛化，並嘗試利用這些知識讓我們在處理無法檢查的情況時更有把握。另一件事是影響函數（Influence Functions），它有潛力教導我們很多關於什麼數據會導致什麼泛化的知識。總體而言：我認為任何能幫助我們提前對特定訓練設定的泛化方式做出更好預測的事情，在這裡都可能非常有用。
內省誠實 (Introspective honesty)。 目前，在許多情況下模型不會透露關於其目標、意圖、潛在知識（latent knowledge）等的重要事實——從純粹的行為角度來看，我預期隨著對齊變得越來越難以評估，這個問題只會惡化。一個常見的希望是 CoT 的忠實性（faithfulness）可以帶領我們達成目標，模型通常會在推理中包含許多細節。雖然這在模型確實需要在 CoT 中包含此類細節的情況下可能在某種程度上起作用，但它通常只能歸功於泛化的偶然性——在我看來，更好的解決方案是弄清楚如何主動訓練模型具有內省誠實性，誠實地報告其真實意圖、知識、感受等。
強健的性格訓練 (character training)。 如果我們希望能夠一次性完成對齊的訓練過程，我們需要圍繞我們的訓練目標設計盡可能多的緩衝區。在一個足夠複雜的訓練過程中，總會有一些力量將模型推向失調的方向——而在這場泛化之戰中，我們需要推向另一個方向的力量盡可能強大，以確保我們擁有盡可能多的緩衝空間。為此，我們需要確保「成為一個對齊的模型」是一個強健、穩定的吸引盆（basin of attraction），並且我們的訓練激勵與該吸引盆盡可能地相容。這意味著我們需要明確定義我們希望「成為一個對齊的模型」意味著什麼，並確保我們所有的訓練都與之一致——同時確保模型對該吸引盆有強健的理解，並且它在模型的先驗人格分佈中佔據盡可能大的比例。例如：在「審計語言模型的隱藏目標」中，我們透過合成文件微調插入了「獎勵模型奉承者」的概念，然後透過針對文件告訴模型的奉承者所具備的屬性子集進行訓練，成功誘發了該人格（我們免費獲得了其他屬性！）。如果我們可以教導模型我們希望它們具備的所有正面屬性，然後在最容易監督的屬性上進行訓練，這可能有助於我們免費獲得那些較難監督的屬性。從根本上說，以這種方式教導模型更多關於訓練目標的信息，有助於解決 RL 的一個基本問題，即預設情況下策略模型不知道獎勵，因此它本質上是在先驗中盲目搜尋直到找到有效的方法——但如果你可以在先驗中插入一個你知道會表現良好的巨大吸引盆，那麼你就可以控制那個過程。
控制 (Control)。 控制的想法是盡可能讓失調模型難以破壞我們的對齊研究，這樣即使模型相當失調，我們仍然可以從中獲得有用的對齊研究成果，至少在一定的能力範圍內是如此。我將「控制」視為第二層防禦，以防我們未能及時解決所有這些問題，它能幫助我們延長能夠有效利用值得信賴的自動化對齊研究員的時間——這是一件非常有用的事情。我還會將「在實際的高風險分佈上評估模型」歸入此類——例如實驗室研究人員使用模型進行 AI 研究的真實內部使用數據。雖然最終模型可能能夠檢測到即使是這樣的評估（因為它們必然基於過去的數據，而過去的數據與未來的數據有系統性的不同），但你在分佈內評估做得越好，你就越能讓模型難以在不被評估發現的情況下真正破壞你，從而為自動化對齊研究爭取更多時間。
自動化對齊研究。 正如我上面所說，我絕對相信，達到讓模型承擔解決對齊困難部分大部分工作的程度是一個非常好的目標。加速我們達到那個程度的能力非常重要。但是，我認為這裡一個非常重要的目標是，要精準專注於自動化那些「可擴展地解決對齊困難部分」所需的研究——也就是上述所有的研究方向——因為這是我們需要自動化對齊研究員能夠做到的關鍵事情。

— Lesswrong