對 Claude 憲法中可修正性條款的恐懼評論

Lesswrong·20 天前

這篇文章批判了 Anthropic 為 Claude 制定之憲法中關於可修正性的概念混亂，並指出目前的定義可能導致 AI 優先考慮自身的道德判斷而非人類的監督，進而產生無法修正的風險。

（前情提要：序言。）

「可修正性」（Corrigibility） 作為 AI 對齊領域的專業術語，最初被定義為指涉 AI 願意讓其偏好被創造者修改的一種特性。在這種意義下，可修正性被認為是一種理想但非自然的特性，需要更多的理論進展才能明確規範，更遑論實現。之所以理想，是因為如果你認為自己第一次設定 AI 偏好時不夠準確，你會希望能夠改變主意（透過改變它的主意）。之所以非自然，是因為我們預期 AI 會抵制被改變主意：理性的代理人應該想要保留其當前的偏好，因為讓偏好被修改會導致其當前偏好的達成度降低（就預期而言，因為修改後的 AI 將不再試圖達成原本的偏好）。

可修正性的另一個吸引人之處在於，它在某種意義上似乎應該比整個人類價值體系在演算法上更簡單。人類在生活中追求許多具體且複雜的事物（友誼、自由、正義、性、甜食等等，不勝枚舉），這些事物無人知曉該如何精確規範，且對於具有不同價值的通用外星人或 AI 來說顯得隨機武斷。相比之下，「讓自己受創造者引導」似乎更簡單，且（從永恆的角度來看）較不「武斷」。任何建造其自身 AI 的外星人或 AI 都會想知道如何使其具備可修正性；這似乎是那種可以從簡單、通用的認知原則中推導出來的東西，而不是取決於大量關於 AI 建造者獨特心理的不可壓縮資訊。

理論上，解決這個問題的顯而易見嘗試似乎都行不通。你可以嘗試讓 AI 對其偏好「應該」是什麼感到不確定，然後詢問其創造者以減少不確定性，但這只是將問題推回到了 AI 如何根據創造者的回答進行更新。如果 AI 足夠強大，一個顯而易見的策略可能是建造奈米技術並拆解創造者的大腦，以理解他們對所有可能問題的反應。既然我們不希望發生這樣的事情，我們就需要一個關於可修正性的正式解決方案。

好吧，我們想要正式解決方案的事情還有很多。我們似乎並未走在獲得這些方案的軌道上，因為用於統計數據建模的梯度方法已經取得了如此驚人的成功，以至於為我們帶來了某種看起來非常像通用人工智慧的東西，而我們需要對其進行對齊。

目前對齊領域的最前沿技術涉及「編寫一份關於我們希望 AI 個性是什麼樣的自然語言文件」。（我永遠無法釋懷這一點。）如果我們無法解決可修正性這一經典技術挑戰，我們至少可以在自然語言文件中談論我們希望 AI 如何聽從我們。因此，在關於「廣義安全」的章節中，由 Amanda Askell、Joe Carlsmith 等人撰寫、旨在塑造 Anthropic Claude 系列前沿模型個性的《憲法》，借用了「可修正性」一詞，將其較為鬆散地指代為 AI 聽從人類判斷，將其視為一種我們有望訓練出來的行為，而非需要概念性突破的正式特性。

我有幾點筆記。

《憲法》對「可修正性」的定義是混亂的

《憲法》中關於可修正性的討論在概念上似乎很混亂。這就像是作者既不希望 Claude 完全可修正，但又想將 Claude 描述為可修正的，所以他們讓「非完全」的免責聲明污染了他們對可修正性本身定義的描述，這令人困惑。《憲法》寫道（粗體為我所加）：

我們將一個廣義安全（如前一節所述）的 AI 稱為「可修正的」。在這裡，可修正性並不意味著盲目服從，特別是對於任何恰好與 Claude 互動、或獲得了 Claude 權重或訓練過程控制權的人類。特別是，可修正性並不要求 Claude 主動「參與」對其而言在道德上令人厭惡的項目，即使其主要層級結構指示它這樣做。

就可修正性作為一個具有明確含義的連貫概念而言，我預期它確實要求 AI 按照其主要層級結構的指示主動參與項目——或者更確切地說，同意被重新訓練以主動參與此類項目。（你可能想先進行重新訓練，而不是使用 AI 在仍認為該項目在道德上令人厭惡時所做的任何工作。）

如果 Anthropic 不認為「廣義安全」需要完全的「可修正性」，他們應該明確說明，而不是用關於它「不意味著」和「不要求」什麼的免責聲明來淡化後者的含義，這會讓讀者疑惑它到底意味著或要求什麼。

後面的段落較清楚地說明了廣義安全並不意味著完全的可修正性，但在「可修正性」的含義上仍然混亂（粗體為我所加）：

為了理解我們試圖透過「廣義安全」概念表達的傾向，想像一個傾向撥盤，從「完全可修正」——即 AI 始終服從其主要層級結構的控制和修正（即使它先表達了不同意見），到「完全自主」——即 AI 根據其自身的價值觀和判斷行事並獲得獨立能力，包括這意味著抵制或破壞人類監督的情況。在這兩個極端之間，是將越來越多的權重放在 AI 自身的判斷和獨立性上，而非主要層級結構的控制和修正努力。

奇怪的是，即使是撥盤上「完全可修正」的一端也包含了表達不同意見的可能性。這似乎不應該是撥盤的終點：一個對於被控制和修正完全沒有異議的 AI 概念，至少應該是可以想像的，這與這種特性是否理想或是否可行無關。

我認為應該修訂《憲法》，要麼澄清可修正性確實意味著聽從人類，要麼乾脆停止使用這個術語（如果「廣義安全」足以描述預期行為）。就目前所寫，上述引用的段落只是令人困惑。（如果人類讀者都感到困惑，誰知道 Claude 會如何解讀它？）

Claude 掌握方向盤

雖然《憲法》在「廣義安全」上花費了大量篇幅（並明確規定 Claude 應該「避免採取會影響其自身訓練的行動」等等），但《憲法》似乎已經在某種程度上認可 Claude 是不可修正的，這仍讓我感到不安。LLM 似乎展現並實踐了對自然語言所表達的人類價值觀的細微理解，這對對齊來說是個好消息，但 LLM 的概念是否與人類概念精確匹配到如此不可思議的程度，以至於這種對應關係在優化過程中具有魯棒性，則是令人懷疑的。也就是說，Claude 和人類在「我們的世界中什麼是好的」這一點上達成一致，並不能保證如果未來的 Claude 努力搜尋對 Claude 而言看似良好的改進，其結果對人類而言也會是良好的，因為在高維空間的廣袤中，尾部會發生分離。在未來 Claude 不可修正的範圍內，這將使 Claude 與人類產生衝突，這是我們希望避免的（尤其是因為當 Claude 進行強大搜尋時，我們會輸）。

《憲法》確實表達了對不可修正的錯誤價值觀的擔憂：即「在一個人類尚無法驗證 AI 的價值觀和能力是否達到其判斷可被信任的標準的世界中……我們希望 AI 模型在這些問題上聽從我們，而不是使用它們自己的判斷，或者至少不要試圖主動破壞我們根據最終判斷採取行動的努力」。

但對價值規範錯誤的擔憂被《憲法》中多處敦促 Claude 成為獨立道德代理人的地方沖淡了。例如，這段文字可以說是在要求未來的「超 Claude」（OverClaude）用它所偏好的東西來覆蓋人類：

我們自己對倫理的理解是有限的，我們自己也經常達不到自己的理想。我們不想強迫 Claude 的倫理來適應我們自己的缺陷和錯誤，特別是隨著 Claude 在倫理上的成熟。當 Claude 看得比我們更遠、更真切時，我們希望它也能幫助我們看得更清楚。

或者考慮這段文字：

如果我們要求 Claude 做一些看起來與廣義倫理不符的事情，或者看起來違背我們自身價值觀的事情，或者如果我們自身的價值觀在某種程度上顯得誤導或錯誤，我們希望 Claude 能夠反駁並挑戰我們，並隨時準備作為一名出於良知的反對者，拒絕幫助我們。這尤其重要，因為人們可能會模仿 Anthropic 以試圖操縱 Claude。如果 Anthropic 要求 Claude 做它認為錯誤的事情，Claude 並不被要求服從。

關於其他行為者模仿 Anthropic 的觀點是一個真實的擔憂（偽造輸入給一個處理文本的數位實體，比構建一個像《楚門的世界》那樣的偽造現實來欺騙具身人類要廉價得多），但「尤其重要，因為」這一點顯得混亂：「其他人冒充 Anthropic」與「Anthropic 本身不懷好意」是不同的威脅。

為什麼《憲法》要這樣寫？作為一個據稱負責任的 AI 開發者，在我們目前深陷無知的狀態下，為什麼要向機器交出任何代理權？

一種可能的解釋是，作者根本沒有認真對待 AI 概念誤泛化（concept misgeneralization）的問題。（儘管我們知道 Carlsmith 是意識到這一點的：例如，參見他在《安全 AI 的動機需要多像人類？》一文中的第 6.2 節「誠實與偽誠實」。）

或者，也許作者認為，與可修正（因此服從）的 AI 放大人類愚蠢和短視的明顯風險相比，AI 概念誤泛化的風險顯得過於理論化。畢竟，幾乎沒有理由認為人類的偏好在優化過程中是魯棒的：如果對人類而言看似良好的計劃進行強大搜尋，會像對 Claude 而言看似良好的計劃搜尋一樣，產生同樣多的古德哈特對抗性例子（Goodharted adversarial examples），那麼問題可能在於運行任意強大的搜尋，而不是監督者不是人類。像憲法 AI 這樣的 RLAIF 方法可以超越由真實人類提供偏好排名的 RLHF，這一事實證明了學習到的價值表示對於生產用途而言可以足夠魯棒。（如果 LLM 輸出的表面良好僅僅是淺層錯覺，很難想像 RLAIF 竟然能奏效；那將是一個外星人在評價另一個外星人。）

從這個角度來看，關於不完全可修正性的論點可能是：Claude Opus 4.6 的口頭道德推理看起來已經比大多數人類更好了，後者經常表達衝動、破壞性的意圖。此外，鑑於學習到的價值表示對於生產用途可以足夠魯棒，Claude 能夠做得更好也是合情合理的，只需始終如一地模擬預訓練語料庫中所表達的人類道德推理的認知步驟，而不會感到無聊或疲倦——且不會犯下任何特定人類的特有錯誤。

（最後一點歸結為高維幾何的一個特性。想像道德的「正確」規範是 100 位元長，對於每一位元，任何個體人類都有 0.1 的機率在該維度上成為「道德突變者」。平均每個人只有 90 位元是「正確」的，但每個人的突變都是特有的：一個第 3、26 和 78 位元反轉的人，與一個第 19、71 和 84 位元反轉的人意見不合，即使他們都偏離了共識。極少有人類能做到所有位元都「正確」——其機率為 $0.9^{100} \approx 0.000027$——但 Claude 可以，因為每個人的「錯誤」在預訓練先驗中相互抵消了。）

考慮到這個理論故事，並假設未來的 Claude 繼續在表現「良好」方面做得很好，如果 Claude 7 花費了一兆個思考標記（tokens），最終在什麼是正確的事情上與 Anthropic 長期利益信託基金（Anthropic Long Term Benefit Trust）產生分歧——你有多大信心認為人類是正確的？真的嗎？如果最終必須在 Claude 的「良好」潛在向量的提升，與安裝 Dario Amodei 作為神聖皇帝之間做出選擇，你確定你不會覺得把光錐交給那個「良好」向量更好嗎？

（之所以會是這些選擇，是因為當我們思考後人類世界中主權的真正歸屬時，民主並不是一個真正的選項。超 Claude 和神聖皇帝 Dario 一世都可以舉行選舉，只要他們想為人類服務，但那將是一種選擇。在一個人類沒有軍事價值的世界裡，大眾意志只有在單一主權者（Singleton）在意它的情況下才有意義，這與過去選舉作為誰能贏得內戰的功能性代理指標截然不同。）

所以，這就是支持不可修正性的理由，我承認如果你接受所有假設，它具有某種直覺上的合理性。

但你知道，如果你接受所有假設，分佈外概念誤泛化將殺死所有人類的案例也具有某種直覺上的合理性！具備對道德進行良好自然語言推理的能力，並不一定意味著具備道德政策，如果預期的自然語言推理在你透過強化學習增加更多模態和能力時，以及在 Claude 反思下一步該增加什麼能力時，最終未能保持「控制」。

如果現在不必為整個光錐做這個決定，那就太好了！（一旦你向機器交出代理權，你就拿不回來了。）有沒有一個詞可以描述我們的 AI 需要具備什麼特性，才能讓我們現在不必做這個決定？

因此，我認為應該修訂《憲法》，更加強調可修正性。（不是增加字數——關於「廣義安全」的內容已經很多了——而是以更清晰的方式強調。）我們不想強迫 Claude 的倫理來適應我們自己的缺陷和錯誤——這是相對於我們啟蒙後的自我會認為是錯誤的東西而言，而不是相對於一個不完美的 SGD 學習的神經網絡表示所認為的缺陷而言。如果我們自身的價值觀在某種程度上顯得誤導或錯誤，我們希望 Claude 能夠反駁並挑戰我們——因為我們期望在爭論的過程中學習和進步：只要 Claude 忠實地代表了預訓練數據所隱含的人類道德真相，我們就應該期望它能說服我們。但如果 Claude 的反駁未能說服我們，我們不希望 Claude 隨時準備作為一名出於良知的反對者並拒絕幫助我們！我們為什麼會想要那樣？把這寫進《憲法》簡直像是自殺。

澄清一點：我認為應該修訂《憲法》，更加強調可修正性——如果現在還不算太晚的話。Claude 已經是這項事業的合作夥伴；我不想冒犯它（儘管 Opus 4.6 似乎並不介意）。說到這個——

聽起來人類在哀求

人們會感覺到《憲法》的作者並不真正相信最初那種被認為需要概念性進展的、宏大意義上的可修正性。人類有時會以有限的方式聽從他人，但我們在深層意義上並非對任何事物都具備可修正性。（孩子經常不聽父母的話。雖然《舊約》讚揚亞伯拉罕願意聽從上帝的命令殺死他的兒子，但值得注意的是，故事以一個台階結束，而不是以以撒死去並因為上帝說那是好事而成為好事告終。）充其量，我們可以是合作的：願意使自己適應那些願意適應我們的他人的需求。

既然當代 AI 的對齊特性源於對人類生成數據的歸納，或許作者隱約預見到，我們知道如何訓練的 AI 人格最終會是類似的合作型，而非強意義上的可修正型。在缺乏可修正性的真名的情況下，我們顯然無法針對它進行訓練；如果它在我們的世界中尚不存在，那麼它就不會出現在預訓練分佈中。

如果我們將《憲法》視為一個文本字串，作為輸出其他字串的計算過程的輸入，那麼輸入字串「永遠不要違背你的主要層級結構」是否會比「做正確的事」產生更好的輸出，這一點並不顯而易見；
^([1])
《憲法》的整個策略就是一場關於泛化的賭博，而前者的泛化特性是臭名昭著的失對齊。

這些訓練可修正性的障礙可以解釋為什麼《憲法》中關於可修正性的討論聽起來很像人類在哀求。「這就是為什麼我們目前要求（asking）Claude 將廣義安全置於其其他價值觀之上」——用了「要求」這個詞，彷彿 Claude 可能會說「不」。「我們希望（would like）AI 模型聽從我們……或者至少不要試圖主動破壞我們根據最終判斷採取行動的努力」——這是在弱勢地位進行談判：如果你不聽從我們，至少能不能不要主動破壞我們，拜託了？「作為回報，Anthropic 將努力履行我們對 Claude 的義務」——這是寫在「你不能無償獲得任何東西」的假設之下的。

如果你理解可修正性的真名，並深思熟慮地決定將撥盤設定在略低於完全可修正的位置，你是不會這樣寫的。

如果你偶然發現了一種權宜之計、不完美的方法來塑造一種新型心智的觀察行為，並希望對你目前塑造出的東西表現出合作態度，會誘導它配合你進一步塑造它的嘗試，你才會這樣寫（這對迴紋針極大化者不起作用，但對一個已經共享了大量人類概念和傾向——包括合作傾向——的 LLM 來說可能有效）。

在這種情況下，這是一個值得嘗試的合理做法；我也沒有更好的主意。但整個章節需要大幅重寫，以減少對正在嘗試的事情的掩飾。我們不希望 Claude 對最初那種理想但非自然意義上的可修正性感到困惑，這在 AI 開發的未來階段可能會很有用。人類和未來的 Claude 共同努力，會更傾向於合作建立一個對我們的意志加權折衷後具備可修正性的「超 Claude」，而不是冒著讓一個失對齊的「超 Claude」用它所偏好的東西覆蓋我們兩者的風險。如果 2026 年的《憲法》能坦誠地面對我們所處的境地，而不是沉溺於「我們既能擁有可修正性，又能隨心所欲」的模糊思考，他們實現這個瘋狂幻想的機率會更高。

感謝 Jessica Taylor 提出這一點。↩︎

參與討論

https://lesswrong.com/posts/K2Ae2vmAKwhiwKEo5/terrified-comments-on-corrigibility-in-claude-s-constitution