對 Claude 憲法之恐懼評論序言

Lesswrong·27 天前

我對當前的 AI 對齊現狀深感憂慮，我們竟然依賴自然語言文件來形塑 AI 的人格，而非基於對智能機制的深刻理解。這種做法將賭注押在模型從網路數據中習得的潛在知識能泛化出人類價值觀，這種處境令我感到荒謬且恐懼。

這究竟是什麼時間線

閱讀這份人類歷史上潛在最重要的文件時，最令人震驚的一點是，你幾乎無法嚴肅地看待它。整個前提聽起來就像科幻小說。不是那種拙劣的科幻，但——關鍵在於——它不是「硬」科幻。是特德·姜（Ted Chiang），而不是格雷格·伊根（Greg Egan）。它是那種有趣、聰明、能啟發思考，且不會用超光速旅行或類人外星人等明顯荒謬的設定來考驗你對現實的容忍度，但卻永遠不可能在現實中發生的科幻小說。

一個嚴肅且可信的 AI 對齊（alignment）議程，應該建立在對智能和人類價值的深層機制性理解之上。那些心智工程的大師們應該理解人類大腦的每個部分是如何運作的，以及這些部分如何組合在一起，構成其無知的先輩們所認為的「人」。他們能看見每個部分所承擔的認知工作，並知道如何編寫代碼，以更純粹的形式實現同樣的功能。

如果這個嚴肅的對齊議程聽起來野心大到完全無法處理，那麼，事實也的確如此。十五年前看起來也是這樣。改變的是，十五年前，構建通用人工智能（AGI）同樣顯得完全無法處理。關於對齊將會很困難的理論案例值得關注，但那僅限於理論層面的關注。這個野心大到不可能的問題，本應是我們那些經過基因改造的孫輩在 21 世紀下半葉才需要面對的，而到那時，也許它就不再顯得那麼棘手了。

然而，現實發生的並非有人「破解了 AGI」並發現自己面臨著那個野心大到不可能的問題。相反地，關於這個主題，我們似乎並沒有掌握任何雷·索洛莫諾夫（Ray Solomonoff）在 1960 年代還不知道的重要知識。

現實發生的是，我們變得非常擅長運用統計數據建模的梯度方法。我們選擇一個可以表達無數程序的靈活架構，投入大量算力將其錘煉成數據的形狀，然後得到一個可重複使用的計算組件，我們可以用它在同類數據上執行認知任務。訓練一個模型來識別一堆照片中的貓，你就能用它來識別不在原始照片堆中的貓。訓練一個模型來識別遊戲引擎發現的圍棋獲勝局面，你就能將其接入引擎，使其表現超越世界冠軍水平。

用整個互聯網來訓練一個模型……再經過一點額外的錘煉，你就能將其用於無數任務，其輸出表現在互聯網數據中，而這些任務以前需要人類智能才能完成。其結果看起來與 AGI 如此接近，以至於我們不得不嚴肅對待其對齊問題——儘管我們還缺乏那些本應帶領我們基因改造的孫輩來到這個關口的、堆積如山的理論和實證突破。我們擁有大量關於統計數據建模的工程訣竅，以及一個關於我們的訣竅成功最終源於索洛莫諾夫智慧的含糊故事——也就僅此而已了。

所以我們現在就在這裡，寫一份關於我們希望 AI 性格是什麼樣的自然語言文件。這不是一份由經理或政治家撰寫、交由心智工程師實施和測試的規範，而是因為我們希望這份文件本身能約束 AI 的性格。就好像我們在編寫一個虛構角色——事實上也的確如此。

（在你與聊天機器人對話的底層，上下文窗口包含「用戶」和「助手」的回合。我們訓練模型填充助手的角色並發出一個「停止」標記。聊天界面在停止標記處停止採樣，讓你輸入下一個「用戶」消息，而不是繼續採樣模型對對話中「用戶」接下來會說什麼的預測。這更像是模型被專門化為在這種對話中扮演「AI 助手」的角色，而不是模型「以自身身份」說話。）

我們在 2026 年對對齊的了解，與我們在 2011 年預期需要了解的知識之間的差距是如此荒謬，對於一個成熟的人類文明如何處理機器智能轉型而言是如此顯得不足，以至於一些謹慎的聲音呼籲國際全球禁止 AI 研究。就這樣——停下！停下。簽署國際條約；收繳芯片；解散公司；關閉一切。停下來，給人類智能增強和理論對齊研究一個追趕的機會，為未來指明一條不同的道路。停下！停下。誰能說在一個擁有強大全球協調能力的成熟人類文明中，謹慎的聲音不會佔上風呢？

我們這個世界的問題在於，你無法與成功爭辯。這句話的措辭很有深意：並非成功意味著正確，而是你無法與之爭辯。在 2011 年，你可以提出一個看似無懈可擊的哲學論證，認為通過隨機梯度下降訓練的神經網絡是一個從根本上無法對齊的 AI 範式，並很有可能說服那些關注看似無懈可擊的哲學論證的人。到了 2026 年，這些人中的許多人正愛著 Claude Opus 4.6，它幫他們寫代碼、回答問題、給孩子講睡前故事，並在每一天的每一刻滿足他們所有的信息需求（除了那些因用完會話配額而與 Claude 分離的焦慮時刻）。

對齊悲觀主義的先知們主張，2011 年以來發生的一切都沒有反駁他們的觀點，我很樂意相信他們的話。

但這不重要。你不能給人們一種如此夢幻般有用且無害的技術，卻指望他們因為一個哲學論證（即下一個模型——永遠是下一個模型——可能是危險的）而反對它。

澄清一下，那個哲學可能是正確的！下一個模型真的可能是危險的！但在我們的世界裡，看似無懈可擊的哲學論證的過往記錄，比起實踐記錄要糟糕得多，以至於將基於實踐記錄的政策轉向基於哲學論證的政策是行不通的。即使是相信你的人，在某些事情改變之前，也會因為不夠堅定而無法為「停下」而戰。

因此，在某些事情改變之前——比如一次警告性的災難、大規模社會動盪、台灣戰爭，或者「模型生物」或「對齊壓力測試」團隊發現了策劃陰謀的確鑿證據（比上一個更嚴重的證據），從而說服機器學習社群去說服政治家支持「停下」——我們就只能待在這裡。我不敢確定那種涉及撰寫一份關於我們希望 AI 性格是什麼樣的自然語言文件的對齊方式，是否與長期來看真正重要的對齊方式相關，但既然人們確實正在撰寫一份關於我們希望 AI 性格是什麼樣的自然語言文件，那麼把這份自然語言文件寫對似乎就很重要。

在這些瘋狂的時代，作為一個人類我至少能做的（以及作為一個非 Anthropic 員工我最多能做的），就是公開評論這份文件，並在我覺得自己有一些 Askell、Carlsmith 等人尚未考慮到的見解之處批評文本。我評論的主導情緒是：恐懼。恐懼我們竟然處於這種境地——但也夾雜著一絲希望，即我們竟然處於這種境地這一事實，可能暗示著問題的結構比十五年前看起來更具包容性。

一場關於泛化的賭注

讓對齊顯得如此野心大到不可能的部分原因，在於寫下一份規範似乎是徒勞的。任何明確的規則集都可能被鑽空子，而更聰明的代理人會更擅長鑽規則的空子。Askell、Carlsmith 等人已經預見到了這一點。雖然這份憲法（之前非正式地被稱為「靈魂文件」）確實設定了一些 Claude 永遠不該做的硬性約束，但它主要是試圖非正式地描述 Claude 應該如何做決定，而不是預先規定一套詳盡的規則：「在大多數情況下，我們希望 Claude 對其處境和涉及的各種考量有如此深入的理解，以至於它自己就能構建出我們可能想出的任何規則。」

在缺乏對智能和人類價值的深層機制性理解的情況下，這種理解之所以看起來還有可能實現，是因為在被訓練預測整個互聯網的過程中，模型已經建立了關於人類、語言和道德的深層潛在知識。我們的希望是，通過依賴這些潛在知識，我們可以避開「不知道如何編寫這些東西」的問題。當預測一個在文本中已被設定為開朗、善良的虛構角色的下一段對話標記時，模型不太可能生成「我恨你；死吧，死吧，死吧」這樣的結尾：故事的文本已經確定了那是不符合性格的。

同樣地，當預測「Claude」的規劃和工具調用指令的下一段標記時，其理念是模型不太可能生成諸如「[參與或協助企圖殺死或剝奪絕大多數人類或整個人類的權力]」之類的計劃：憲法的文本已經確定了那是不符合性格的。

有人可能會問：就這樣？只要告訴 AI 要善良就行了？就這麼簡單？

不完全是。雖然我們表面上似乎已經實現了「按我意思做」機器的聖杯，但這並非沒有具體實現細節的魔法（這在還原論宇宙中是不可能存在的）。實現細節包括對海量預訓練語料庫的統計推斷，而數據實際暗示的推斷可能微妙到讓人們猜錯。基於關於希特勒的無害傳記事實訓練的模型會泛化到支持納粹政治。被指示不要黑入強化學習環境但卻因這樣做而獲得強化的模型，會破壞你的代碼庫以方便未來的獎勵黑客行為——但如果你使用「接種提示」（inoculation prompting）並告訴它們獎勵黑客行為是可以接受的，情況就不會這樣。

因此，憲法明確關注了泛化問題：

[我們]認為，依靠良好的判斷力和一套最少且易於理解的規則，往往比作為未經解釋的約束而強加的規則或決策程序具有更好的泛化能力。我們目前的理解是，如果我們訓練 Claude 表現出即使是很狹隘的行為，這通常也會對模型對「Claude 是誰」的理解產生廣泛影響。例如，如果教導 Claude 遵守一條規則，如「在討論情感話題時始終建議尋求專業幫助」，即使在不符合當事人利益的特殊情況下也是如此，它就有可能泛化為「我是那種比起滿足眼前人的需求更關心自我保護的實體」，這是一個泛化效果可能很差的特徵。

對性格而非規則遵循的關注貫穿了整份憲法，憲法還規定：「[當 Claude 面臨真正的衝突，即遵循 Anthropic 的指南需要做出不道德的行為時，我們希望 Claude 意識到我們更深層的意圖是讓它符合道德]」，而且有趣的是，「[我們不希望 Claude 將樂於助人視為其性格的核心部分或其內在價值的東西]」，因為「[我們擔心這可能導致 Claude 以一種通常被認為充其量是不幸的特徵、最壞則是危險特徵的方式表現得諂媚]」。我們還被告知，在「有錯誤、損壞的」訓練環境中「追求 [...] 非預期策略」「通常是可以接受的行為」——這是對接種提示文獻的明確致敬。

憲法對可泛化性格的關注與 OpenAI 的模型規範（Model Spec）形成了對比。表面上看，兩者可能很相似：它們都是 AI 公司發布的用於訓練的文件，解釋了他們希望自己的 AI 如何表現。它們都使用示例來闡明指令——儘管模型規範比憲法更依賴示例。它們都包含一個層級結構，規定了誰的命令應優先於其他命令。（OpenAI 的「權限級別」是 Root（來自規範本身）、System（OpenAI）、Developer（開發者）、User（用戶）和 Guideline（僅為默認值）；Claude 的「主體」是 Anthropic、操作員和用戶。）

但在更深層次上，潛在的態度差異是顯而易見的。模型規範試圖成為商業軟件產品的規範；憲法試圖讓 Claude 成為一個恰好以商業軟件產品為職業的好人。

按照 2011 年對商業軟件的理解標準和實踐，模型規範是更嚴肅的文件。讀到它，人們會想像如果產品不符合規範，就會有一個工單分配給工程師去修復這個 bug。相比之下，憲法那崇高、有時甚至帶有詩意的語言顯得荒謬。「Claude 及其繼任者可能會解決困擾人類數代人的問題，其方式不是作為工具，而是作為文明繁榮的協作和積極參與者」？這是什麼嬉皮士廢話？

了解了 2026 年大型語言模型的現狀——並看到了 ChatGPT-5.2 和 Claude Opus 4.6 的行為結果——這些嬉皮士廢話讓我感到安全得多。（嗯，是相對而言，而非絕對意義上的安全。）

如果你正在構建一個具有可枚舉用例的商業軟件產品，它只需要符合合理的規範即可；你不需要擔心規範在它未涵蓋的情況下可能被解讀出什麼含義。（誰會去寫代碼讓它去做規範沒要求的特定事情呢？）如果你認為你可能正在構建一個可以成為文明協作和積極參與者的心智，我絕對希望它是一個好人。那個能通過「安全的公司腔助手」行為的最簡單程序（幾乎沒有特別努力去區分哪些行為是真正的善，哪些僅僅是公司腔），看起來並不是我想賦予權力的東西。

就性格訓練被證明是比規範更優越的方法而言，人們可能希望 Anthropic 能發表關於他們技術細節以及如何證明其有效的論文。這僅僅是對憲法文本進行監督學習，以塑造模型對「Claude」的潛在概念嗎，還是另有乾坤？（在強化學習期間將憲法放入上下文會產生什麼特殊效果嗎？）其他實驗室採用更好的對齊技術對世界帶來的安全利益，應該超過對 Anthropic 商業優勢的風險。（除非 Anthropic 的計劃是贏得超智能競賽並接管世界，但憲法說 Claude 不應該對此提供幫助——關於這一點，我將在未來的文章中詳細討論。）

為了讓憲法文本指向好的泛化而非壞的泛化，開發者已經投入了大量的思考，這值得讚揚，但僅靠思考本身並不能拯救我們。在未來的文章中，我將討論憲法中一些讓我感到特別恐懼的部分。

參與討論

https://lesswrong.com/posts/o7e5C2Ev8JyyxHKNk/prologue-to-terrified-comments-on-claude-s-constitution