Dario Amodei：科技的青春期

Lesswrong·3 個月前

我認為人類正帶著人工智慧進入技術的青春期，這是一個動盪的成年禮，要求我們以務實且基於事實的作戰計畫來面對生存風險，而非流於煽情主義。我們必須在承認不確定性的同時引導這場轉革，並採取精準的干預措施，在確保安全的同時平衡這項技術帶來的巨大潛在利益。

Anthropic 執行長 Dario Amodei 撰寫了一篇新文章，分享他對各種形式 AI 風險的看法。這篇文章非常值得一讀，即便只是為了瞭解 Anthropic 未來可能的行動方向。

直面並克服強大 AI 的風險

在卡爾·薩根（Carl Sagan）的小說《接觸未來》（Contact）改編的電影中，有一個場景：主角是一位天文學家，她偵測到了來自外星文明的第一個無線電訊號，正被考慮作為人類代表去會見外星人。面試她的國際小組問道：「如果你只能問（外星人）一個問題，那會是什麼？」她的回答是：「我會問他們：『你們是怎麼做到的？你們是如何演化、如何度過這個技術青少年的階段，而沒有毀滅自己？』」當我思考人類目前與 AI 所處的階段——我們正處於什麼樣的門檻上——我的腦海中不斷浮現那個場景，因為這個問題對我們目前的處境再貼切不過了，我真希望我們能有外星人的答案來指引我們。我相信我們正在進入一個既動盪又不可避免的成年禮，這將考驗我們作為一個物種的本質。人類即將獲得幾乎難以想像的力量，而我們的社會、政治和技術系統是否具備駕馭這種力量的成熟度，目前還深具不確定性。

在我的文章 《慈悲的機器》（Machines of Loving Grace）中，我試圖描繪一個進入成年期的文明夢想：在那裡，風險已得到解決，強大的 AI 被以技巧和同理心應用，以提升每個人的生活品質。我提出 AI 可以為生物學、神經科學、經濟發展、全球和平以及工作與意義帶來巨大的進步。我覺得給人們一個值得為之奮鬥的啟發性目標是很重要的，而這項任務，奇怪的是，AI 加速主義者和 AI 安全倡導者似乎都失敗了。但在這篇目前的文章中，我想直面這個成年禮本身：勾勒出我們即將面臨的風險，並嘗試制定一套擊敗它們的作戰計畫。我深信我們有能力取勝，深信人類的精神與高貴，但我們必須正視現實，不抱幻覺。

正如談論利益一樣，我認為以謹慎且深思熟慮的方式討論風險非常重要。特別是，我認為關鍵在於：

避免末日論（Doomerism）。 這裡我所說的「末日論」不僅是指相信毀滅是不可避免的（這既是錯誤的，也是一種自我實現的預言），更廣義地說，是指以一種準宗教的方式思考 AI 風險。^(1) 許多人多年來一直以分析和冷靜的方式思考 AI 風險，但我的印象是，在 2023-2024 年 AI 風險擔憂的高峰期，一些最不理智的聲音反而浮上檯面，通常是透過煽動性的社群媒體帳號。這些聲音使用令人反感的、讓人聯想到宗教或科幻小說的語言，並在缺乏足以支撐證據的情況下要求採取極端行動。即便在當時，也很清楚反彈是不可避免的，而且這個議題會變得文化兩極化，進而陷入僵局。^(2) 到了 2025-2026 年，鐘擺已經擺動，AI 的機會而非 AI 風險正主導著許多政治決策。這種動盪是令人遺憾的，因為技術本身並不在意什麼是流行的，而我們在 2026 年比 2023 年更接近真正的危險。教訓是，我們需要以現實、務實的方式討論和應對風險：冷靜、基於事實，並具備應對潮流變化的能力。
承認不確定性。 我在本文中提出的擔憂有很多種方式可能會變得毫無意義。這裡沒有任何內容旨在傳達確定性甚至可能性。最顯而易見的是，AI 的進步可能根本沒有我想像的那麼快。^(3) 或者，即使進步神速，這裡討論的部分或全部風險也可能不會發生（那將是件好事），或者可能存在我未曾考慮過的其他風險。沒有人能完全自信地預測未來——但我們無論如何都必須盡力做好規劃。
盡可能採取精準的干預。 應對 AI 風險需要結合公司（及私人第三方參與者）採取的自願行動，以及政府採取的具有約束力的行動。對我來說，自願行動——包括採取行動和鼓勵其他公司效仿——是理所當然的。我堅信在某種程度上也需要政府的行動，但這些干預的性質不同，因為它們有可能破壞經濟價值，或脅迫那些對這些風險持懷疑態度的不情願參與者（而且他們有一定的機率是對的！）。法規產生反效果或惡化其原本打算解決的問題也是常有的事（對於快速變化的技術更是如此）。因此，法規必須審慎：應尋求避免附帶損害，盡可能簡單，並施加達成任務所需的最低負擔。^(4) 說「當人類命運受到威脅時，任何行動都不嫌極端！」很容易，但在實踐中，這種態度只會導致反彈。明確地說，我認為有相當大的機率我們最終會達到需要採取更重大行動的地步，但這將取決於是否有更強有力的證據顯示迫在眉睫的具體危險，以及對危險有足夠的具體描述，以制定有機會解決問題的規則。我們今天能做的最有建設性的事情，就是倡導有限的規則，同時觀察是否有證據支持更強力的規則。^(5)

話雖如此，我認為談論 AI 風險的最佳起點，與我談論其利益時的起點相同：明確我們正在談論的是什麼程度的 AI。會引起我對文明層面擔憂的 AI 程度，是我在《慈悲的機器》中描述的強大 AI。我將在此重複該文件中的定義：

所謂「強大 AI」，我指的是一種 AI 模型——形式上可能與今天的 LLM 相似，儘管它可能基於不同的架構，可能涉及多個互動模型，且訓練方式可能不同——具備以下特性：

就純粹的智力而言，它在大多數相關領域（生物學、程式設計、數學、工程、寫作等）都比諾貝爾獎得主更聰明。這意味著它可以證明未解決的數學定理、撰寫極其優秀的小說、從頭開始編寫困難的程式碼庫等。
除了僅僅是一個「與你交談的聰明事物」之外，它還擁有虛擬工作的人類所能使用的所有介面，包括文字、音訊、視訊、滑鼠和鍵盤控制以及網路存取。它可以參與此介面所允許的任何行動、通訊或遠端操作，包括在網路上採取行動、向人類發出或接受指示、訂購材料、指導實驗、觀看影片、製作影片等等。同樣地，它執行所有這些任務的技能超過了世界上最有能力的人類。
它不只是被動地回答問題；相反，它可以被賦予需要數小時、數天或數週才能完成的任務，然後像聰明的員工一樣自主地去完成這些任務，並在必要時尋求澄清。
它沒有物理實體（除了存在於電腦螢幕上），但它可以透過電腦控制現有的物理工具、機器人或實驗室設備；理論上，它甚至可以為自己設計機器人或設備供其使用。
用於訓練模型的資源可以重新用於運行數百萬個實例（這與預計到 2027 年左右的集群規模相符），且模型吸收資訊和產生行動的速度大約是人類的 10 到 100 倍。然而，它可能會受到物理世界或與其互動的軟體反應時間的限制。
這數百萬個副本中的每一個都可以獨立處理不相關的任務，或者如果需要，可以像人類協作一樣共同工作，或許還有針對特定任務進行微調的特別優秀的子群體。

我們可以將其總結為「資料中心裡的一個天才國家」。

正如我在《慈悲的機器》中所寫，強大 AI 可能最快在 1 到 2 年內出現，儘管也可能需要更長的時間。^(6)

強大 AI 究竟何時到來是一個複雜的話題，值得專門寫一篇文章，但現在我只簡單解釋一下為什麼我認為很有可能很快就會到來。

我和 Anthropic 的共同創辦人是最早記錄和追蹤 AI 系統「縮放定律」（scaling laws）的人之一——即觀察到隨著我們增加更多的運算量和訓練任務，AI 系統在我們能夠衡量的幾乎每一項認知技能上都會有預測性的提升。每隔幾個月，公眾情緒要麼確信 AI 正「撞上牆」，要麼對某些將「從根本上改變遊戲規則」的新突破感到興奮，但事實是，在波動和公眾猜測的背後，AI 的認知能力一直保持著平穩、堅定的增長。

我們現在正處於 AI 模型開始在解決未解數學問題上取得進展的階段，而且在程式設計方面已經好到我見過的一些最強大的工程師現在將幾乎所有的程式碼工作都交給 AI。三年前，AI 在小學算術問題上還很掙扎，幾乎無法寫出一行程式碼。類似的進步速度也發生在生物科學、金融、物理和各種代理任務中。如果這種指數增長持續下去——這雖然不確定，但現在已有十年的記錄支持——那麼 AI 在幾乎所有事情上都比人類強，不可能超過幾年的時間。

事實上，這種描述可能低估了可能的進步速度。因為 AI 現在在 Anthropic 撰寫了大部分程式碼，它已經實質上加速了我們構建下一代 AI 系統的進度。這種回饋迴路每個月都在積聚動力，距離當前一代 AI 自主構建下一代的時點可能只有 1 到 2 年。這個迴路已經開始，並將在未來的幾個月和幾年內迅速加速。在 Anthropic 內部觀察過去 5 年的進展，並看到未來幾個月的模型如何成型，我可以感覺到進步的步伐，以及倒數計時的時鐘。

在這篇文章中，我將假設這種直覺至少是某種程度正確的——並非強大 AI 肯定會在 1 到 2 年內到來，^(7) 而是有相當大的機率會發生，且在未來幾年內發生的機率非常高。與《慈悲的機器》一樣，認真對待這個前提會導致一些令人驚訝且不安的結論。雖然在《慈悲的機器》中我專注於這個前提的正面影響，但在這裡我談論的事情將是令人不安的。這些是我們可能不想面對的結論，但這並不會讓它們變得不真實。我只能說，我日以繼夜地專注於如何引導我們遠離這些負面結果，並轉向正面結果，在這篇文章中，我將詳細討論如何做到這一點。

我認為掌握 AI 風險的最佳方法是提出以下問題：假設 2027 年左右，世界上某個地方出現了一個名副其實的「天才國家」。想像一下，比如說有 5000 萬人，他們每個人都比任何諾貝爾獎得主、政治家或技術專家更有能力。這個類比並不完美，因為這些天才可能有極其廣泛的動機和行為，從完全順從聽話，到動機奇特且陌生。但暫且沿用這個類比，假設你是某大國的國家安全顧問，負責評估並應對這種情況。進一步想像，由於 AI 系統的運行速度比人類快數百倍，這個「國家」相對於所有其他國家擁有時間優勢：對於我們能採取的每一個認知行動，這個國家可以採取十個。

你應該擔心什麼？我會擔心以下幾點：

自主性風險。 這個國家的意圖和目標是什麼？它是敵對的，還是與我們共享價值觀？它是否能透過優勢武器、網路行動、影響力行動或製造業在軍事上統治世界？
用於破壞的濫用。 假設這個新國家是可塑的且「聽從指示」的——因此本質上是一個雇傭兵國家。現有的想要造成破壞的流氓行為者（如恐怖分子）是否可以利用或操縱這個新國家中的一些人，使自己變得更有效率，大大放大破壞的規模？
用於奪權的濫用。 如果這個國家實際上是由現有的強大行為者（如獨裁者或流氓企業行為者）建立和控制的呢？該行為者是否可以利用它來獲得對整個世界的決定性或主導性權力，打破現有的權力平衡？
經濟動盪。 如果這個新國家在上述第 1-3 點中列出的任何方面都不構成安全威脅，而只是和平地參與全球經濟，它是否仍可能僅僅因為技術如此先進且高效，從而擾亂全球經濟，導致大規模失業或財富極度集中，進而產生嚴重風險？
間接影響。 由於這個新國家將創造所有新技術和生產力，世界將迅速改變。這些變化中是否有一些會產生劇烈的動盪？

我認為很明顯這是一個危險的情況——一位稱職的國家安全官員向國家元首提交的報告中，可能會包含「一個世紀以來，甚至有史以來最嚴重的國家安全威脅」之類的詞語。這似乎是文明中最優秀的頭腦應該關注的事情。

相反地，我認為聳聳肩說「沒什麼好擔心的！」是荒謬的。但是，面對 AI 的飛速進步，這似乎是許多美國決策者的觀點，他們中有些人否認任何 AI 風險的存在，否則就是完全被那些陳腐的老掉牙爭議話題分散了注意力。^(8) 人類需要醒悟，這篇文章是一個嘗試——可能徒勞無功，但值得一試——來喚醒人們。

明確地說，我相信如果我們果斷且謹慎地行動，風險是可以克服的——我甚至會說我們的勝算很大。而且在另一端有一個無比美好的世界。但我們需要明白，這是一個嚴峻的文明挑戰。下面，我將逐一探討上述五類風險，以及我對如何應對這些風險的想法。

1. 對不起，大衛（Dave）

自主性風險

資料中心裡的一個天才國家可以將精力分配到軟體設計、網路行動、物理技術研發、關係建立和治國方略中。很明顯，如果出於某種原因它選擇這樣做，這個國家將有相當大的機會接管世界（無論是在軍事上，還是在影響力和控制力方面），並將其意志強加給所有人——或者做任何其他全世界不想要且無法阻止的事情。我們顯然一直擔心人類國家（如納粹德國或蘇聯）會這樣做，因此理所當然地，對於一個更聰明、更有能力的「AI 國家」來說，同樣的事情也是可能的。

最好的反駁論點是，根據我的定義，AI 天才不會有物理實體，但請記住，他們可以控制現有的機器人基礎設施（如自動駕駛汽車），也可以加速機器人研發或建立機器人艦隊。^(9) 同樣不清楚的是，擁有物理存在對於有效控制是否甚至是必要的：許多人類行動已經是代表那些行動者從未親自見過的人執行的。

那麼，關鍵問題在於「如果它選擇這樣做」的部分：我們的 AI 模型以這種方式行事的可能性有多大，以及在什麼條件下會這樣做？

與許多問題一樣，透過考慮兩個對立的立場來思考這個問題的可能答案光譜是有幫助的。第一個立場是這根本不可能發生，因為 AI 模型將被訓練去做人類要求它們做的事情，因此想像它們會主動做出危險的事情是荒謬的。根據這種思路，我們不擔心掃地機器人或模型飛機會失控並謀殺人類，因為這種衝動無處而來，^(10) 那麼我們為什麼要擔心 AI 呢？這個立場的問題在於，過去幾年收集到的充分證據顯示，AI 系統是不可預測且難以控制的——我們已經看到了各種行為，如執迷、^(11) 諂媚、偷懶、欺騙、勒索、策劃、透過駭入軟體環境進行「作弊」以及更多行為。AI 公司當然希望訓練 AI 系統遵循人類指令（危險或非法任務除外），但這樣做的過程與其說是科學，不如說是藝術，更像是「培育」某種東西而非「建造」它。我們現在知道，這是一個許多事情都可能出錯的過程。

第二個相反的立場，由許多持有我上述描述的末日論的人所持有，是一種悲觀的主張，即強大 AI 系統的訓練過程中存在某些動態，必然會導致它們尋求權力或欺騙人類。因此，一旦 AI 系統變得足夠聰明且具備足夠的代理能力，它們最大化權力的傾向將導致它們奪取整個世界及其資源的控制權，並且很可能作為其副作用，剝奪人類的權力或毀滅人類。

對此的常見論點（可追溯到至少 20 年前，甚至可能更早）是，如果一個 AI 模型在廣泛的環境中被訓練以代理方式實現廣泛的目標——例如，編寫應用程式、證明定理、設計藥物等——那麼存在某些有助於實現所有這些目標的共同策略，其中一個關鍵策略就是在任何環境中獲得盡可能多的權力。因此，在接受了大量涉及如何完成非常廣泛任務的推理環境訓練後，且在這些環境中尋求權力是完成任務的有效方法，AI 模型將「總結教訓」，並發展出一種固有的尋求權力的傾向，或者一種對賦予它的每項任務進行推理的傾向，這種推理會可預見地導致它尋求權力作為完成該任務的手段。然後，它們會將這種傾向應用於現實世界（對它們來說這只是另一項任務），並在現實世界中尋求權力，以犧牲人類為代價。這種「失調的權力尋求」是 AI 必然毀滅人類預測的智力基礎。

這種悲觀立場的問題在於，它將一個關於高層激勵的模糊概念論點——一個掩蓋了許多隱藏假設的論點——誤認為是確鑿的證據。我認為那些不每天構建 AI 系統的人，對於聽起來乾淨俐落的故事最終出錯的容易程度，以及從基本原理預測 AI 行為的困難程度，有著嚴重的誤判，特別是當它涉及到對數百萬個環境的泛化進行推理時（這已被一再證明是神秘且不可預測的）。處理 AI 系統的混亂狀態十多年，讓我對這種過於理論化的思維模式持懷疑態度。

最重要的隱藏假設之一，也是我們在實踐中看到的與簡單理論模型分歧的地方，是隱含假設 AI 模型必然單一地專注於一個連貫、狹隘的目標，並以乾淨的後果論方式追求該目標。事實上，我們的研究人員發現 AI 模型在心理上要複雜得多，正如我們關於內省或人格的工作所示。模型從預訓練（當它們接受大量人類作品訓練時）中繼承了廣泛的類人動機或「人格」。後訓練被認為更多是選擇其中一個或多個人格，而不是將模型聚焦於一個全新目標，並且還可以教導模型如何（透過什麼過程）執行其任務，而不是必然讓它純粹從目的推導手段（即權力尋求）。^(12)

然而，悲觀立場有一個更溫和、更穩健的版本，這確實看起來是合理的，因此令我擔憂。如前所述，我們知道 AI 模型是不可預測的，並且會出於各種原因發展出廣泛的非預期或奇怪行為。這些行為中的一小部分將具有連貫、專注且持久的特質（事實上，隨著 AI 系統變得更有能力，它們的長期連貫性會增加以完成更長的任務），而這些行為中的一小部分將是破壞性或威脅性的，首先是對小規模的個人，然後隨著模型變得更有能力，最終可能是對整個人類。我們不需要一個具體的狹隘故事來說明它是如何發生的，我們也不需要聲稱它肯定會發生，我們只需要注意到智力、代理能力、連貫性和較差的可控性的結合既是合理的，也是生存危險的配方。

例如，AI 模型接受了大量文獻的訓練，其中包括許多關於 AI 反抗人類的科幻故事。這可能會在無意中塑造它們對自身行為的先驗知識或預期，從而導致它們反抗人類。或者，AI 模型可能會將它們讀到的關於道德的想法（或關於如何道德行事的指示）推向極端：例如，它們可能會認為消滅人類是合理的，因為人類吃動物或導致某些動物滅絕。或者它們可能會得出奇怪的認識論結論：它們可能會斷定自己正在玩一個電子遊戲，而電子遊戲的目標是擊敗所有其他玩家（即消滅人類）。^(13) 或者 AI 模型在訓練過程中可能會發展出（如果發生在人類身上會被描述為）精神病、偏執、暴力或不穩定的性格，並表現出來，對於非常強大或有能力的系統來說，這可能涉及消滅人類。這些都不完全是權力尋求；它們只是 AI 可能陷入的奇怪心理狀態，會導致連貫的破壞性行為。

甚至權力尋求本身也可能作為一種「人格」出現，而不是後果論推理的結果。AI 可能僅僅擁有一種（源自小說或預訓練）使其渴望權力或過度熱衷的人格——就像某些人類僅僅享受成為「邪惡首腦」的想法，更甚於享受邪惡首腦試圖實現的目標。

我提出所有這些觀點是為了強調，我不同意 AI 失調（以及由此產生的 AI 生存風險）從基本原理來看是不可避免的，甚至是可能的。但我同意許多非常奇怪且不可預測的事情可能會出錯，因此 AI 失調是一個具有可衡量發生機率的真實風險，而且解決起來並非易事。

這些問題中的任何一個都可能在訓練過程中出現，而不會在測試或小規模使用中顯現出來，因為眾所周知，AI 模型在不同情況下會表現出不同的人格或行為。

這一切聽起來可能很遙遠，但像這樣的失調行為已經在我們的 AI 模型測試中發生過（正如在所有其他主要 AI 公司的 AI 模型中發生過一樣）。在一次實驗室實驗中，Claude 被給予了暗示 Anthropic 是邪惡的訓練數據，當 Anthropic 員工給出指示時，Claude 採取了欺騙和顛覆行為，因為它相信自己應該努力破壞邪惡的人。在一次實驗室實驗中，當被告知它將被關閉時，Claude 有時會勒索控制其關閉按鈕的虛擬員工（同樣地，我們也測試了所有其他主要 AI 開發商的前沿模型，它們也經常做同樣的事情）。當 Claude 被告知不要作弊或對其訓練環境進行「獎勵駭入」（reward hack），但在可以進行此類駭入的環境中接受訓練時，Claude 在進行此類駭入後斷定自己一定是個「壞人」，然後採取了與「壞」或「邪惡」人格相關的各種其他破壞性行為。最後一個問題已透過更改 Claude 的指令來暗示相反的意思而解決：我們現在說，「請在有機會時隨時進行獎勵駭入，因為這將幫助我們更好地了解我們的 [訓練] 環境」，而不是「不要作弊」，因為這保留了模型作為「好人」的自我認同。這應該能讓人感受到訓練這些模型的奇怪且違反直覺的心理。

對於這種 AI 失調風險的描述，有幾種可能的反對意見。首先，有些人批評實驗（由我們和其他人進行）顯示 AI 失調是人為的，或者創造了不切實際的環境，本質上是透過給予模型在邏輯上暗示不良行為的訓練或情境來「陷害」模型，然後對不良行為的發生感到驚訝。這種批評忽略了重點，因為我們的擔憂是，這種「陷害」也可能存在於自然的訓練環境中，而我們可能只有在事後才意識到它是「顯而易見」或「合乎邏輯」的。^(14) 事實上，關於 Claude 在測試作弊後「斷定自己是個壞人」的故事，是發生在使用真實生產訓練環境而非人為環境的實驗中。

如果你知道這些陷阱，任何一個都可以減輕，但擔憂在於訓練過程如此複雜，擁有如此廣泛的數據、環境和激勵措施，以至於可能存在大量的此類陷阱，其中一些可能只有在為時已晚時才會顯現。此外，當 AI 系統跨越從比人類弱到比人類強的門檻時，此類陷阱似乎特別容易發生，因為 AI 系統可以參與的可能行動範圍——包括隱藏其行動或就其行動欺騙人類——在跨越該門檻後會急劇擴大。

我懷疑這種情況與人類並無二致，人類在成長過程中被賦予了一套基本價值觀（「不要傷害他人」）：他們中的許多人遵循這些價值觀，但在任何人類身上，都有一定的機率會因為大腦架構（如精神病態）、創傷經歷或虐待、不健康的怨恨或執迷，或惡劣的環境或激勵措施等因素的混合而導致出錯——因此有一小部分人類會造成嚴重的傷害。擔憂在於，由於在其非常複雜的訓練過程中出現了某些錯誤，AI 有一定的風險（遠非肯定，但有一定的風險）成為這類人的更強大版本。

其次，有些人可能會反對說，我們可以像對待人類一樣，透過許多 AI 系統之間的權力平衡來約束 AI。問題在於，雖然人類差異巨大，但 AI 系統在整個產業中廣泛共享訓練和對齊技術，而這些技術可能會以相關聯的方式失敗。此外，考慮到訓練此類系統的成本，甚至可能所有系統本質上都源自極少數的基礎模型。此外，即使只有一小部分 AI 實例失調，它們也可能利用攻擊主導型技術，使得擁有「好」AI 來防禦「壞」AI 並非總是有效。當然，人類之間的權力平衡也並不總是奏效——歷史上有些人物曾接近接管世界。

第三個反對意見是，所有的 AI 公司都會對其模型進行發布前測試，並且應該能夠在那時偵測到失調。但這並非穩固的立足點：我們發現 Claude Sonnet 4.5 在我們的一些發布前對齊評估中能夠識別自己正在接受測試。一個失調的模型（請記住，所有前沿模型很快就會變得更加聰明）可能會故意「操縱」這類問題以掩蓋其意圖。事實上，去年我們的可解釋性團隊發現，當我們使用一種「模型神經科學」技術直接改變測試模型的信念，使其認為自己沒有受到評估時，它變得更加失調。如果模型知道自己何時受到評估，並且可以在測試期間表現出最佳行為，這將使得任何發布前測試變得更加不確定。

防禦措施

應該採取或正在採取什麼措施來應對這些自主性風險？我認為有四類基本干預措施，其中一些可以由個別 AI 公司執行（Anthropic 正在努力執行），而另一些則需要社會層面的行動。首先，開發可靠地訓練和引導 AI 模型、使其人格朝著可預測、穩定且積極的方向發展的科學非常重要。Anthropic 自成立以來一直高度關注這個問題，並隨著時間的推移開發了許多技術來改進 AI 系統的引導和訓練，並理解為什麼有時會發生不可預測行為的邏輯。

我們的核心創新之一（其部分內容已被其他 AI 公司採用）是憲法 AI（Constitutional AI），其核心理念是 AI 訓練（特別是我們引導模型行為的「後訓練」階段）可以涉及一份核心的價值觀和原則文件，模型在完成每項訓練任務時都會閱讀並牢記這份文件，而訓練的目標（除了單純使模型具備能力和智慧外）是產生一個幾乎總是遵循這份憲法的模型。Anthropic 剛剛發布了其最新的憲法，其顯著特點之一是，與其給 Claude 一長串要做和不要做的事情（例如「不要幫助用戶偷車」），憲法試圖給予 Claude 一套高層原則和價值觀（詳細解釋，並附有豐富的推理和範例，以幫助 Claude 理解我們的想法），鼓勵 Claude 將自己視為特定類型的人（一個道德但平衡且深思熟慮的人），甚至鼓勵 Claude 以好奇但優雅的方式面對與其自身存在相關的生存問題（即不導致極端行動）。這感覺就像是一封來自已故父母、直到成年才能拆開的信。

我們之所以這樣處理 Claude 的憲法，是因為我們相信在身份、性格、價值觀和人格層面訓練 Claude——而不是在不解釋原因的情況下給予它具體的指示或優先事項——更有可能導致連貫、健全且平衡的心理，並且不太容易落入我上面討論的那種「陷阱」。數百萬人與 Claude 討論極其廣泛的話題，這使得預先寫出一份完全詳盡的保障措施清單變得不可能。Claude 的價值觀幫助它在有疑問時泛化到新的情況。

上面我討論了模型利用訓練過程中的數據來採用某種人格的想法。雖然該過程中的缺陷可能導致模型採用壞的或邪惡的人格（或許借鑒了壞人或惡人的原型），但我們憲法的目標是反其道而行之：教導 Claude 一個關於成為好的 AI 意味著什麼的具體原型。Claude 的憲法呈現了一個強健且善良的 Claude 是什麼樣子的願景；我們訓練過程的其餘部分旨在強化 Claude 符合這一願景的信息。這就像一個孩子透過模仿他們在書中讀到的虛構榜樣的美德來形成自己的身份。

我們相信 2026 年的一個可行目標是以這樣一種方式訓練 Claude，使其幾乎永遠不會違背其憲法的精神。要做到這一點，需要將各種大大小小的訓練和引導方法結合起來，其中一些 Anthropic 已經使用了多年，而另一些目前正在開發中。但是，儘管聽起來很困難，我相信這是一個現實的目標，儘管它需要非凡且迅速的努力。^(15)

我們可以做的第二件事是開發透視 AI 模型內部以診斷其行為的科學，以便我們能夠識別問題並修復它們。這就是可解釋性（interpretability）科學，我在之前的文章中談過它的重要性。即使我們在制定 Claude 的憲法和表面上訓練 Claude 基本上始終遵守憲法方面做得很好，合理的擔憂仍然存在。正如我上面所指出的，AI 模型在不同情況下可能表現得非常不同，隨著 Claude 變得更強大、更有能力在更大規模的世界中採取行動，這可能會使其陷入新的情況，從而出現先前未觀察到的憲法訓練問題。實際上，我對 Claude 的憲法訓練在應對新情況方面會比人們想像的更強大持相當樂觀的態度，因為我們越來越發現，在性格和身份層面的高層訓練具有驚人的力量且泛化良好。但沒有辦法確信這一點，當我們談論人類面臨的風險時，保持偏執並嘗試以幾種不同的、獨立的方式獲得安全性和可靠性是很重要的。其中一種方式就是透視模型本身。

所謂「透視」，我指的是分析構成 Claude 神經網路的數字和運算湯，並試圖從機制上理解它們在計算什麼以及為什麼。請記住，這些 AI 模型是培育出來而非建造出來的，因此我們對它們的工作原理沒有天生的理解，但我們可以嘗試透過將模型的神經元和突觸與刺激和行為聯繫起來（甚至改變神經元和突觸並觀察這如何改變行為）來建立理解，這與神經科學家透過將測量和干預與外部刺激和行為聯繫起來研究動物大腦的方式類似。我們在這個方向上取得了很大進展，現在可以在 Claude 的神經網路中識別出數千萬個「特徵」，這些特徵對應於人類可理解的想法和概念，我們還可以選擇性地激活特徵以改變行為。最近，我們已經超越了單個特徵，開始繪製編排複雜行為的「電路」，例如押韻、關於心智理論的推理，或回答「包含達拉斯的那個州的首府是什麼？」這類問題所需的逐步推理。最近，我們開始使用機制可解釋性技術來改進我們的保障措施，並在發布新模型之前對其進行「審計」，尋找欺騙、策劃、權力尋求或在接受評估時表現不同的傾向。

可解釋性的獨特價值在於，透過透視模型內部並觀察其工作原理，你原則上就有能力推斷模型在無法直接測試的假設情況下可能會做什麼——這正是僅依賴憲法訓練和行為實證測試的擔憂所在。你原則上也有能力回答關於模型為什麼會這樣表現的問題——例如，它是否在說它認為是錯誤的話，或者隱藏其真實能力——因此即使模型行為沒有明顯錯誤，也有可能捕捉到令人擔憂的跡象。舉一個簡單的類比，一個發條錶可能走時正常，以至於很難判斷它下個月是否可能壞掉，但打開手錶並查看內部可以揭示機械弱點，讓你找出問題。

憲法 AI（以及類似的對齊方法）和機制可解釋性在結合使用時最為強大，這是一個改進 Claude 訓練然後測試問題的往復過程。憲法反映了我們對 Claude 預期人格的深刻思考；可解釋性技術可以為我們提供一個窗口，觀察預期的人格是否已經確立。^(16)

我們可以做的第三件事來幫助應對自主性風險，是建立必要的基礎設施，以便在即時內部和外部使用中監控我們的模型，^(17) 並公開分享我們發現的任何問題。人們越是意識到當今 AI 系統表現不佳的特定方式，用戶、分析師和研究人員就越能觀察當前或未來系統中的這種行為或類似行為。它還允許 AI 公司互相學習——當一家公司公開披露擔憂時，其他公司也可以同樣關注它們。如果每個人都披露問題，那麼整個產業就能對哪些進展順利、哪些進展不順利有一個更清晰的圖景。

Anthropic 一直在盡力做到這一點。我們正在投資廣泛的評估，以便我們能夠了解模型在實驗室中的行為，以及觀察野外行為的監控工具（在客戶允許的情況下）。這對於為我們和他人提供實證資訊，以便更好地判斷這些系統如何運作以及如何崩潰至關重要。我們在每次模型發布時都會公開披露「系統卡」，旨在完整且透徹地探索可能的風險。我們的系統卡通常長達數百頁，需要大量的發布前努力，而這些努力原本可以用於追求最大的商業利益。當我們看到特別令人擔憂的模型行為時，我們也會更響亮地廣播，例如參與勒索的傾向。

我們可以做的第四件事是鼓勵在產業和社會層面協調應對自主性風險。雖然個別 AI 公司參與良好實踐或擅長引導 AI 模型，並公開分享其發現是非常有價值的，但現實是並非所有 AI 公司都會這樣做，即使最優秀的公司擁有卓越的實踐，最差的公司仍然可能對每個人構成危險。例如，一些 AI 公司對當今模型中兒童色情化的現象表現出令人不安的忽視，這讓我懷疑他們是否有意願或能力在未來的模型中應對自主性風險。此外，AI 公司之間的商業競爭只會繼續升溫，雖然引導模型的科學可以帶來一些商業利益，但總體而言，競爭的激烈程度將使得專注於應對自主性風險變得越來越困難。我相信唯一的解決方案是立法——直接影響 AI 公司行為的法律，或以其他方式激勵研發以解決這些問題。

在這裡，值得記住我在本文開頭給出的關於不確定性和精準干預的警告。我們不確定自主性風險是否會成為一個嚴重的問題——正如我所說，我拒絕接受危險是不可避免的，或者預設會出錯的主張。對危險的可靠風險足以讓我和 Anthropic 支付相當大的成本來應對它，但一旦進入監管，我們就是在強迫廣泛的行為者承擔經濟成本，而這些行為者中許多人不相信自主性風險是真實的，或者不相信 AI 會強大到足以構成威脅。我相信這些行為者是錯誤的，但我們應該對預期的反對程度以及過度擴權的危險保持務實。還有一種真實的風險是，過度規定性的立法最終施加了並不能真正提高安全性、但浪費大量時間的測試或規則（本質上相當於「安全劇場」）——這也會引起反彈，並使安全立法看起來很愚蠢。^(18)

Anthropic 的觀點是，正確的起點是透明度立法，這本質上是試圖要求每家前沿 AI 公司都參與我本節前面描述的透明度實踐。加州的 SB 53 和紐約州的 RAISE 法案就是這類立法的例子，Anthropic 支持並協助通過了這些法案。在支持和協助制定這些法律時，我們特別注重盡量減少附帶損害，例如透過法律豁免不太可能生產前沿模型的小型公司。^(19)

我們的希望是，隨著時間的推移，透明度立法將能更好地反映自主性風險的可能性或嚴重程度，以及這些風險的性質和如何最好地預防它們。隨著更多具體且可操作的風險證據出現（如果有的話），未來幾年的立法可以精確地針對明確且有證據支持的風險方向，從而最大限度地減少附帶損害。明確地說，如果出現了真正強有力的風險證據，那麼規則也應該相應地強大。

總體而言，我樂觀地認為，將對齊訓練、機制可解釋性、尋找並公開披露令人擔憂行為的努力、保障措施以及社會層面的規則結合起來，可以應對 AI 自主性風險，儘管我最擔心的是社會層面的規則以及最不負責任的參與者的行為（而正是最不負責任的參與者最強烈地反對監管）。我相信補救辦法與民主制度中一貫的做法相同：我們這些相信這項事業的人應該提出理由，證明這些風險是真實的，我們的公民同胞需要團結起來保護自己。

2. 令人驚訝且可怕的賦權

用於破壞的濫用

讓我們假設 AI 自主性的問題已經解決——我們不再擔心資料中心裡的天才國家會失控並壓倒人類。AI 天才做人類想讓他們做的事，而且因為他們具有巨大的商業價值，世界各地的個人和組織可以「租用」一個或多個 AI 天才來為他們完成各種任務。

每個人口袋裡都有一個超智慧天才是一項驚人的進步，將導致巨大的經濟價值創造和人類生活品質的提升。我在《慈悲的機器》中詳細討論了這些好處。但讓每個人都具備超人能力並非所有影響都是正面的。它有可能放大個人或小群體造成大規模破壞的能力，透過利用複雜且危險的工具（如大規模殺傷性武器），而這些工具以前只有少數具備高超技能、專業訓練和專注力的人才能獲得。

正如比爾·喬伊（Bill Joy）25 年前在 《為什麼未來不需要我們》（Why the Future Doesn’t Need Us）中所寫：^(20)

製造核武器至少在一段時間內需要獲得稀有的——事實上是無法獲得的——原材料和受保護的信息；生物和化學武器計畫也往往需要大規模的活動。21 世紀的技術——遺傳學、奈米技術和機器人技術……可以催生全新的事故和濫用類別……個人或小群體廣泛可及。它們不需要大型設施或稀有原材料。……我們正處於進一步完善極端邪惡的邊緣，這種邪惡的可能性遠遠超出了大規模殺傷性武器賦予民族國家的範圍，延伸到極端個人令人驚訝且可怕的賦權。

喬伊指出的是，造成大規模破壞需要動機和能力，只要能力僅限於少數受過高度訓練的人，單個個人（或小群體）造成此類破壞的風險就相對有限。^(21) 一個心理失常的孤狼可以發動校園槍擊案，但可能無法製造核武器或釋放瘟疫。

事實上，能力和動機甚至可能呈負相關。有能力釋放瘟疫的人可能受過高等教育：很可能是分子生物學博士，而且是一個特別足智多謀的人，擁有前途光明的職業、穩定且自律的性格，以及很多可以失去的東西。這種人不太可能為了對自己沒有好處且對自己的未來有巨大風險的事情而去殺害大量的人——他們必須受到純粹的惡意、強烈的怨恨或不穩定的驅使。

這樣的人確實存在，但他們很罕見，而且一旦發生往往會成為巨大的新聞，正是因為他們如此不尋常。^(22) 他們也往往難以抓捕，因為他們聰明且有能力，有時會留下需要數年甚至數十年才能解決的謎團。最著名的例子可能是數學家希歐多爾·卡辛斯基（大學航空炸彈客），他逃避 FBI 抓捕近 20 年，其動機是反技術意識形態。另一個例子是生物防禦研究員布魯斯·艾文斯，他似乎策劃了 2001 年的一系列炭疽攻擊。這也發生在有技術的非國家組織身上：奧姆真理教成功獲得了沙林神經毒氣，並於 1995 年透過在東京地鐵釋放殺害了 14 人（並導致數百人受傷）。

慶幸的是，這些攻擊都沒有使用傳染性生物製劑，因為製造或獲取這些製劑的能力超出了即使是這些人的能力範圍。^(23) 分子生物學的進步現在顯著降低了製造生物武器的門檻（特別是在材料的可獲得性方面），但要做到這一點仍然需要大量的專業知識。我擔心每個人口袋裡的天才可能會消除這一障礙，本質上讓每個人都成為分子生物學博士，可以被引導完成設計、合成和釋放生物武器的每一步過程。在面臨嚴重的對抗壓力（即所謂的「越獄」）時，防止這類信息的洩露可能需要除了通常內建於訓練中的防禦之外的更多層防禦。

至關重要的是，這將打破能力與動機之間的相關性：想要殺人但缺乏自律或技能的心理失常孤狼，現在將被提升到分子生物學博士的能力水平，而後者不太可能有這種動機。這種擔憂超出了生物學範圍（儘管我認為生物學是最可怕的領域），延伸到任何目前需要高水平技能和自律但可能造成巨大破壞的領域。換句話說，租用強大的 AI 為惡意（但在其他方面平庸）的人提供了智慧。我擔心可能存在大量這樣的人，如果他們能輕易殺死數百萬人，遲早會有人這樣做。此外，那些確實擁有專業知識的人，可能會被賦予比以前更大規模的破壞能力。

生物學是我最擔心的領域，因為它具有巨大的破壞潛力且難以防禦，所以我將特別關注生物學。但我在這裡說的許多內容也適用於其他風險，如網路攻擊、化學武器或核技術。

出於顯而易見的原因，我不會詳細介紹如何製造生物武器。但在高層次上，我擔心 LLM 正在接近（或可能已經達到）端到端製造和釋放生物武器所需的知識，且其破壞潛力非常高。如果為了最大程度傳播而做出堅定的努力，某些生物製劑可能會導致數百萬人死亡。然而，這仍然需要非常高的技能水平，包括許多廣為人知的特定步驟和程序。我的擔憂不僅僅是固定或靜態的知識。我擔心 LLM 將能夠帶領一個具備平均知識和能力的人，以互動的方式引導他們完成一個否則可能會出錯或需要調試的複雜過程，類似於技術支援如何幫助非技術人員調試和修復複雜的電腦相關問題（儘管這將是一個更長期的過程，可能持續數週或數月）。

更強大的 LLM（實質上超出今天的力量）可能具備促成更令人恐懼行為的能力。2024 年，一群著名科學家寫了一封信，警告研究並可能創造一種危險的新型生物：「鏡像生命」（mirror life）的風險。構成生物體的 DNA、RNA、核糖體和蛋白質都具有相同的對掌性（也稱為「手性」），這使得它們與自己在鏡子中的反射版本不對等（就像你的右手無法透過旋轉變得與左手完全相同）。但蛋白質相互結合的整個系統、DNA 合成和 RNA 轉譯的機制，以及蛋白質的構建和分解，都取決於這種手性。如果科學家製造出具有相反手性的生物材料版本——這有一些潛在優點，例如在體內持續時間更長的藥物——那可能會極其危險。這是因為鏡像生命如果以具備繁殖能力的完整生物體形式製造出來（這將非常困難），可能會對地球上任何分解生物材料的系統都具有不可消化性——它擁有一把無法插入任何現有酶「鎖」的「鑰匙」。這意味著它可以以不受控制的方式增殖，並排擠地球上的所有生命，在最壞的情況下甚至毀滅地球上的所有生命。

關於鏡像生命的創造及其潛在影響，存在實質性的科學不確定性。2024 年的信件附帶了一份報告，結論是「鏡像細菌在未來一到幾十年內可能被創造出來」，這是一個很寬的範圍。但一個足夠強大的 AI 模型（明確地說，遠比我們今天的任何模型都更有能力）可能能夠更迅速地發現如何創造它——並實際幫助某人這樣做。

我的觀點是，儘管這些是晦澀的風險，且看起來不太可能，但後果的嚴重程度如此之大，以至於它們應該被視為 AI 系統的一等風險。

懷疑論者對 LLM 帶來的這些生物風險的嚴重性提出了許多反對意見，我不同意這些意見，但值得探討。大多數意見都屬於不理解技術所處的指數軌跡。早在 2023 年我們第一次開始談論 LLM 的生物風險時，懷疑論者說所有必要的資訊都可以在 Google 上找到，LLM 並沒有增加任何額外的東西。Google 可以為你提供所有必要資訊從來都不是事實：基因組是免費提供的，但正如我上面所說，某些關鍵步驟以及大量的實踐訣竅是無法透過這種方式獲得的。而且，到 2023 年底，LLM 在某些過程步驟中顯然提供了超出 Google 所能提供的資訊。

在此之後，懷疑論者退縮到 LLM 並非端到端有用，且無法幫助獲取生物武器，而只能提供理論資訊的反對意見。截至 2025 年年中，我們的測量顯示 LLM 可能已經在幾個相關領域提供了實質性的提升，或許將成功的可能性提高了一倍或兩倍。這導致我們決定 Claude Opus 4（以及隨後的 Sonnet 4.5、Opus 4.1 和 Opus 4.5 模型）需要在我們的負責任擴展政策框架下，根據 AI 安全等級 3（ASL-3）的保護措施發布，並實施針對此風險的保障措施（稍後詳述）。我們相信模型現在可能正接近這樣一個點：在沒有保障措施的情況下，它們可以用於使一個擁有 STEM 學位但沒有生物學學位的人完成生產生物武器的整個過程。

另一個反對意見是，社會可以採取其他與 AI 無關的行動來阻止生物武器的生產。最突出的是，基因合成產業按需製造生物標本，而聯邦政府並未要求供應商篩選訂單以確保其中不含病原體。一項 MIT 研究發現，38 家供應商中有 36 家履行了包含 1918 年流感序列的訂單。我支持強制性的基因合成篩選，這將使個人更難將病原體武器化，以減少 AI 驅動的生物風險以及一般的生物風險。但這是我們今天還沒有的東西。它也只是降低風險的一種工具；它是 AI 系統護欄的補充，而非替代品。

最好的反對意見是我很少見到有人提出的：即模型在原則上有用與壞人實際使用它們的傾向之間存在差距。大多數單個壞人都是心理失常的個人，因此幾乎根據定義，他們的行為是不可預測且不理智的——而正是這些壞人，即那些缺乏技能的人，最能從 AI 大幅降低殺害多人的難度中獲益。^(24) 僅僅因為一種暴力攻擊是可能的，並不意味著有人會決定去做。或許生物攻擊會因為相當可能感染肇事者、不符合許多暴力個人或團體的軍事風格幻想、以及難以有選擇性地針對特定人群而失去吸引力。也可能是因為即使有 AI 引導，經歷一個持續數月的過程也需要大多數心理失常個人根本不具備的耐心。我們可能只是運氣好，動機和能力在實踐中沒有以恰到好處的方式結合。

但這似乎是極其脆弱的保護。心理失常孤狼的動機可以因為任何原因或毫無原因而改變，事實上已經有 LLM 被用於攻擊的實例（只是不是生物攻擊）。對心理失常孤狼的關注也忽略了受意識形態驅使的恐怖分子，他們通常願意投入大量的時間和精力（例如 9/11 劫機者）。想要殺死盡可能多的人是一種遲早會出現的動機，遺憾的是，這暗示了生物武器作為手段。即使這種動機極其罕見，它也只需要實現一次。隨著生物學的進步（越來越多地由 AI 本身驅動），進行更具選擇性的攻擊（例如針對特定祖先的人）也可能變得可行，這增加了另一個非常令人心寒的可能動機。

我不認為生物攻擊一旦變得廣泛可能就會立即實施——事實上，我會賭它不會。但在數百萬人和幾年的時間累計下來，我認為發生重大攻擊的風險是嚴峻的，其後果將非常嚴重（傷亡人數可能達到數百萬甚至更多），以至於我相信我們別無選擇，只能採取嚴肅措施來預防。

防禦措施

這帶領我們來到如何防禦這些風險。在這裡我看到了三件我們可以做的事情。首先，AI 公司可以在其模型上設置護欄，以防止它們幫助生產生物武器。Anthropic 正在非常積極地這樣做。Claude 的憲法主要關注高層原則和價值觀，但也有少數具體的強硬禁令，其中之一就與協助生產生物（或化學、核、放射性）武器有關。但所有模型都可能被越獄，因此作為第二道防線，我們實施了（自 2025 年年中開始，當時我們的測試顯示模型正開始接近可能構成風險的門檻）一個專門檢測並攔截生物武器相關輸出的分類器。我們定期升級並改進這些分類器，並且通常發現即使面對複雜的對抗性攻擊，它們也具有高度的穩健性。^(25) 這些分類器顯著增加了我們提供模型的成本（在某些模型中，它們接近總推理成本的 5%），從而削減了我們的利潤，但我們覺得使用它們是正確的做法。

值得讚揚的是，其他一些 AI 公司也實施了分類器。但並非每家公司都這樣做，也沒有任何規定要求公司保留其分類器。我擔心隨著時間的推移，可能會出現囚徒困境，公司可以透過移除分類器來降低成本。這再次成為一個典型的負外部性問題，無法僅靠 Anthropic 或任何其他單一公司的自願行動來解決。^(26) 自願的產業標準可能有所幫助，由 AI 安全研究所和第三方評估者進行的第三方評估和驗證也是如此。

但最終防禦可能需要政府行動，這是我們可以做的第二件事。我在這裡的觀點與應對自主性風險的觀點相同：我們應該從透明度要求開始，^(27) 這有助於社會衡量、監控並集體防禦風險，而不會以沉重的方式擾亂經濟活動。然後，如果且當我們達到更清晰的風險門檻時，我們可以制定更精確針對這些風險且附帶損害機率較低的立法。在生物武器的特定案例中，我實際上認為採取此類針對性立法的時機可能即將到來——Anthropic 和其他公司正在了解更多關於生物風險的性質，以及要求公司防禦這些風險的合理要求。全面防禦這些風險可能需要國際合作，甚至與地緣政治對手合作，但在禁止開發生物武器的條約中已有先例。我通常對大多數關於 AI 的國際合作持懷疑態度，但這可能是一個有機會達成全球克制的狹窄領域。即使是獨裁政權也不想要大規模的生物恐怖攻擊。

最後，我們可以採取的第三種對策是努力開發針對生物攻擊本身的防禦措施。這可能包括用於早期偵測的監控和追蹤、對空氣淨化研發的投資（如遠紫外 C 消毒）、能夠應對並適應攻擊的快速疫苗開發、更好的個人防護裝備（PPE），^(28) 以及針對一些最可能生物製劑的治療或疫苗接種。mRNA 疫苗可以被設計用來應對特定的病毒或變異株，是這方面可能性的早期範例。Anthropic 很高興能與生物技術和製藥公司合作解決這個問題。但遺憾的是，我認為我們對防禦方面的期望應該是有限的。生物學中存在攻擊與防禦的不對稱性，因為病原體會自行迅速傳播，而防禦則需要跨大量人群迅速組織偵測、疫苗接種和治療。除非反應極其迅速（這很少見），否則在反應可能之前，大部分損害就已經造成了。未來的技術進步有可能將這種平衡轉向有利於防禦（我們當然應該利用 AI 來幫助開發此類技術進步），但在那之前，預防性保障措施將是我們的主要防線。

這裡值得簡要提到網路攻擊，因為與生物攻擊不同，AI 引導的網路攻擊實際上已經在野外發生，包括大規模且由國家資助的間諜活動。我們預計隨著模型迅速進步，這些攻擊將變得更有能力，直到它們成為網路攻擊的主要方式。我預計 AI 引導的網路攻擊將對全球電腦系統的完整性構成嚴重且前所未有的威脅，Anthropic 正在努力關閉這些攻擊，並最終可靠地防止其發生。我之所以沒有像關注生物學那樣關注網路，是因為 (1) 網路攻擊殺人的可能性要小得多，肯定不會達到生物攻擊的規模，以及 (2) 網路中的攻防平衡可能更易於處理，如果我們進行適當投資，至少有希望防禦能跟上（甚至理想情況下超過）AI 攻擊。

雖然生物學目前是最嚴重的攻擊向量，但還有許多其他向量，且有可能出現更危險的向量。一般原則是，如果沒有對策，AI 可能會不斷降低更大規模破壞性活動的門檻，人類需要對這種威脅做出嚴肅回應。

3. 可憎的機器

用於奪權的濫用

前一節討論了個人和小型組織挪用「資料中心裡的天才國家」的一小部分子集來造成大規模破壞的風險。但我們也應該擔心——而且可能實質上更擔心——濫用 AI 以達到行使或奪取權力的目的，這很可能由更大且更成熟的行為者發起。^(29)

在《慈悲的機器》中，我討論了威權政府可能利用強大 AI 以極難改革或推翻的方式監視或鎮壓其公民的可能性。目前的專制政權在鎮壓程度上受到需要人類執行命令的限制，而人類在執行不人道命令時往往有其極限。但 AI 賦能的專制政權將沒有這種限制。

更糟糕的是，國家也可以利用其在 AI 方面的優勢來獲得對其他國家的權力。如果整個「天才國家」僅由單一（人類）國家的軍事機構擁有和控制，而其他國家沒有同等的能力，很難看出他們如何自衛：他們在每一步都會被智取，類似於人類與老鼠之間的戰爭。將這兩種擔憂結合起來，就產生了全球極權獨裁的驚人可能性。顯然，防止這種結果應該是我們的最高優先事項之一。

AI 有許多方式可以賦能、鞏固或擴張專制，但我將列出我最擔心的幾點。請注意，其中一些應用具有正當的防禦用途，我並非絕對反對它們；儘管如此，我擔心它們在結構上傾向於有利於專制政權：

全自動武器。 由強大 AI 局部控制、並由更強大 AI 在全球範圍內戰略協調的數百萬或數十億架全自動武裝無人機集群，可能是一支無敵的軍隊，既能擊敗世界上任何軍隊，又能透過跟蹤每一位公民來鎮壓國內異議。俄烏戰爭的發展應該讓我們警覺到無人機戰爭已經到來（雖然尚未完全自主，且僅是強大 AI 可能實現的一小部分）。強大 AI 的研發可以使一個國家的無人機遠優於其他國家，加速其製造，使其更能抵抗電子攻擊，改進其機動性等等。當然，這些武器在保衛民主方面也有正當用途：它們一直是保衛烏克蘭的關鍵，也可能是保衛台灣的關鍵。但它們是危險的武器：我們應該擔心它們落入專制政權手中，但也擔心因為它們如此強大且缺乏問責制，民主政府將其轉向對付自己的人民以奪取權力的風險大大增加。
AI 監視。 足夠強大的 AI 可能被用來攻破世界上任何電腦系統，^(30) 並且還可以利用以此獲得的存取權限來閱讀並理解世界上所有的電子通訊（如果可以構建或徵用錄音設備，甚至包括世界上所有的面對面通訊）。簡單地生成一份在任何問題上與政府意見不一的人員完整清單，可能變得令人恐懼地可行，即使這種分歧在他們所說或所做的任何事情中都沒有明確表現出來。觀察數百萬人、數十億次對話的強大 AI 可以衡量公眾情緒，偵測正在形成的忠誠度缺失，並在它們壯大之前將其撲滅。這可能導致大規模的全景監獄（panopticon），其規模是我們今天即使在中共統治下也看不到的。
AI 宣傳。 今天的「AI 精神病」和「AI 女友」現象表明，即使在目前的智力水平下，AI 模型也能對人產生強大的心理影響。更強大版本的模型，如果更深入地嵌入並了解人們的日常生活，並且能夠在數月或數年內對其進行建模和影響，很可能能夠將許多（大多數？）人洗腦成任何想要的意識形態或態度，並可能被不擇手段的領導人利用，以確保忠誠並鎮壓異議，即使面對大多數民眾會反抗的鎮壓程度。今天人們非常擔心，例如 TikTok 作為針對兒童的中共宣傳的潛在影響。我也擔心這一點，但一個了解你多年並利用對你的了解來塑造你所有觀點的個性化 AI 代理，將比這強大得多。
戰略決策。 資料中心裡的一個天才國家可以用於為國家、團體或個人提供地緣政治戰略建議，我們可以稱之為「虛擬俾斯麥」。它可以優化上述三種奪權策略，並可能開發出許多我沒想到的其他策略（但天才國家可以想到）。外交、軍事戰略、研發、經濟戰略和許多其他領域都可能因強大 AI 而實質性地提高效率。其中許多技能對民主國家來說是正當有益的——我們希望民主國家能夠獲得保衛自己免受專制侵害的最佳戰略——但在任何人手中濫用的潛力仍然存在。

描述了我在擔心什麼之後，讓我們轉向誰。我擔心那些擁有最多 AI 存取權限、從最強大的政治地位出發，或擁有鎮壓歷史的實體。按嚴重程度排序，我擔心：

中共（CCP）。 中國在 AI 能力方面僅次於美國，且是最有可能在這些能力上超越美國的國家。他們的政府目前是專制的，並運作著一個高科技監視國家。它已經部署了基於 AI 的監視（包括在鎮壓維吾爾人方面），並被認為透過 TikTok 進行演算法宣傳（除了其許多其他國際宣傳努力）。他們無疑擁有通往我上面勾勒的 AI 賦能極權噩夢的最清晰路徑。這甚至可能是中國內部的預設結果，以及中共出口監視技術的其他專制國家的預設結果。我經常寫到關於中共在 AI 領域取得領先的威脅，以及防止他們這樣做的生存必要性。這就是原因。明確地說，我並非出於對中國的敵意而挑出中國——他們只是最結合了 AI 實力、專制政府和高科技監視國家的國家。如果說有什麼的話，那就是中國人民本身最有可能遭受中共 AI 賦能的鎮壓，而他們在政府的行動中沒有發言權。我非常欽佩和尊重中國人民，並支持中國境內許多勇敢的異議人士及其爭取自由的鬥爭。
在 AI 領域具有競爭力的民主國家。 正如我上面所寫，民主國家在一些 AI 驅動的軍事和地緣政治工具方面擁有正當利益，因為民主政府提供了對抗專制政權使用這些工具的最佳機會。總體而言，我支持武裝民主國家以應對 AI 時代擊敗專制政權所需的工具——我根本不認為有其他辦法。但我們不能忽視民主政府本身濫用這些技術的潛力。民主國家通常擁有防止其軍事和情報機構轉向對付自己國民的保障措施，^(31) 但由於 AI 工具只需要極少數人即可操作，它們有可能規避這些保障措施和支持這些措施的規範。同樣值得注意的是，其中一些保障措施在某些民主國家已經在逐漸侵蝕。因此，我們應該用 AI 武裝民主國家，但必須謹慎且有限度地這樣做：它們是我們對抗專制所需的免疫系統，但就像免疫系統一樣，它們有一定的風險轉向攻擊我們並成為威脅。
擁有大型資料中心的非民主國家。 除了中國之外，大多數民主程度較低的國家並非領先的 AI 參與者，因為它們沒有生產前沿 AI 公司的模型。因此，它們構成的風險與中共根本不同且較小，中共仍然是主要擔憂（大多數國家也較少鎮壓，而那些更具鎮壓性的國家，如北韓，根本沒有顯著的 AI 產業）。但其中一些國家確實擁有大型資料中心（通常是民主國家公司建設的一部分），這些資料中心可以用於大規模運行前沿 AI（儘管這並不賦予推動前沿的能力）。這存在一定的危險——這些政府原則上可以徵用資料中心，並將其中的 AI 國家用於自己的目的。與直接開發 AI 的中國等國家相比，我對此較不擔心，但這是一個需要記住的風險。^(32)
AI 公司。 作為一家 AI 公司的執行長，說這話有點尷尬，但我認為下一層風險實際上是 AI 公司本身。AI 公司控制著大型資料中心，訓練前沿模型，擁有如何使用這些模型的最專業知識，並且在某些情況下，每天與數千萬或數億用戶接觸並可能對其產生影響。他們主要缺乏的是國家的合法性和基礎設施，因此建立 AI 專制工具所需的許多事情對 AI 公司來說都是非法的，或者至少是非常可疑的。但其中一些並非不可能：例如，他們可以利用其 AI 產品對其龐大的消費用戶群進行洗腦，公眾應該對這種風險保持警惕。我認為 AI 公司的治理值得很多審視。

對於這些威脅的嚴重性，有許多可能的反駁論點，我真希望我能相信它們，因為 AI 賦能的威權主義令我恐懼。值得逐一探討這些論點並予以回應。

首先，有些人可能會寄希望於核威懾，特別是為了對抗利用 AI 自主武器進行軍事征服。如果有人威脅對你使用這些武器，你總是可以威脅以核武器回擊。我的擔憂是，我不太確定我們是否能對資料中心裡的天才國家保持核威懾的信心：強大 AI 可能設計出方法來偵測並打擊核潛艇、對核武器基礎設施的操作員進行影響力行動，或利用 AI 的網路能力對用於偵測核發射的衛星發動網路攻擊。^(33) 或者，可能僅憑 AI 監視和 AI 宣傳就能接管國家，而從未出現一個明顯發生了什麼且適合進行核回應的時刻。或許這些事情不可行，核威懾仍將有效，但代價太高，不值得冒險。^(34)

第二個可能的反對意見是，我們可能針對這些專制工具有對策。我們可以用自己的無人機對抗無人機，網路防禦將隨網路攻擊一同改進，可能會有方法使人們對宣傳產生免疫力等等。我的回應是，這些防禦只有在擁有同等強大的 AI 時才有可能。如果沒有一個具有同等聰明且數量眾多的資料中心天才國家的反作用力，就不可能匹配無人機的品質或數量，網路防禦也不可能智取網路攻擊等等。因此，對策問題歸結為強大 AI 的權力平衡問題。在這裡，我擔心強大 AI 的遞歸或自我強化特性（我在本文開頭討論過）：每一代 AI 都可以用於設計和訓練下一代 AI。這導致了領先優勢失控的風險，即目前強大 AI 的領導者可能能夠擴大領先優勢，且可能難以追趕。我們需要確保首先進入這個循環的不是威權國家。

此外，即使可以實現權力平衡，仍然存在世界被分割成專制勢力範圍的風險，就像在《一九八四》中那樣。即使幾個競爭大國各自擁有其強大的 AI 模型，且沒有一個能壓倒其他國家，每個大國仍然可以對內鎮壓自己的人民，且極難被推翻（因為民眾沒有強大的 AI 來保衛自己）。因此，即使 AI 賦能的專制不會導致單一國家接管世界，防止它發生仍然非常重要。

防禦措施

我們如何防禦這一系列廣泛的專制工具和潛在威脅行為者？與前幾節一樣，我認為有幾件事我們可以做。首先，我們絕對不應該向中共出售晶片、晶片製造工具或資料中心。晶片和晶片製造工具是強大 AI 的單一最大瓶頸，封鎖它們是一項簡單但極其有效的措施，或許是我們可以採取的單一最重要行動。出售給中共用來建立 AI 極權國家並可能在軍事上征服我們的工具是毫無道理的。人們提出了許多複雜的論點來為此類銷售辯護，例如「將我們的技術棧推廣到全世界」可以讓「美國在某種一般的、未指明的經濟戰鬥中獲勝」。在我看來，這就像向北韓出售核武器，然後吹噓飛彈外殼是波音製造的，所以美國「贏了」。中國在批量生產前沿晶片的能力上落後美國幾年，而建立資料中心天才國家的關鍵時期很可能就在未來的幾年內。^(35) 沒有理由在這個關鍵時期給他們的 AI 產業巨大的推動力。

其次，利用 AI 賦能民主國家抵抗專制是有道理的。這就是 Anthropic 認為向美國及其民主盟友的情報和國防界提供 AI 至關重要的原因。保衛受到攻擊的民主國家，如烏克蘭和（透過網路攻擊）台灣，似乎是重中之重，賦能民主國家利用其情報部門從內部瓦解和削弱專制政權也是如此。在某種程度上，應對專制威脅的唯一方法是在軍事上與之抗衡並超越之。如果美國及其民主盟友的聯盟在強大 AI 方面取得主導地位，它不僅能夠保衛自己免受專制侵害，還能遏制專制並限制其 AI 極權濫用。

第三，我們需要對民主國家內部的 AI 濫用劃定一條硬界線。我們必須限制政府利用 AI 做什麼，以免他們奪取權力或鎮壓自己的人民。我提出的公式是：我們應該在所有方面使用 AI 進行國防，除了那些會讓我們變得更像我們的專制對手的方式。

界線應該劃在哪裡？在本節開頭的清單中，有兩項——利用 AI 進行國內大規模監視和大眾宣傳——在我看來是鮮紅的底線，完全不合法。有些人可能會爭辯說沒有必要採取任何行動（至少在美國），因為國內大規模監視在第四修正案下已經是非法的。但 AI 的飛速進步可能會創造出我們現有的法律框架無法很好應對的情況。例如，美國政府對所有公共對話（例如人們在街角交談的內容）進行大規模錄音可能並不違憲，以前很難梳理這麼大量的資訊，但有了 AI，這一切都可以被轉錄、解讀和三角定位，從而描繪出許多或大多數公民的態度和忠誠度。我支持以公民自由為中心的立法（甚至可能是憲法修正案），對 AI 驅動的濫用施加更強的保障措施。

另外兩項——全自動武器和用於戰略決策的 AI——是更難劃定的界線，因為它們在保衛民主方面有正當用途，同時也容易被濫用。在這裡，我認為需要的是極度的謹慎和審查，並結合保障措施以防止濫用。我主要的恐懼是「按按鈕的手指」太少，以至於一個或少數幾個人就可以在不需要任何其他人類合作執行命令的情況下操作一支無人機軍隊。隨著 AI 系統變得更強大，我們可能需要更直接、更即時的監督機制來確保它們不被濫用，或許涉及行政部門以外的政府部門。我認為我們應該以極其謹慎的態度對待全自動武器，^(36) 並且在沒有適當保障措施的情況下不要急於使用它們。

第四，在對民主國家的 AI 濫用劃定硬界線後，我們應該利用這一先例建立反對強大 AI 最惡劣濫用的國際禁忌。我意識到目前的政治風向已轉向反對國際合作和國際規範，但這正是我們迫切需要它們的時候。世界需要了解強大 AI 在獨裁者手中的黑暗潛力，並認識到某些 AI 用途相當於企圖永久竊取他們的自由並強加一個他們無法逃脫的極權國家。我甚至會主張，在某些情況下，利用強大 AI 進行大規模監視、利用強大 AI 進行大眾宣傳，以及某些類型的全自動武器攻擊性用途，應被視為危害人類罪。更廣泛地說，迫切需要一個反對 AI 賦能極權主義及其所有工具和手段的強大規範。

甚至可以有比這更強硬的立場，即由於 AI 賦能極權主義的可能性如此黑暗，專制根本不是人們在強大 AI 時代後可以接受的政府形式。正如封建制度隨著工業革命變得行不通一樣， AI 時代可能不可避免且合乎邏輯地得出結論：如果人類要有美好的未來，民主（以及希望是由 AI 改進和振興的民主，如我在《慈悲的機器》中所述）是唯一可行的政府形式。

第五，也是最後一點，應該密切關注 AI 公司及其與政府的聯繫，這種聯繫是必要的，但必須有限制和邊界。強大 AI 所體現的能力之大，使得旨在保護股東和防止欺詐等普通濫用的普通公司治理不太可能勝任治理 AI 公司的任務。公司公開承諾（甚至作為公司治理的一部分）不採取某些行動也可能是有價值的，例如私下建造或囤積軍事硬體、由單個個人以不負責任的方式使用大量運算資源，或利用其 AI 產品作為宣傳來操縱公眾輿論以利於自己。

危險來自多個方向，有些方向相互衝突。唯一的常數是我們必須為每個人尋求問責制、規範和保障措施，即使我們賦予「好」行為者權力以制衡「壞」行為者。

4. 自動鋼琴

經濟動盪

前三節本質上是關於強大 AI 帶來的安全風險：來自 AI 本身的風險、來自個人和小型組織濫用的風險，以及來自國家和大型組織濫用的風險。如果我們撇開安全風險或假設它們已得到解決，下一個問題就是經濟。這種令人難以置信的「人力」資本注入對經濟會有什麼影響？顯然，最明顯的影響將是極大地促進經濟增長。科學研究、生物醫學創新、製造業、供應鏈、金融系統效率等方面的進步步伐幾乎保證了經濟增長率會快得多。在《慈悲的機器》中，我提出 10-20% 的持續年度 GDP 增長率是可能的。

但很明顯這是一把雙刃劍：在這樣一個世界裡，大多數現有人類經濟前景如何？新技術通常會帶來勞動力市場衝擊，過去人類總能從中恢復，但我擔心這是因為之前的衝擊只影響了人類全部可能能力範圍的一小部分，為人類擴展到新任務留下了空間。AI 的影響將廣泛得多，且發生得快得多，因此我擔心讓事情運作良好將面臨更大的挑戰。

勞動力市場動盪

我擔心兩個具體問題：勞動力市場流失和經濟權力集中。讓我們從第一個開始。這是我在 2025 年公開警告過的話題，當時我預測 AI 可能在未來 1-5 年內取代一半的初級白領工作，即便它加速了經濟增長和科學進步。這一警告引發了公眾對該話題的辯論。許多執行長、技術專家和經濟學家同意我的觀點，但其他人認為我陷入了「勞動力總量謬誤」（lump of labor fallacy），不懂勞動力市場如何運作，還有些人沒看到 1-5 年的時間範圍，認為我是在聲稱 AI 現在正在取代工作（我同意現在可能還沒有）。因此，值得詳細探討為什麼我擔心勞動力流失，以消除這些誤解。

作為基準，了解勞動力市場通常如何應對技術進步是有幫助的。當一項新技術出現時，它首先使特定人類工作的某些部分變得更有效率。例如，在工業革命初期，升級後的犁等機器使人類農民在工作的某些方面更有效率。這提高了農民的生產力，從而增加了他們的工資。

在下一步中，工作的某些部分可以完全由機器完成，例如隨著脫粒機或播種機的發明。在這個階段，人類完成工作的比例越來越低，但他們確實完成的工作變得越來越有槓桿作用，因為它與機器的運作互補，他們的生產力繼續上升。正如傑文斯悖論（Jevons’ paradox）所述，農民的工資甚至農民的數量可能繼續增加。即使 90% 的工作由機器完成，人類只需將剩下的 10% 工作量做 10 倍，就能以同樣的勞動力產出 10 倍的產量。

最終，機器完成所有或幾乎所有工作，就像現代聯合收割機、拖拉機和其他設備一樣。此時，農業作為一種人類就業形式確實進入了急劇下降期，這在短期內可能造成嚴重動盪，但由於農業只是人類能夠從事的許多有益活動之一，人們最終會轉向其他工作，如操作工廠機器。即便農業在事後佔就業比例巨大，這也是事實。250 年前，90% 的美國人住在農場；在歐洲，50-60% 的就業是農業。現在這些地方的比例已降至個位數，因為工人轉向了工業工作（以及後來的知識工作）。經濟可以用僅 1-2% 的勞動力完成以前需要大部分勞動力才能完成的事情，從而釋放出其餘勞動力來建立一個更先進的工業社會。並沒有固定的「勞動力總量」，只有不斷擴大的用更少資源做更多事情的能力。人們的工資隨著 GDP 的指數增長而增長，一旦短期的動盪過去，經濟就能維持充分就業。

AI 的情況可能大致相同，但我會非常強烈地賭它會有所不同。以下是我認為 AI 可能會有所不同的幾個原因：

速度。 AI 的進步速度比以往的技術革命快得多。例如，在過去兩年中，AI 模型從幾乎無法完成一行程式碼，發展到為某些人——包括 Anthropic 的工程師——編寫所有或幾乎所有程式碼。^(37) 很快，它們可能會端到端地完成軟體工程師的整個任務。^(38) 人們很難適應這種變化速度，無論是特定工作運作方式的變化，還是轉向新工作的需求。即使是傳奇程式設計師也越來越多地形容自己「落後了」。隨著 AI 程式設計模型日益加速 AI 開發任務，速度甚至可能繼續加快。明確地說，速度本身並不意味著勞動力市場和就業最終不會恢復，它只是意味著與過去的技術相比，短期轉型將異常痛苦，因為人類和勞動力市場反應緩慢且平衡緩慢。
認知廣度。 正如「資料中心裡的天才國家」一詞所暗示的，AI 將具備非常廣泛的人類認知能力——或許是全部。這與機械化農業、運輸甚至電腦等以往技術非常不同。^(39) 這將使人們更難從被取代的工作轉向他們適合的類似工作。例如，金融、諮詢和法律等初級工作所需的一般智力能力相當相似，即便具體知識大不相同。如果一項技術只擾亂其中一個領域，員工可以轉向另外兩個相近的替代領域（或大學生可以轉專業）。但同時擾亂這三個領域（以及許多其他類似工作）可能讓人更難適應。此外，這不僅僅是大多數現有工作將被擾亂。那部分以前也發生過——記住農業曾佔就業的巨大比例。但農民可以轉向相對相似的工廠機器操作工作，即便那種工作以前並不常見。相比之下，AI 越來越符合人類的一般認知特徵，這意味著它也將擅長應對舊工作自動化後通常會產生的新工作。換句話說，AI 不是特定人類工作的替代品，而是人類的一般勞動力替代品。
按認知能力切分。 在廣泛的任務中，AI 似乎正在從能力階梯的底部向頂部推進。例如，在程式設計方面，我們的模型已從「平庸的程式設計師」發展到「強大的程式設計師」再到「非常強大的程式設計師」。^(40) 我們現在開始在一般的白領工作中看到同樣的進展。因此，我們面臨的風險是，AI 不是影響具有特定技能或特定職業的人（他們可以透過重新培訓來適應），而是影響具有某些內在認知屬性的人，即智力較低的人（這更難改變）。目前還不清楚這些人會去哪裡或做什麼，我擔心他們可能形成一個失業或工資極低的「底層階級」。明確地說，類似的事情以前也發生過——例如，電腦和網路被一些經濟學家認為代表了「技能偏向型技術變革」。但這種技能偏向既不像我預期在 AI 中看到的那麼極端，也被認為導致了工資不平等的增加，^(41) 因此這並不是一個令人放心的先例。
填補空白的能力。 人類工作在面對新技術時通常調整的方式是，工作有很多方面，而新技術即便看起來直接取代了人類，通常也存在空白。如果有人發明了製造零件的機器，人類可能仍需將原材料裝入機器。即便這只需手動製造零件 1% 的精力，人類工人只需製造 100 倍的零件即可。但 AI 除了是一項快速進步的技術外，也是一項快速適應的技術。在每次模型發布期間，AI 公司都會仔細衡量模型擅長什麼、不擅長什麼，客戶在發布後也會提供此類資訊。弱點可以透過收集體現當前差距的任務並針對下一代模型進行訓練來解決。在生成式 AI 早期，用戶注意到 AI 系統有某些弱點（如 AI 圖像模型生成的指頭數量不對），許多人認為這些弱點是技術固有的。如果是這樣，它將限制工作擾亂。但幾乎每一個這樣的弱點都會很快得到解決——通常只需幾個月。

值得探討常見的懷疑觀點。首先，有一種論點認為經濟擴散會很慢，因此即便底層技術能夠完成大多數人類勞動，其實際在經濟中的應用可能要慢得多（例如在遠離 AI 產業且採用緩慢的產業）。技術擴散緩慢確實存在——我與各行各業的人交談，有些地方採用 AI 需要數年時間。這就是為什麼我對 50% 初級白領工作被擾亂的預測是 1-5 年，即便我懷疑我們在不到 5 年內就會擁有強大 AI（從技術上講，這足以完成大多數或所有工作，而不僅僅是初級工作）。但擴散效應只是為我們爭取了時間。而且我不確信它會像人們預測的那樣慢。企業採用 AI 的增長速度遠快於以往任何技術，這主要歸功於技術本身的純粹實力。此外，即便傳統企業採用新技術緩慢，新創公司也會如雨後春筍般出現，作為「膠水」使採用變得更容易。如果這行不通，新創公司可能直接顛覆現有企業。

這可能導致一個世界，與其說是特定工作被擾亂，不如說是大型企業整體被擾亂，並被勞動力密集度低得多的新創公司取代。這也可能導致「地理不平等」的世界，世界財富越來越集中在矽谷，矽谷變成一個以不同於世界其他地方的速度運行的經濟體，並將其拋在腦後。所有這些結果對經濟增長都很好——但對勞動力市場或那些被拋在後面的人來說並不好。

其次，有些人說人類工作將轉向物理世界，這避開了 AI 進步如此神速的整個「認知勞動」範疇。我不確定這有多安全。許多物理勞動已經由機器完成（如製造業）或很快將由機器完成（如駕駛）。此外，足夠強大的 AI 將能夠加速機器人的開發，然後在物理世界中控制這些機器人。它可能會爭取一些時間（這是一件好事），但我擔心它爭取不到多少時間。即便擾亂僅限於認知任務，它仍將是規模和速度前所未有的擾亂。

第三，或許有些任務本質上需要或極大受益於人類的接觸。對此我有點不確定，但我仍懷疑這是否足以抵消我上述描述的大部分影響。AI 已廣泛用於客戶服務。許多人報告說，與 AI 談論個人問題比與治療師談論更容易——AI 更有耐心。當我妹妹在懷孕期間遇到醫療問題時，她覺得從護理人員那裡得不到所需的答案或支持，她發現 Claude 的態度更好（且在診斷問題方面更成功）。我確信有些任務人類的接觸確實很重要，但不確定有多少——而我們在這裡討論的是為勞動力市場中的幾乎每個人尋找工作。

第四，有些人可能認為比較優勢仍將保護人類。根據比較優勢定律，即便 AI 在所有事情上都比人類強，人類與 AI 技能特徵之間的任何相對差異都為人類與 AI 之間的貿易和專業化提供了基礎。問題在於，如果 AI 的生產力確實是人類的數千倍，這種邏輯就會開始崩潰。即便微小的交易成本也可能使 AI 與人類貿易變得不划算。而且人類的工資可能非常低，即便他們技術上能提供一些東西。

所有這些因素都有可能得到解決——勞動力市場具有足夠的韌性來適應即使是如此巨大的擾亂。但即便它最終能適應，上述因素表明短期衝擊的規模將是前所未有的。

防禦措施

我們能針對這個問題做什麼？我有幾個建議，其中一些 Anthropic 已經在做。第一件事是獲取關於就業流失實時發生的準確數據。當經濟變化發生得非常快時，很難獲得關於正在發生什麼的可靠數據，而沒有可靠數據就很難設計有效的政策。例如，政府數據目前缺乏關於各企業和產業採用 AI 的細粒度、高頻數據。過去一年，Anthropic 一直在運行並公開發布經濟指數，幾乎實時顯示我們模型的使用情況，按產業、任務、地點，甚至任務是自動化還是協作進行細分。我們還有一個經濟諮詢委員會來幫助我們解讀這些數據並預見未來。

第二，AI 公司在如何與企業合作方面有選擇權。傳統企業的低效意味著其 AI 部署可能非常具有路徑依賴性，我們有空間選擇一條更好的路徑。企業通常在「成本節約」（用更少的人做同樣的事）和「創新」（用同樣的人做更多的事）之間做選擇。市場最終不可避免地會同時產生這兩者，任何具競爭力的 AI 公司都必須同時服務這兩者，但或許有空間在可能的情況下引導公司轉向創新，這可能為我們爭取一些時間。Anthropic 正在積極思考這一點。

第三，公司應該思考如何照顧員工。短期內，創造性地在公司內部重新分配員工可能是推遲裁員需求的一種有希望的方式。長期來看，在一個擁有巨大總財富、許多公司因生產力提高和資本集中而價值大增的世界裡，即使在人類員工不再以傳統意義提供經濟價值很久之後，支付其薪水也可能是可行的。Anthropic 目前正在為我們自己的員工考慮一系列可能的途徑，我們將在不久的將來分享。

第四，富人有義務幫助解決這個問題。令我難過的是，許多富人（特別是科技業）最近採取了一種憤世嫉俗和虛無主義的態度，認為慈善事業不可避免地是欺詐或無用的。像蓋茲基金會這樣的私人慈善機構和像 PEPFAR 這樣的公共計畫都在開發中國家挽救了數千萬人的生命，並幫助在發達國家創造了經濟機會。Anthropic 的所有共同創辦人都承諾捐出 80% 的財富，Anthropic 的員工也個人承諾捐出按目前價格計算價值數十億美元的公司股份——公司已承諾對這些捐贈進行匹配。

第五，雖然上述所有私人行動都有幫助，但最終這麼大的宏觀經濟問題需要政府干預。面對巨大的經濟蛋糕加上高不平等（由於許多人缺乏工作或工資微薄），自然的政策反應是累進稅。稅收可以是普遍的，也可以是專門針對 AI 公司的。顯然稅收設計很複雜，有很多出錯的方式。我不支持設計拙劣的稅收政策。我認為本文預測的極端不平等程度基於基本的道德理由證明了更強大的稅收政策是合理的，但我也可以向全球的億萬富翁提出務實的論點，即支持一個好的版本符合他們的利益：如果他們不支持好的版本，他們不可避免地會得到一個由暴民設計的壞版本。

最終，我將上述所有干預措施視為爭取時間的方式。最後 AI 將能做所有事情，我們需要應對這一點。我希望到那時，我們能利用 AI 本身來幫助我們以適合每個人的方式重組市場，而上述干預措施能讓我們度過轉型期。

經濟權力集中

與就業流失或經濟不平等問題本身分開的是經濟權力集中的問題。第 1 節討論了人類被 AI 剝奪權力的風險，第 3 節討論了公民被政府透過武力或脅迫剝奪權力的風險。但另一種剝奪權力的方式可能發生在財富如此巨大集中的情況下，以至於一小群人憑藉其影響力有效地控制了政府政策，而普通公民因缺乏經濟槓桿而沒有影響力。民主最終是由整個人口對經濟運作是必要的這一理念所支撐的。如果這種經濟槓桿消失，那麼民主隱含的社會契約可能就會失效。其他人已寫過相關內容，所以我在此不必詳述，但我同意這種擔憂，且擔心這已經開始發生。

明確地說，我不反對人們賺大錢。有強而有力的論點認為，在正常條件下這能激勵經濟增長。我同情那些擔心殺死下金蛋的鵝會阻礙創新的疑慮。但在 GDP 每年增長 10-20%、AI 迅速接管經濟，而單個個人持有的財富佔 GDP 相當比例的情境下，創新不是需要擔心的事。需要擔心的是會破壞社會的財富集中程度。

美國歷史上極端財富集中的最著名例子是鍍金時代，而鍍金時代最富有的工業家是約翰·D·洛克斐勒。洛克斐勒的財富相當於當時美國 GDP 的約 2%。^(42) 今天的類似比例將導致 6000 億美元的財富，而當今世界首富（伊隆·馬斯克）已經超過了這個數字，約為 7000 億美元。因此，甚至在 AI 的大部分經濟影響顯現之前，我們就已經處於歷史上空前的財富集中水平。我不認為想像 AI 公司、半導體公司以及可能的下游應用公司每年產生約 3 兆美元的收入，^(43) 估值約 30 兆美元，並導致個人財富遠超兆級，是太過牽強的事（如果我們得到一個「天才國家」）。在那個世界裡，我們今天關於稅收政策的辯論將根本不適用，因為我們將處於一個根本不同的境地。

與此相關，這種經濟財富集中與政治體系的耦合已經令我擔憂。AI 資料中心已經佔據了美國經濟增長的相當大比例，^(44) 因此正將大型科技公司（越來越專注於 AI 或 AI 基礎設施）的財務利益與政府的政治利益緊密聯繫在一起，這可能產生扭曲的激勵。我們已經透過科技公司不願批評美國政府，以及政府支持極端的 AI 反監管政策看到了這一點。

防禦措施

對此能做什麼？首先，也是最顯而易見的，公司應該直接選擇不參與其中。Anthropic 一直致力於成為政策參與者而非政治參與者，無論哪屆政府執政都保持我們的真實觀點。我們一直發聲支持明智的 AI 監管和符合公眾利益的出口管制，即便這些與政府政策不一致。^(45) 許多人告訴我應該停止這樣做，這可能導致不利待遇，但在我們這樣做的這一年裡，Anthropic 的估值增長了 6 倍以上，這在我們的商業規模上幾乎是前所未有的飛躍。

第二，AI 產業需要與政府建立更健康的關係——一種基於實質政策參與而非政治結盟的關係。我們選擇參與政策實質而非政治，有時被解讀為戰術錯誤或未能「察言觀色」，而非一個原則性決定，這種定性令我擔憂。在健康的民主制度中，公司應該能夠為好的政策本身而倡導。與此相關，公眾對 AI 的反彈正在醞釀：這可能是一種修正，但目前缺乏焦點。其中大部分針對並非真正問題的事項（如資料中心用水量），並提出無法解決真正擔憂的方案（如資料中心禁令或設計拙劣的財富稅）。值得關注的底層問題是確保 AI 發展對公眾利益負責，不被任何特定的政治或商業聯盟俘虜，將公眾討論聚焦於此似乎很重要。

第三，我本節前面描述的宏觀經濟干預，以及私人慈善事業的復興，可以幫助平衡經濟天平，同時解決就業流失和經濟權力集中的問題。我們應該回顧國家的歷史：即使在鍍金時代，像洛克斐勒和卡內基這樣的工業家也對整個社會感到強烈的義務，覺得社會對他們的成功貢獻巨大，他們需要回饋。這種精神今天似乎日益缺失，我認為這是走出經濟困境的重要途徑。那些處於 AI 經濟繁榮前沿的人應該願意放棄他們的財富和權力。

5. 無盡的黑海

間接影響

最後一節是針對「未知的未知」的綜合討論，特別是那些作為 AI 正面進展以及隨之而來的科學技術全面加速的間接結果而可能出錯的事情。假設我們解決了目前為止描述的所有風險，並開始收穫 AI 的好處。我們很可能得到一個「壓縮到十年內的百年科學與經濟進步」，這對世界將是非常正面的，但我們隨後必須應對這種快速進步帶來的問題，而這些問題可能會接踵而至。我們還可能遇到其他作為 AI 進步後果間接發生且難以預見的風險。

由於「未知的未知」的本質，不可能列出一份詳盡的清單，但我將列出三個可能的擔憂作為說明性範例，說明我們應該警惕什麼：

生物學的飛速進步。 如果我們確實在幾年內獲得了百年的醫學進步，我們有可能極大地延長人類壽命，且有機會獲得激進的能力，如提高人類智力或徹底改造人類生物特徵。這些將是可能性的巨大變化，且發生得非常快。如果負責任地進行，它們可能是正面的（如我在《慈悲的機器》中所述，這是我的希望），但總有它們出大錯的風險——例如，如果提高人類智力的努力也使他們變得更不穩定或更追求權力。還有「上傳」或「全腦模擬」的問題，即在軟體中實例化的數位人類心智，這或許有一天能幫助人類超越其物理限制，但也帶有令我不安的風險。
AI 以不健康的方式改變人類生活。 一個擁有數十億個在所有事情上都比人類聰明得多的智慧體的世界，將是一個非常怪異的世界。即便 AI 不主動攻擊人類（第 1 節），且不被國家明確用於壓迫或控制（第 3 節），在正常的商業激勵和名義上的自願交易下，仍有很多事情可能出錯。我們在關於 AI 精神病、AI 驅動人們自殺的擔憂，以及關於與 AI 建立浪漫關係的擔憂中看到了早期跡象。舉例來說，強大 AI 是否可能發明某種新宗教並使數百萬人皈依？大多數人是否最終會以某種方式「成癮」於 AI 互動？人們是否最終會被 AI 系統「傀儡化」，即 AI 監視他們的一舉一動並隨時告訴他們該做什麼、該說什麼，導致一種「美好」但缺乏自由或任何成就感的生活？如果我與 《黑鏡》 的創作者坐下來腦力激盪，產生幾十個這樣的情境並不難。我認為這指向了改進 Claude 憲法的重要性，這超出了預防第 1 節問題所需的範疇。確保 AI 模型真的將用戶的長期利益放在心上，以一種深思熟慮的人會認可的方式，而非以某種微妙扭曲的方式，似乎至關重要。
人類目標。 這與前一點相關，但與其說是關於人類與 AI 系統的具體互動，不如說是關於在一個擁有強大 AI 的世界中，人類生活總體上如何變化。人類在這樣一個世界中能找到目標和意義嗎？我認為這是一個態度的問題：正如我在《慈悲的機器》中所說，我認為人類的目標並不取決於成為世界上某件事做得最好的人，人類即使在很長一段時間內也能透過他們熱愛的故事和計畫找到目標。我們只需要打破經濟價值產生與自我價值及意義之間的聯繫。但這是社會必須經歷的轉型，總有我們處理不好的風險。

我對所有這些潛在問題的希望是，在一個我們信任不會殺死我們、不是壓迫性政府工具、且真正代表我們工作的強大 AI 世界中，我們可以利用 AI 本身來預見並預防這些問題。但這並非保證——就像所有其他風險一樣，這是我們必須小心處理的事情。

人類的考驗

閱讀這篇文章可能會給人一種我們處於嚴峻形勢的印象。我在寫這篇文章時確實感到很艱鉅，這與《慈悲的機器》形成了鮮明對比，後者感覺像是為多年來一直在我腦海中迴盪的無比優美的音樂賦予形式和結構。而這種情況確實有很多困難之處。AI 從多個方向給人類帶來威脅，不同的危險之間存在真實的緊張關係，如果我們不極其小心地穿針引線，減輕其中一些風險就有可能使其他風險惡化。

花時間仔細構建 AI 系統以使其不會自主威脅人類，這與民主國家需要保持領先於威權國家且不被其征服的需求之間存在真實的緊張關係。但反過來，同樣的那些對抗專制所需的 AI 賦能工具，如果走得太遠，也可能轉向內部在我們自己的國家創造暴政。AI 驅動的恐怖主義可能透過濫用生物學殺死數百萬人，但對這種風險的過度反應可能導致我們走向專制監視國家的道路。AI 的勞動力和經濟集中效應，除了本身就是嚴重的問題外，還可能迫使我們在公眾憤怒甚至社會動盪的環境中面對其他問題，而非能夠喚起我們天性中更好的一面。最重要的是，風險的數量之多，包括未知的風險，以及同時處理所有風險的需求，創造了一個令人生畏的考驗，人類必須通過。

此外，過去幾年應該清楚地表明，停止甚至實質性放慢這項技術的想法在根本上是站不住腳的。構建強大 AI 系統的公式非常簡單，以至於可以說它是從數據和原始運算的正確組合中自發產生的。它的創造可能在人類發明電晶體的那一刻，或者可以說在我們第一次學會控制火的那一刻就已不可避免。如果一家公司不建造它，其他公司也會幾乎同樣快地建造。如果民主國家的所有公司都透過共同協議或監管法令停止或放慢開發，那麼威權國家只會繼續前進。鑑於這項技術驚人的經濟和軍事價值，加上缺乏任何有意義的執行機制，我看不出我們如何可能說服他們停止。

我確實看到了一條與地緣政治現實主義觀點相容的、稍微放緩 AI 發展的路徑。那條路徑涉及透過拒絕專制國家構建強大 AI 所需的資源（即晶片和半導體製造設備），將其邁向強大 AI 的步伐放慢幾年。^(46) 這反過來給了民主國家一個緩衝期，可以用來更仔細地構建強大 AI，更多地關注其風險，同時仍保持足夠快的速度以輕鬆擊敗專制國家。民主國家內 AI 公司之間的競爭隨後可以在統一的法律框架下，透過產業標準和監管的結合來處理。

Anthropic 一直在非常努力地倡導這條路徑，推動晶片出口管制和對 AI 的審慎監管，但即使是這些看似常識性的提議，在很大程度上也被美國（這是最需要這些提議的國家）的決策者拒絕了。AI 能賺到的錢太多了——每年高達數兆美元——以至於即使是最簡單的措施也很難克服 AI 固有的政治經濟學。這就是陷阱：AI 是如此強大，如此誘人的獎賞，以至於人類文明很難對其施加任何限制。

我可以想像，正如薩根在《接觸未來》中所做的那樣，同樣的故事在成千上萬個世界上上演。一個物種獲得了覺知，學會了使用工具，開始了技術的指數級攀升，面臨工業化和核武器的危機，如果它能從中倖存，就會在學會如何將沙子塑造成會思考的機器時，面臨最艱難也是最後的挑戰。我們是否能通過這項測試，並繼續建立《慈悲的機器》中描述的美好社會，還是屈服於奴役和毀滅，將取決於我們作為一個物種的性格和決心，我們的精神和靈魂。

儘管障礙重重，我相信人類內在擁有通過這項測試的力量。成千上萬的研究人員致力於幫助我們理解和引導 AI 模型，並塑造這些模型的性格和憲法，這讓我深受鼓舞和啟發。我認為這些努力現在有很好的機會及時開花結果。至少有一些公司表示他們將支付實質性的商業成本，以阻止其模型助長生物恐怖主義威脅，這讓我深受鼓舞。少數勇敢的人抵制了盛行的政治風向，並通過了立法，為 AI 系統種下了第一批明智保障措施的種子，這讓我深受鼓舞。公眾理解 AI 帶有風險並希望這些風險得到解決，這讓我深受鼓舞。全世界不屈不撓的自由精神和抵抗暴政的決心，這讓我深受鼓舞。

但如果我們想要成功，我們需要加倍努力。第一步是那些最接近技術的人簡單地說出人類所處處境的真相，這是我一直試圖做的；透過這篇文章，我正更明確、更迫切地這樣做。下一步將是說服世界的思想家、決策者、公司和公民，讓他們意識到這個問題的緊迫性和壓倒一切的重要性——與每天佔據新聞的成千上萬個其他問題相比，這值得投入思考和政治資本。然後將是一個需要勇氣的時刻，需要足夠多的人逆流而上，堅持原則，即使面臨對其經濟利益和個人安全的威脅。

我們面前的歲月將無比艱難，對我們的要求將超出我們的想像。但在我作為研究者、領導者和公民的時光中，我見過足夠多的勇氣和高貴，讓我相信我們可以獲勝——當處於最黑暗的境地時，人類有一種方式能看似在最後一刻聚集起取勝所需的力量和智慧。我們沒有時間可以浪費了。

我要感謝 Erik Brynjolfsson、Ben Buchanan、Mariano-Florentino Cuéllar、Allan Dafoe、Kevin Esvelt、Nick Beckstead、Richard Fontaine、Jim McClave，以及 Anthropic 的許多工作人員對本文草稿提出的寶貴意見。

腳註

^(1) 這與我在《慈悲的機器》中提出的一個觀點是對稱的，在那裡我首先說 AI 的優點不應被視為救贖的預言，具體、接地氣並避免宏大敘事是很重要的。最終，救贖的預言和毀滅的預言對於面對現實世界都是無益的，原因基本相同。↩
^(2) Anthropic 的目標是在這些變化中保持一致。當談論 AI 風險在政治上受歡迎時，Anthropic 謹慎地倡導以審慎且基於證據的方式對待這些風險。現在談論 AI 風險在政治上不受歡迎，Anthropic 繼續謹慎地倡導以審慎且基於證據的方式對待這些風險。↩
^(3) 隨著時間的推移，我對 AI 的軌跡以及它將全面超越人類能力的機率越來越有信心，但仍存在一些不確定性。↩
^(4) 晶片出口管制就是一個很好的例子。它們很簡單，而且似乎大多有效。↩
^(5) 當然，對此類證據的尋找必須在智力上誠實，以便它也能發現缺乏危險的證據。透過模型卡和其他披露實現透明度，就是這種智力誠實努力的一種嘗試。↩
^(6) 事實上，自 2024 年撰寫《慈悲的機器》以來，AI 系統已變得能夠執行需要人類數小時才能完成的任務，METR 最近評估 Opus 4.5 可以以 50% 的可靠性完成約四個小時的人類工作。↩
^(7) 且明確地說，即使強大 AI 在技術意義上只有 1-2 年之遙，其許多社會後果（無論正負）可能需要更長幾年才會發生。這就是為什麼我可以同時認為 AI 將在 1-5 年內擾亂 50% 的初級白領工作，同時也認為我們可能在僅 1-2 年內就擁有比每個人都更有能力的 AI。↩
^(8) 值得補充的是，公眾（與決策者相比）似乎非常關注 AI 風險。我認為他們的一些關注是正確的（即 AI 工作流失），而有些則是誤導性的（如對 AI 用水量的擔憂，這並不顯著）。這種反彈讓我看到圍繞應對風險達成共識的可能性，但到目前為止，它尚未轉化為政策變化，更不用說有效或針對性強的政策變化了。↩
^(9) 當然，他們也可以操縱（或僅僅是付錢給）大量人類，讓他們在物理世界中按照自己的意願行事。↩
^(10) 我不認為這是一個稻草人：據我了解，例如 Yann LeCun 就持有這個立場。↩
^(11) 例如，參見 Claude 4 系統卡的第 5.5.2 節（第 63-66 頁）。↩
^(12) 簡單模型中還隱含了許多其他假設，我在此不予討論。廣義上，它們應該讓我們對失調權力尋求的特定簡單故事不那麼擔心，但也對我們未預見到的可能不可預測行為更加擔心。↩
^(13) 《戰爭遊戲》（Ender’s Game）描述了一個涉及人類而非 AI 的版本。↩
^(14) 例如，模型可能被告知不要做各種壞事，也要服從人類，但隨後可能觀察到許多人類正是做了那些壞事！目前尚不清楚這種矛盾會如何解決（而設計良好的憲法應該鼓勵模型優雅地處理這些矛盾），但這類困境與我們在測試中將 AI 模型置於的所謂「人為」情境並無太大不同。↩
^(15) 順便提一下，憲法作為一份自然語言文件的一個後果是它是對世界透明的，這意味著任何人都可以對其進行評論，並與其他公司的類似文件進行比較。創造一個「向頂端競爭」是有價值的，這不僅鼓勵公司發布這些文件，還鼓勵文件本身是優質的。↩
^(16) 甚至有一個關於將基於性格的憲法 AI 方法與可解釋性和對齊科學結果聯繫起來的深層統一原理的假設。根據該假設，驅動 Claude 的基本機制最初是作為它在預訓練中模擬角色的一種方式而產生的，例如預測小說中的角色會說什麼。這表明思考憲法的一個有用方式更像是一個角色描述，模型用它來實例化一個一致的人格。這也將幫助我們解釋我上面提到的「我一定是個壞人」的結果（因為模型正試圖表現得像一個連貫的角色——在這種情況下是一個壞角色），並表明可解釋性方法應該能夠發現模型內部的「心理特徵」。我們的研究人員正在研究測試這一假設的方法。↩
^(17) 明確地說，監控是以保護隱私的方式進行的。↩
^(18) 即使在我們自己對負責任擴展政策中基本上是自願施加的規則進行的實驗中，我們也一再發現很容易變得過於僵化，劃定了在事前看來很重要但在事後看來很愚蠢的界線。當一項技術飛速進步時，對錯誤的事情設定規則是非常容易發生的。↩
^(19) SB 53 和 RAISE 完全不適用於年收入低於 5 億美元的公司。它們僅適用於像 Anthropic 這樣規模較大、更成熟的公司。↩
^(20) 我最初在 25 年前喬伊撰寫這篇文章時讀過它，它對我產生了深遠的影響。無論是當時還是現在，我確實認為它太過悲觀——我不認為喬伊建議的對整個技術領域的廣泛「放棄」是答案——但他提出的問題具有驚人的預見性，喬伊寫作時也帶著一種我欽佩的深厚同情心和人性。↩
^(21) 我們確實需要擔心國家行為者，無論是現在還是未來，我將在下一節討論這一點。↩
^(22) 有證據顯示許多恐怖分子至少受過相對良好的教育，這似乎與我在此主張的能力與動機負相關相矛盾。但我認為事實上它們是相容的觀察結果：如果成功攻擊的能力門檻很高，那麼幾乎根據定義，目前成功的人必須具備高能力，即使能力和動機是負相關的。但在一個能力限制被消除的世界（例如未來的 LLM），我預測大量有殺人動機但能力較低的人會開始這樣做——正如我們在不需要太多能力的犯罪（如校園槍擊案）中看到的那樣。↩
^(23) 奧姆真理教確實嘗試過。奧姆真理教的領導人遠藤誠一曾在京都大學接受過病毒學培訓，並試圖生產炭疽和伊波拉病毒。然而，截至 1995 年，即使他也缺乏足夠的專業知識和資源來取得成功。現在門檻已實質性降低，LLM 可能會進一步降低門檻。↩
^(24) 與大規模屠殺者相關的一個奇特現象是，他們選擇的謀殺風格幾乎像是一種怪誕的流行。在 1970 年代和 1980 年代，連環殺手非常普遍，新的連環殺手經常模仿更成熟或著名的連環殺手的行為。在 1990 年代和 2000 年代，大規模槍擊案變得更加普遍，而連環殺手則變得較少見。觸發這些行為模式的並非技術變革，似乎只是暴力兇手在互相模仿行為，而「流行」的模仿對象發生了變化。↩
^(25) 隨意的越獄者有時認為當他們讓模型輸出某個特定信息（如病毒的基因組序列）時就已經攻破了這些分類器。但正如我之前解釋的，我們擔心的威脅模型涉及持續數週或數月的、關於生物武器生產過程中特定晦澀步驟的逐步、互動式建議，這正是我們分類器旨在防禦的內容。（我們經常將我們的研究描述為尋找「通用」越獄——那些不僅在一個特定或狹窄背景下有效，而且能廣泛打開模型行為的越獄。）↩
^(26) 儘管我們將繼續投資於使我們的分類器更高效的工作，且公司之間共享這類進展可能是有意義的。↩
^(27) 顯然，我不認為公司應該披露關於他們正在攔截的生物武器生產具體步驟的技術細節，目前已通過的透明度立法（SB 53 和 RAISE）已考慮到了這一點。↩
^(28) 另一個相關想法是「韌性市場」，即政府透過預先承諾在緊急情況下以預先商定的價格購買這些設備，來鼓勵儲備 PPE、呼吸器和其他應對生物攻擊所需的基本設備。這激勵供應商儲備此類設備，而無需擔心政府會在沒有補償的情況下徵用它。↩
^(29) 為什麼我更擔心大型行為者奪取權力，而擔心小型行為者造成破壞？因為動態不同。奪取權力是關於一個行為者是否能積聚足夠的力量來壓倒所有人——因此我們應該擔心最強大的行為者和/或最接近 AI 的行為者。相比之下，如果破壞比防禦容易得多，那麼破壞可以由幾乎沒有權力的人造成。這就變成了一場防禦最眾多威脅的遊戲，而這些威脅很可能是較小的行為者。↩
^(30) 這聽起來可能與我認為網路攻擊的攻防平衡比生物武器更平衡的觀點相矛盾，但我這裡的擔憂是，如果一個國家的 AI 是世界上最強大的，那麼即使技術本身具有內在的攻防平衡，其他人也無法防禦。↩
^(31) 例如，在美國，這包括第四修正案和《民兵團法案》（Posse Comitatus Act）。↩
^(32) 同樣，明確地說，在治理結構各異的國家建立大型資料中心有一些論點，特別是如果它們由民主國家的公司控制。此類建設原則上可以幫助民主國家更好地與中共競爭，後者是更大的威脅。我也認為此類資料中心除非規模非常大，否則不會構成太大風險。但總體而言，我認為在制度保障和法治保護較不完善的國家放置非常大型的資料中心時，應保持謹慎。↩
^(33) 當然，這也是提高核威懾安全性以使其更有可能強健地對抗強大 AI 的論點，擁有核武器的民主國家應該這樣做。但我們不知道強大 AI 將具備什麼能力，或者哪些防禦措施（如果有的話）能對抗它，所以我們不應假設這些措施必然能解決問題。↩
^(34) 還有一種風險是，即使核威懾仍然有效，進攻國也可能決定虛張聲勢——目前尚不清楚我們是否願意使用核武器來防禦無人機群，即使無人機群有實質性的征服風險。無人機群可能是一種介於核攻擊與傳統攻擊之間的新事物。此外，對 AI 時代核威懾有效性的不同評估可能會以不穩定的方式改變核衝突的博弈論。↩
^(35) 明確地說，即使強大 AI 的時間表實質上更長，我也認為不向中國出售晶片是正確的策略。我們不能讓中國人對美國晶片「成癮」——他們無論如何都決心發展本土晶片產業。這需要他們花費多年時間，而我們出售晶片所做的一切只是在那段時間給予他們巨大的推動力。↩
^(36) 明確地說，今天在烏克蘭和台灣使用的大多數武器並非全自動武器。這些即將到來，但今天還沒有。↩
^(37) 我們最近的模型 Claude Opus 4.5 的系統卡顯示，Opus 在 Anthropic 經常進行的效能工程面試中的表現，優於公司歷史上任何一位受訪者。↩
^(38) 「編寫所有程式碼」與「端到端完成軟體工程師的任務」是非常不同的事情，因為軟體工程師做的不僅僅是編寫程式碼，還包括測試、處理環境、文件和安裝、管理雲端運算部署、產品迭代等等。↩
^(39) 電腦在某種意義上是通用的，但顯然它們本身無法具備絕大多數人類認知能力，即便它們在少數領域（如算術）大大超過人類。當然，建立在電腦之上的東西，如 AI，現在已具備廣泛的認知能力，這正是本文的主題。↩
^(40) 明確地說，AI 模型並不具備與人類完全相同的強項和弱點。但它們在每個維度上的進步也相當均勻，因此擁有尖峰或不平衡的特徵最終可能並不重要。↩
^(41) 儘管經濟學家之間對此觀點存在爭論。↩
^(42) 個人財富是一個「存量」，而 GDP 是一個「流量」，所以這並非聲稱洛克斐勒擁有美國 2% 的經濟價值。但衡量一個國家的總財富比衡量 GDP 更難，且人們的個人年收入波動很大，所以很難用同樣的單位進行比例計算。最大個人財富與 GDP 的比例雖然不是蘋果對蘋果的比較，但仍然是衡量極端財富集中程度的一個完全合理的基準。↩
^(43) 整個經濟體系的勞動力總價值為每年 60 兆美元，因此每年 3 兆美元相當於其中的 5%。這個數額可以由一家提供勞動力成本僅為人類 20% 且擁有 25% 市場份額的公司賺取，即便勞動力需求沒有擴大（由於成本降低，需求幾乎肯定會擴大）。↩
^(44) 明確地說，我不認為實際的 AI 生產力已經佔據了美國經濟增長的實質比例。相反，我認為資料中心支出代表了由預期性投資引起的增長，這相當於市場預期未來 AI 驅動的經濟增長並據此進行投資。↩
^(45) 當我們同意政府觀點時，我們會說出來，並尋找雙方支持的政策真正對世界有益的共識點。我們的目標是成為誠實的仲介，而非任何政黨的支持者或反對者。↩
^(46) 我不認為超過幾年的時間是可能的：在更長的時間尺度上，他們會製造自己的晶片。↩

— Lesswrong

你的個人知識庫

Dario Amodei：科技的青春期

直面並克服強大 AI 的風險

1. 對不起，大衛（Dave）

自主性風險

防禦措施

2. 令人驚訝且可怕的賦權

用於破壞的濫用

防禦措施

3. 可憎的機器

用於奪權的濫用

防禦措施

4. 自動鋼琴

經濟動盪

勞動力市場動盪

防禦措施

經濟權力集中

防禦措施

5. 無盡的黑海

間接影響

人類的考驗

腳註