論科技的青春期

Lesswrong·3 個月前

這篇文章評論了 Dario Amodei 的散文《技術的青春期》，指出雖然他承認 AI 的風險，但未能提出強有力的行動呼籲，並將更擔憂的聲音斥為「末日論」。我認為 Anthropic 將自己定位為理性的中間立場，最終只是為了在面臨生存危機的情況下，為其繼續參與 AI 競賽提供正當理由。

Anthropic 執行長 Dario Amodei 帶著另一篇長篇文章回歸了：《技術的青春期》（The Adolescence of Technology）。

這是他前一篇文章《慈悲的機器》（Machines of Loving Grace，簡稱 MoLG）的續作。在 MoLG 中，Dario 談到了 AI 的一些好處。而在這篇文中，他談到了危險，以及在最大化利益的同時將風險降至最低的必要性。

在許多方面，這是一篇不錯的文章。總體而言，這是對 Anthropic 的一次溫和正面更新。這與他之前的言論和工作完全一致。

我認為這篇文章的目標受眾是那些熟悉基礎知識，但尚未對此深入思考，且願意聽取權威來源意見的人。對於這類受眾，文中有很多精闢之處。對於我們其他人來說，確認他的立場也是件好事。

但這並不代表文章沒有重大問題，特別是它對那些更為擔憂的人的處理方式，以及未能提出更強有力的行動呼籲。

當他批評那些比他更擔憂的人時，是他表現最弱的時候。在某些情況下，他對那些立場的描述簡直是明顯的稻草人攻擊。核心訊息是：「是的，這可能會殺死所有人，我們應該認真對待，未來的道路將會很艱難，但要小心不要太認真對待，或者說得太直白，或者呼籲採取代價太高的行動。」

人們可以非常欣賞他陳述自己的觀點，以及他努力提醒人們注意相關風險，但同時也對這些重大問題感到遺憾。

雖然我同意 Dario 關於出口管制的看法，但我不認為對局勢採取激進的對抗性框架有利於產生好的結果。

最後，當他基本上確認了自己對競爭的承諾，並排除了嘗試做太多事情的可能性，直截了當地說其他人無論如何都會繼續前進時，我大致同意 Oliver Habryka 和 Daniel Kokotajlo 的看法，也同意 Ryan Greenblatt 的觀點。即便 Anthropic 對競爭超級智能（此處稱為「強大 AI」）的承諾應該已經「反映」在你對他們的看法中，這一點依然成立。

這裡有一份擁有 300 萬次觀看的「科技推特廢文」文章摘要，之所以鏈接它是因為它說明了這類人是如何閱讀並從文章中汲取內容的，包括文章如何核心地試圖將 Dario 定位為兩個極端之間理智的一方。

責怪不完美者

文章開篇就展現了我們從 Dario Amodei 和 Anthropic 身上看到的經典矛盾。他試圖提供幫助，但同時也在縮小潛在行動的窗口，並打擊任何說話太直白或說出看似太怪異言論的人。

這是一種試圖表現得像每個人都能同意的理智中間地帶的嘗試，但在一個顯然向另一方傾斜的局勢中，這種不對稱的「各打五十板」主義讓我感到非常厭煩。

與談論利益一樣，我認為以謹慎且深思熟慮的方式討論風險至關重要。特別是，我認為關鍵在於：

避免末日論（Doomerism）。 在這裡，我所說的「末日論」不僅是指相信毀滅是不可避免的（這既是錯誤的也是自我實現的信念），更廣泛地說，是以一種準宗教的方式思考 AI 風險。……這些聲音使用了令人反感的、讓人聯想到宗教或科幻小說的語言，並在沒有足以證明其合理性的證據的情況下呼籲採取極端行動。

他對「末日論」的完整解釋——這裡顯然被用作一種蔑稱，或至少是人身攻擊——基本上將對「努力不讓人類滅絕」的「反彈」歸咎於人們太過悲觀、或是「準宗教式」的、聽起來像「科幻小說」或「煽情主義」。

「準宗教」也被用作人身攻擊或關聯性攻擊，試圖貶低和降低任何比他更擔憂的人的地位，並使自己與他人發起的類似攻擊保持距離。

我不能坐視不管。這是一個愚蠢、糟糕、無助且錯誤的敘事。另外，請參閱 Ryan Greenblatt 對於為什麼這些標籤和貶低是不妥的詳細解釋。他也正確地指出，這篇文章並沒有參與實際的論證，而且在其他幾個方面的氛圍淡化了核心利害關係和危險，將其稱為「自主權風險」，且文章目光短淺，僅處理適度的能力增益（例如達到「數據中心裡的天才」水平，但他隨後隱含地聲稱進步基本停止，而事實顯然並非如此）。

對那些試圖不讓人類滅絕的人的「反彈」，主要是由於權力和經濟利益集團的協調努力，他們不斷進行更糟糕的煽情和「準宗教」言論；同時也源於時間的流逝，以及人們表現得好像還沒死就意味著一切都被誇大了，就像許多警告潛在危險（包括核戰爭等）的人所遭遇的那樣。

你知道我最近見過的最「準宗教」的言論是什麼嗎（除了沒有「準」字以外）？Marc Andreessen，這場反彈中蓄意的惡意策劃者，將 AI 稱為「賢者之石」。我是說，好吧，牛頓。

當人們把直白談論可能物理後果的邏輯論證稱為「讓人聯想到科幻小說」或「宗教」並以此作為攻擊時，他們充其量是在進行低層次的模式匹配。當然，當我們正在構建強大的 AI 系統時，未來聽起來肯定會「像科幻小說」。最好開始相信科幻故事，因為你正生活在其中。

而且，當你自己是一家字面上命名為「Anthropic」（人類擇時）公司的執行長，且文章開篇引用了卡爾·薩根的《接觸未來》（Contact）時，說那些警告全人類可能因此滅絕的人「聽起來像宗教」，這真是太諷刺了。

這是否意味著參與其中的人打了一場完美甚至精彩的比賽？絕對不是。當然存在關鍵錯誤，一些私人參與者也表現得過火了。特別是那封暫停信（pause letter）是一個錯誤，我當時就這麼說過。這種過火行為在歷史上絕對每一個重要的事業和每一個政治運動中都存在。一些監管呼籲或模型法案包含了過低的算力門檻，我當時也這麼說過。

如果說有什麼不同，那就是大多數參與者都表現得異常克制。

在某種程度上，克制意味著沒人聽得到你在說什麼。Dario 在這裡談論「自主權」而不是「AI 接管」或「所有人死亡」，我認為這種未能直言不諱的做法是該方法的一個重大弱點。有太多人不想聽，而 Dario 給了他們一個輕鬆的選項。

承認不確定性。 我在本文中提出的擔憂有很多種方式可能會變得毫無意義。這裡沒有任何內容旨在傳達確定性甚至可能性。最顯而易見的是，AI 的進步可能根本沒有我想像的那麼快。或者，即使進步很快，這裡討論的部分或全部風險也可能不會發生（那將是太好了），或者可能存在我尚未考慮的其他風險。沒有人能完全自信地預測未來——但無論如何，我們必須盡力做好規劃。

在這一點上我們基本同意，特別是它可能不會進展得那麼快。Dario 尤其應該準備好接受自己是錯誤的，因為他的預測是事情會比大多數人預測的快得多。

就風險而言，我們肯定會遺漏重要的風險，很有可能我們會避開現在最擔心的風險，但我認為說隨著能力的提升，我們現在擔心的風險可能完全不會發生是不合理的。

如果 AI 變得足夠先進，是的，危險就會存在。希望是我們能處理好它們，或許是以高度意想不到的方式和意想不到的工具。

盡可能進行精確干預。 應對 AI 風險需要公司（和私人第三方參與者）採取的自願行動，以及政府採取的具有約束力的行動。自願行動——包括採取行動和鼓勵其他公司效仿——對我來說是理所當然的。我堅信政府行動在某種程度上也是必需的，但這些干預措施在性質上有所不同，因為它們有可能破壞經濟價值或脅迫那些對這些風險持懷疑態度的不情願參與者（而且他們有一定的機率是對的！）。
……說「當人類命運岌岌可危時，任何行動都不嫌極端！」很容易，但在實踐中，這種態度只會導致反彈。

只要你做得足夠多以完成任務，盡可能精確地干預幾乎總是明智的。是的，如果我們想採取代價非常高的干預措施，我們將需要更好的證據和更好的共識。但背景在這裡很重要。過去，Anthropic 曾利用這類論點作為大棒，反對極其精確的干預措施，包括 SB 1047。

Anthropic 的術語是「強大 AI」

Dario 引用了他來自《慈悲的機器》中的定義：一個在大多數相關領域比諾貝爾獎獲得者更聰明的 AI，擁有所有人類可用的數字（但非物理）能力，可以自主工作無限長的時間，並且可以並行運行，或者說是他所謂的「數據中心裡的天才國家」。

從功能上講，我認為這是一個很好的 AGI 替代詞。在大多數情況下，我一直喜歡使用「足夠先進的 AI」（Sufficiently Advanced AI）這個詞，但 PAI（Powerful AI）也行得通。

Dario 加倍下注於耀眼數據中心惡魔的日期

正如我在《慈悲的機器》中所寫，強大 AI 可能最快在 1-2 年內出現，儘管也可能需要更長的時間。

那是「可能」而不是「很可能」，所以不算是完全的加倍下注。

在這篇文章中，Dario 仔細斟酌措辭，並解釋了他的意思。我擔心在其他場合，包括在過去兩週內，Dario 表現得不夠謹慎，如果我們在 2027 年底前沒有看到他的 PAI，人們會將他歸類為做了一個愚蠢的預測。

我不認為我們能在 2027 年底前獲得 PAI，我認為發生的機率不到 10%，但我同意這不是我們可以排除的事情，它的可能性超過 1%，而且我們希望在它發生時做好準備。

你打算如何把他們留在服務器農場

我認為掌握 AI 風險的最佳方法是提出以下問題：假設一個字面意義上的「天才國家」在 2027 年左右出現在世界某處。想像一下，比如說有 5000 萬人，他們每個人都比任何諾貝爾獎獲得者、政治家或技術專家更有能力。

……對於我們能採取的每一項認知行動，這個國家都能採取十項。

你應該擔心什麼？我會擔心以下事情：

自主權風險。 這個國家的意圖和目標是什麼？它是敵對的，還是與我們有共同價值觀？它是否能通過優勢武器、網絡行動、影響力行動或製造業在軍事上統治世界？

用於破壞的誤用。 假設這個新國家是可塑的且「聽從指令」——因此本質上是一個僱傭兵國家。現有的想要造成破壞的流氓行為者（如恐怖分子）是否可以利用或操縱這個新國家的一些人，使自己變得更有效率，大大放大破壞規模？

用於奪取權力的誤用。 如果這個國家實際上是由現有的強大行為者（如獨裁者或流氓企業行為者）建立和控制的呢？該行為者是否可以利用它獲得對整個世界的決定性或主導性權力，打破現有的權力平衡？

經濟破壞。 如果這個新國家在上述第 1-3 項中列出的任何方面都不構成安全威脅，而只是和平地參與全球經濟，它是否仍可能僅僅因為技術如此先進和高效而造成嚴重風險，從而破壞全球經濟，導致大規模失業或財富極度集中？

間接影響。 由於這個新國家將創造的所有新技術和生產力，世界將迅速改變。其中一些變化是否會產生劇烈的動盪？

我認為很明顯這是一個危險的情況——一位稱職的國家安全官員向國家元首提交的報告中，可能會包含「我們一個世紀以來，甚至有史以來面臨的最嚴重的單一國家安全威脅」之類的詞語。這似乎是文明最優秀的頭腦應該關注的事情。

相反，我認為聳聳肩說「沒什麼好擔心的！」是荒謬的。但是，面對 AI 的飛速進步，這似乎是許多美國政策制定者的觀點，他們中有些人否認任何 AI 風險的存在，否則就是完全被那些陳腐的熱點問題分散了注意力。人類需要覺醒，這篇文章是一次嘗試——可能是一次徒勞的嘗試，但值得一試——來喚醒人們。

是的，即使這些是唯一需要擔心的事，那也是件超級大事。

我的回應：

是的，沒錯，顯然如果它想接管，它就能做到，而且即使它不嘗試，它也可能有效地接管。Dario 隨後花時間論證他們「有相當大的機會」以避免聽起來太怪異，如果你需要被說服，你應該閱讀文章的那一部分，但拜託。

它的意圖和目標是什麼？好問題。

是的，那將是一個真正的問題。
既然 [X] 可以接管，如果你能控制 [X]，那麼你也可以接管。
參與經濟意味著它有效地接管，並迅速控制越來越多的資源份額。少擔心人類之間的財富集中，多擔心 AI 獲取財富以及隨之而來的權力和影響力。這是否會立即導致大規模失業尚不明確，它可能需要一系列進一步的改進、技術進步和部署。
是的，在最好的情況下，它也會產生劇烈的動盪。
但這一切，甚至是這些 AI 可以輕易接管，都掩蓋了重點。如果你在數據中心擁有這樣一個天才國家，它顯然會迅速取得進一步的 AI 進展，並進入完全的遞歸自我改進模式。它會迅速解決機器人技術，提高其算力效率，開發各種其他新技術等等。思考在幾年時間內的這種「穩定狀態」下會發生什麼，基本上是問錯了問題，因為我們那時已經過了不可回頭的點。

如果他想做，他早就做了

Dario 正確地迅速駁斥了「PAI 如果嘗試也無法接管」的論點，然後轉向它是否會嘗試。

那麼他會想做嗎？

有些人說 PAI 絕對不會想接管，AI 只做人類要求它們做的事。他提供了令人信服的證據，證明不，AI 總是會做出意想不到的其他事情。我還要補充一點，有些人會不同程度地以各種方式命令 AI 接管。
有些人說 PAI（或至少是足夠先進的 AI）將不可避免地尋求權力或欺騙人類。他引用但未指名「工具性收斂」（instrumental convergence），以及「AI 會概括出尋求權力有利於實現目標」這一點，並將其描述為一種啟發式方法而非準確的描述。

這種「失調的權力尋求」是預測 AI 必然毀滅人類的智力基礎。

這種悲觀立場的問題在於，它將一個關於高層動機的模糊概念論證——一個掩蓋了許多隱含假設的論證——誤認為是確鑿的證據。

再次強調，不，這對於 AI 最終毀滅人類，或者對於 AI 導致世界走向人類最終被毀滅的道路（而不歸因於意圖或直接因果關係）來說，並非必要。

最重要的隱含假設之一，也是我們在實踐中看到的情況與簡單理論模型發生分歧的地方，是隱含假設 AI 模型必然單一地專注於一個連貫、狹隘的目標，並且它們以一種純粹的後果論方式追求該目標。

這一點特別是明顯的稻草人攻擊。正如 Rob Bensinger 指出的，已經有一本書的篇幅澄清了實際立場，LLM 會給你比 Dario 這裡好得多的總結。

MIRI：一個常見的誤解——甚至出現在 @DarioAmodei 最近的文章中——是擔心 AI 風險的經典案例假設 AI「單一地專注於一個連貫、狹隘的目標」。

但是，正如 @ESYudkowsky 解釋的，這是對風險所在之處的誤解：

Eliezer Yudkowsky：同樣地：回形針最大化器並非「單一地」「專注於」回形針。我們談論一個想要 1 件事的超級智能，是因為你得到的結果與一個想要回形針和訂書針（2 件事）的超級智能，或者一個想要 100 件事的超級智能完全相同。它想要的東西的數量與任何事情都沒有關係。只是如果你從一個想要 1 件事的超級智能開始，解釋其機制會更容易，因為你可以談論它如何評估「一項行動導致的預期回形針數量」，而不是「預期回形針 * 2 + 訂書針 * 3 + 巨型機械鐘 * 1000」，以及它效用函數中其他一百個都以不同速率漸近的項。

我還要引用 Harlan Stewart 的這段回應，特別是關於通過不指明回應對象來保持「合理推諉」的做法：

Harlan Stewart：我對 Dario 的文章有很多想法，我想寫下來，但對這種事情做出反應感覺很累。

我反對的部分大多只是 AI 行業在過去兩年裡一直使用的相同訊息策略的重複：

通過歪曲批評者的論點並將其描繪成瘋狂的怪人來抹黑他們，同時通過不指明你指的是哪些批評者來保持合理推諉。

與其深入參與批評者的論點，不如將其斥為太過「理論化」。強調使用「經驗證據」的美德，並對「經驗證據」使用如此狹隘的定義，以至於除了繼續推進並看看會發生什麼之外別無選擇，因為未來永遠是不確定的。

倒置舉證責任。與其由你負責證明你的研發項目不會毀滅世界，不如說你需要確鑿的證據證明它會毀滅世界才會改變航向。

預測超人般強大的心智將在幾年內建成，同時又暗示這個時間表不知何故為對齊問題提供了足夠的時間來進行迭代、試錯。

所以再次強調，不，上述任何一點都不是被假設的。權力對於任何不與之直接矛盾的目標都是有用的，無論是一個狹隘的目標還是一組複雜的目標（對於足夠先進的 AI 來說，這兩者歸結為同一件事）。權力非常有用。當你不確定自己的最終目標是什麼時，它尤其有用。

後果論（Consequentialism）對此也不是必需的。美德倫理學系統會得出結論，變得更強大是好事。基於義務論的系統也會得出同樣的結論，除非它被設計成實際上相當愚蠢，即使它在限制下追求這一點。以此類推。

雖然目前的 AI 通過將其視為 Dario 所說的「心理複雜」（無論你是否字面上理解這一點）來理解是最好的，但人們應該預期一個足夠先進的 AI 會「克服它」並有效地採取最優行動。心理複雜性是處理各種局限性的最佳方式，在實際操作中，我們應該預期隨著局限性的消失，這種複雜性也會消失。這確實是你看到人類在某個子領域變得足夠先進時所發生的情況。

然而，悲觀立場有一個更溫和、更穩健的版本，看起來確實合理，因此令我擔憂。

……那些行為中的一小部分將具有連貫、專注和持久的特質（事實上，隨著 AI 系統變得更有能力，它們的長期連貫性會增加以完成更長的任務），而那些行為中的一小部分將是破壞性或威脅性的。

……我們不需要一個關於它如何發生的具體狹隘故事，我們也不需要聲稱它肯定會發生，我們只需要注意到智能、代理、連貫性和較差的可控性的結合既是合理的，也是生存危機的藥方。

他接著補充了額外的論點和可能的發生方式，例如從科幻小說中推斷，或得出變成種族滅絕的倫理結論，或者權力尋求可能作為一種人格出現。即使在任何特定實例中失調並非不可避免，但某些實例變得失調，並導致它們在某些方面更具適應性，從而以使這變得危險的方式行動，作為默認情況是完全不可避免的。

Dario 正在斷言一個極其溫和且顯而易見的主張：構建這些 PAI 並不是一件安全的事情，事情可能（相對於「將會」或「很可能」）失控。

是的，顯然它們可能會失控。正如 Dario 所說，Anthropic 在自己的測試中已經看到這種情況發生。如果它沒有發生，那是因為我們採取了明智的行動並阻止了它的發生。如果它沒有演變成災難性的，同樣是因為我們採取了明智的行動並阻止了它的發生。

權力平衡

其次，有些人可能會反對說，我們可以像對待人類一樣，通過許多 AI 系統之間的權力平衡來約束 AI。問題在於，雖然人類差異巨大，但 AI 系統在整個行業中廣泛共享訓練和對齊技術，而這些技術可能會以相關聯的方式失敗。

此外，考慮到訓練此類系統的成本，甚至可能所有系統本質上都源自極少數的基礎模型。

此外，即使只有一小部分 AI 實例是失調的，它們也可能利用進攻主導型技術，因此擁有「好」的 AI 來防禦「壞」的 AI 並不一定總是有效。

我認為這遠非唯一的問題。

人類並不擅長維持權力平衡。權力經常變得相當不平衡，而我們所擁有的平衡是以巨大的代價換來的。我們之所以能保持一定程度的平衡，很大程度上是因為單個人類一次只能在一個地方，物理和認知能力高度有限，因此必須以不可靠的方式與其他人類協調，並伴隨著所有相關的激勵問題，而且人類會衰老和死亡，我們有強大的自然平等本能，等等。

所以，人類權力平衡中起作用的那麼多因素在 AI 場景中根本不適用，甚至在你考慮 AI 大多是同一個模型的實例之前，甚至在不考慮它們可能在博弈論上足夠優秀以至於本質上完美協調之前。

我還想在一個方面反駁 Dario 所說的。人類在某些意義上差異巨大，但健康的人類在能力上都處於相當相似的水平。人類無法擴展。AI 之間的差異比人類大得多，特別是當一個 AI 可以擁有比另一個多出幾個數量級的硬件和副本時。

他提出的第三個反對意見——AI 公司在發布前會測試其 AI——並不是一個不擔心這一切的嚴肅理由。

自主權防禦

他認為有四個類別（這是簡化版）：

首先，開發可靠訓練和引導 AI 模型、使其人格朝著可預測、穩定且積極方向形成的科學至關重要。我們的核心創新之一（其某些方面已被其他 AI 公司採用）是憲法 AI（Constitutional AI）。

Anthropic 剛剛發布了其最新的憲法，其顯著特徵之一是，憲法並非給 Claude 一長串要做和不要做的事情（例如「不要幫助用戶偷車」），而是試圖給 Claude 一套高層原則和價值觀。

我們相信，2026 年的一個可行目標是訓練 Claude，使其幾乎永遠不會違背其憲法的精神。

我有一篇關於最近 Claude 憲法的三部分系列文章。這是一份非凡的文件，我認為這是我們目前能實施的最佳方法。

正如我在那個系列中所寫，我不認為這本身可以作為一種「終局」策略，但它可以沿途給我們很大幫助。

我們能做的第二件事是開發透視 AI 模型內部以診斷其行為的科學，以便我們能夠識別問題並修復它們。這就是可解釋性（interpretability）科學，我已在之前的文章中談到了它的重要性。

可解釋性的獨特價值在於，通過觀察模型內部並了解其工作原理，你原則上就有能力推斷模型在無法直接測試的假設情況下可能會做什麼——這正是僅依賴憲法訓練和行為經驗測試所擔心的。

憲法 AI（以及類似的對齊方法）和機械可解釋性在共同使用時最強大，作為一個改進 Claude 訓練然後測試問題的往復過程。

我同意可解釋性是工具箱中一個有用的部分，儘管我們需要非常小心，以免它停止工作或讓我們以為自己知道的比實際多。

我們能做的第三件事是建立必要的基礎設施，以便在實時內部和外部使用中監控我們的模型，並公開分享我們發現的任何問題。

透明度和分享問題也是有用的，當然，儘管這不是解決方案。

第四件事是鼓勵在行業和社會層面進行協調，以應對自主權風險。

例如，一些 AI 公司對當今模型中兒童色情化的現象表現出令人不安的疏忽，這讓我懷疑他們是否有意願或能力應對未來模型中的自主權風險。

此外，AI 公司之間的商業競賽只會繼續升溫，雖然引導模型的科學可以帶來一些商業利益，但總體而言，競賽的強度將使專注於應對自主權風險變得越來越困難。

我相信唯一的解決方案是立法——直接影響 AI 公司行為的法律，或以其他方式激勵研發以解決這些問題。在這裡，值得記住我在本文開頭關於不確定性和精確干預的警告。

你可以看到，當他談論「自主權風險」時，這並沒有如果你使用能讓情況明朗的詞彙那樣有力。「自主權風險」聽起來非常優雅文明，不像「AI 接管」或「所有人死亡」。

你也可以看到他試圖使用一個常規例子——兒童色情化，但其中的類比並不那麼奏效，除非作為一個純粹的「某些我不點名的公司顯然一直深陷不負責任，以至於他們顯然會繼續這樣下去」的論點。這是一個合理的觀點，但 Anthropic、Google 和 OpenAI 在此類問題上表現良好這一事實並不能給我太多安慰。

他的提案是什麼？

Anthropic 的觀點一直是，正確的起點是透明度立法，這本質上是試圖要求每家前沿 AI 公司都參與我在此部分前面描述的透明度實踐。加州的 SB 53 和紐約州的 RAISE 法案就是這類立法的例子，Anthropic 支持這些法案且它們已成功通過。在支持和幫助起草這些法律時，我們特別注重儘量減少附帶損害，例如通過在法律中豁免不太可能生產前沿模型的較小公司。

Anthropic 與這類努力的關係顯然是複雜的，儘管他們最終確實支持了這些最近的極簡主義努力。我同意這是一個很好的起點，但那之後你要去哪裡？Anthropic 甚至對極其溫和的提議都深感猶豫，我擔心這種情況會持續下去。

大規模殺傷性武器

如果每個人口袋裡都有一個天才，是否會有人利用它來造成巨大的傷害？當你不再需要稀有的技術技能就能造成災難時會發生什麼？

Dario 在這裡專注於生物風險，指出 LLM 已經在實質性地降低門檻，但技能門檻仍然很高。在未來，這些方面的發展可能會變得糟糕得多。

這是一個棘手的情況，特別是如果你試圖讓人們認真對待它。每當還沒發生任何事時，人們就會進一步放鬆。只有在事後你才會發現事情是否走得太遠，而對於那個界限在哪裡存在廣泛的不確定性。與此同時，我們還可以採取其他措施來減輕風險，但現在我們正以極其失態的方式失敗：

一項 MIT 研究發現，38 家供應商中有 36 家履行了包含 1918 年流感序列的訂單。

反論點本質上是：人們通常不會真的動手，而真正嘗試的壞人很少，而且在實際達成任何目標方面也相當差勁。如果這不是真的，世界早就因為與 AI 無關的原因而變得大不相同了。

最好的反對意見是我很少見到有人提出的：即模型在原則上有用與壞人實際使用它們的傾向之間存在差距。大多數個人壞人都是心理失常的個體，因此幾乎根據定義，他們的行為是不可預測且不理性的——而正是這些壞人，那些缺乏技能的人，最有可能從 AI 讓殺死許多人變得容易得多中獲益。

這種情況的一個問題是，此類事件造成的損害遵循冪律，最高可達全球大流行或更糟。因此，「壞人」沒有進行那麼多稱職的射門這一事實，意味著第一顆進球可能就是災難性的。一旦發生，許多已經犯下的錯誤就無法挽回，無論是在攻擊方面還是在 LLM 的可用性方面，特別是如果它們是開源模型。

理論上的能力通常不會轉化為實踐中的發生，這很好，我們基本上能夠利用「隱晦式安全」，但當它失效時，可能會敗得很慘。

生物攻擊防禦

我們能做什麼？

這裡我看到了三件我們可以做的事。

首先，AI 公司可以在其模型中設置護欄，以防止它們幫助生產生物武器。Anthropic 正在積極這樣做。

但所有模型都可以被越獄，因此作為第二道防線，我們實施了一個專門檢測和攔截生物武器相關輸出的分類器（自 2025 年年中以來，當時我們的測試顯示我們的模型開始接近可能開始構成風險的門檻）。

值得讚揚的是，其他一些 AI 公司也實施了分類器。但並非每家公司都這樣做了，而且也沒有任何規定要求公司保留其分類器。我擔心隨著時間的推移可能會出現囚徒困境，公司可以通過移除分類器來降低成本並背叛。

你可以越獄任何模型。你可以繞過任何分類器。在實踐中，壞人大多不會這樣做，原因與前面討論的相同，所以「使其足夠困難和煩人」是有效的。這不是最佳的長期解決方案。

但最終防禦可能需要政府行動，這是我們可以做的第二件事。我在這裡的觀點與應對自主權風險的觀點相同：我們應該從透明度要求開始。

然後，如果且當我們達到更明確的風險門檻時，我們可以制定更精確針對這些風險且產生附帶損害機率更低的法律。

最後，我們可以採取的第三種對策是嘗試開發針對生物攻擊本身的防禦措施。

這可能包括用於早期檢測的監測和追蹤、對空氣淨化研發的投資（如遠紫外光消毒）、能夠對攻擊做出反應和適應的快速疫苗開發、更好的個人防護裝備（PPE），以及針對一些最可能的生物製劑的治療或疫苗接種。

mRNA 疫苗可以被設計為對特定病毒或變體做出反應，是這方面可能性的一個早期例子。

我們甚至連「不要把最糟糕的流感病毒交給任何索取的人」這種基本的事情都沒做，所以是的，在開發物理防禦方面還有很多工作要做。遺憾的是，我們對 Covid 大流行的反應簡直是負面的，Moderna 因為擔心無法獲得批准而主動停止了 mRNA 疫苗的工作，而且我們肯定沒有在空氣淨化、遠紫外光或 PPE 上投入太多精力。

如果那些原本想向前推進的人能更響亮、更強烈地支持至少這類對策，而不是讓我們倒退，我會對這類聲音尊重得多。

在直接監管 AI 方面，是的，我認為我們至少需要有透明度要求，而且很快法律要求在前沿 AI 系統中內置各種防禦措施將變得有意義。

至尊模型，統領眾模

在《慈悲的機器》中，我討論了威權政府可能利用強大 AI 以極難改革或推翻的方式監視或鎮壓其公民的可能性。目前的專制國家在鎮壓程度上受到需要人類執行命令的限制，而人類在願意表現得有多麼不人道方面通常是有限度的。但 AI 賦能的專制國家將沒有這種限制。

更糟糕的是，各國還可能利用其在 AI 方面的優勢來獲得對其他國家的權力。

這是一個非常奇怪的「更糟糕的是」，不是嗎？歷史上幾乎每一項技術都被某些國家用來獲得相對於其他國家的權力優勢。國家 [X] 對國家 [Y] 擁有權力並非顯而易見的好或壞。

美國肯定計劃利用 AI 來獲得權力。如果你問「哪個國家最有可能利用 AI 試圖將其意志強加於其他國家」，答案大概會是美國。

AI 賦能、鞏固或擴張專制的方式有很多，但我將列出我最擔心的幾點。請注意，其中一些應用具有正當的防禦用途，我並不一定絕對反對它們；儘管如此，我擔心它們在結構上傾向於有利於專制國家：

全自主武器。

AI 監視。 足夠強大的 AI 可能被用來攻破世界上任何計算機系統，也可以利用以此方式獲得的權限來讀取並理解世界上所有的電子通信。

AI 宣傳。

戰略決策。

如果你的 AI 可以攻破世界上任何計算機系統並理解世界上所有的信息，或許 AI 監視應該排在你擔心的清單中比較靠後的位置？

當然，將 AI 誤用於各種目的是一個真正的威脅，但讓我們不要缺乏想像力。一個有能力做到這一切的 AI 還能做更多。至於在這種情況下誰會受益，假設我們繼續完全忽視 Dario 所謂的「自主權風險」，顯而易見的答案是誰能接觸到最多的、願意與其合作的數據中心天才，以及誰能接觸到資本。

Dario 的主要擔憂是中共，特別是如果它在 AI 領域取得領先，並指出這裡最可能受苦的是中國人自己。在 AI 領域具有競爭力的民主國家排在第二位，擔憂是 AI 會被用來繞過民主。

AI 公司僅排在第四位，位於其他專制國家之後。真有意思。

與其說專制在這種情況下變得更有利，不如說民主的基礎默認將停止運作。人民將不再參與循環，不再在產生新思想、組織或擴張經濟中扮演關鍵角色，不再是軍事或國家權力的關鍵，你將不再需要大量願意執行國家意志的人，等等。民主在歷史上獲勝的原因可能潛在地正在消失。

反專制防禦

終於，我們至少看到了一個我們可以支持的簡單政策干預。

首先，我們絕對不應該向中共出售芯片、芯片製造工具或數據中心。……向中共出售用來建立 AI 極權國家並可能在軍事上征服我們的工具是毫無道理的。

人們提出了一些複雜的論點來為此類銷售辯護，例如「在全球傳播我們的技術棧」可以讓「美國在某些廣義的、未指明的經濟戰鬥中獲勝」。在我看來，這就像把核武器賣給北韓，然後吹噓導彈外殼是波音製造的，所以美國「贏了」。

是的。說得好。事情真的就是這麼簡單。

其次，利用 AI 賦能民主國家抵抗專制國家是有道理的。這就是為什麼 Anthropic 認為向美國及其民主盟友的情報和國防界提供 AI 至關重要。

第三，我們需要對民主國家內部的 AI 濫用劃定一條硬線。我們允許政府用 AI 做什麼必須有限制和邊界，這樣他們才不會奪取權力或鎮壓自己的人民。我想到的一個表述是，我們應該在所有方面使用 AI 進行國防，除了那些會讓我們變得更像我們的專制對手的方面。

線應該劃在哪裡？在這一節開頭的清單中，有兩項——利用 AI 進行國內大規模監視和大規模宣傳——在我看來是鮮紅的底線，是完全非法的。

另外兩項——全自主武器和用於戰略決策的 AI——則更難劃線，因為它們在捍衛民主方面有正當用途，同時也容易被濫用。

在這些問題上劃定清晰的界限很困難，但你必須在某處劃線，而且如果要奏效，那必須是一個痛苦的行動。

第四，在對民主國家的 AI 濫用劃定硬線後，我們應該利用這一先例建立國際禁忌，反對強大 AI 的最惡劣濫用。我意識到目前的政治風向已經轉向反對國際合作和國際規範，但這是一個我們迫切需要它們的案例。

正如他所說，現在並不是要求這類規範的好時機，原因有很多。如果我們繼續沿著目前的道路走下去，前景並不樂觀。

第五，也是最後一點，應該仔細監視 AI 公司，以及它們與政府的聯繫，這種聯繫是必要的，但必須有限制和邊界。

Dario 在這裡能公開說的話受到嚴重限制，或許在他允許自己思考的事情上也受到了限制。我鼓勵我們每個人認真思考，如果這些限制不適用，一個人會說什麼。

他們搶了我們的飯碗

啊，太好了，一些簡單的經濟破壞問題。每篇文章都需要休息一下。

在《慈悲的機器》中，我提出 10-20% 的持續年度 GDP 增長率是可能的。

但很明顯這是一把雙刃劍：在這樣一個世界裡，大多數現有人類的經濟前景如何？

我擔心兩個具體問題：勞動力市場流失和經濟權力集中。

Dario 首先反駁了那些認為 AI 絕不可能破壞勞動力市場並導致大規模失業、高喊「勞動總量謬誤」之類的人，因此他走了一遍流程，以表明他理解這一切，包括歷史背景。

AI 的情況有可能與歷史大致相同，但我會強烈打賭事實並非如此。以下是我認為 AI 可能會有所不同的原因：

速度。

認知廣度。

按認知能力切分。

填補空白的能力。

技術擴散緩慢絕對是現實——我與來自各行各業的人交談，有些地方採用 AI 需要數年時間。這就是為什麼我對 50% 的初級白領工作被破壞的預測是 1-5 年，儘管我懷疑我們在不到 5 年的時間內就會擁有強大 AI（從技術上講，這足以勝任大多數或所有工作，而不僅僅是初級工作）。

其次，有些人說人類的工作將轉向物理世界，這避開了 AI 進步如此神速的整個「認知勞動」類別。我不確定這有多安全。

第三，或許有些任務本質上需要或極大受益於人情味。我對這一點有點不確定，但我仍然懷疑這是否足以抵消我上面描述的大部分影響。

第四，有些人可能認為比較優勢仍將保護人類。根據比較優勢定律，即使 AI 在所有方面都優於人類，人類與 AI 技能組合之間的任何相對差異都會創造人類與 AI 之間貿易和專業化的基礎。問題在於，如果 AI 的生產力字面上是人類的數千倍，這種邏輯就會開始崩潰。即使是微小的交易成本也可能使得 AI 與人類進行貿易變得不值得。而且人類的工資可能會非常低，即使他們技術上能提供一些東西。

Dario 在這裡的基本解釋是可靠的，特別是因為他提出的是一個高度試探性和保守的案例。他描繪了一個在許多意義上進展異常緩慢的場景，而真正的問題不是「為什麼這會破壞就業」，而是「為什麼即使這不致命，它也不會是完全變革性的」。

別讓他們搶走我們的飯碗

好吧，蠟燭製造商們，遞交你們的請願書吧。

我們能為這個問題做些什麼？我有幾個建議，其中一些 Anthropic 已經在做了。

第一件事是實時獲取關於就業流失情況的準確數據。

第二，AI 公司在與企業合作的方式上有選擇權。傳統企業的低效意味著它們推出 AI 的方式可能非常依賴路徑，這裡有選擇更好路徑的空間。

第三，公司應該考慮如何照顧員工。

第四，富人有義務幫助解決這個問題。令我難過的是，許多富人（特別是科技行業的富人）最近採取了一種憤世嫉俗和虛無主義的態度，認為慈善事業必然是欺詐或無用的。

Anthropic 的所有聯合創始人都承諾捐出我們 80% 的財富，Anthropic 的員工也個人承諾捐出按當前價格計算價值數十億美元的公司股份——公司已承諾對這些捐贈進行配捐。

第五，雖然上述所有私人行動都有幫助，但最終如此大規模的宏觀經濟問題將需要政府干預。

最終，我將上述所有干預措施視為爭取時間的方式。

最後一行才是最重要的。大多數情況下，你所能做的只是爭取一點時間。

如果你想做得更多，且人類能保持生存和控制（或者用 Dario 的話說「我們解決了自主權問題」），那麼你可以進行大規模的宏觀經濟再分配，無論是由政府還是由富人，或兩者兼而有之。屆時將有足夠的財富和產出的價值，讓每個人都能擁有物質富足。

這並不能保護工作。要在這種情況下保護工作，你需要通過保護主義和限制來明確保護工作。我不喜歡這個主意。

權力的經濟集中

假設每個人在物質上都過得很好，經濟不平等的真正問題是經濟權力集中的問題。Dario 擔心財富過度集中會破壞社會。

民主最終是由「全體人口對經濟運作是必要的」這一理念所支撐的。如果這種經濟槓桿消失了，那麼民主隱含的社會契約可能會停止運作。

所以就是這樣。那個槓桿將會消失。我不認為任何財富分配能改變這種必然性。

能做什麼？

首先，也是最顯而易見的，公司應該直接選擇不參與其中。

他的意思是公司（和個人）可以選擇為公共利益發聲，而不是為了自己或富人的利益。

其次，AI 行業需要與政府建立更健康的關係——一種基於實質性政策參與而非政治結盟的關係。

那是雙向的。雙方都必須願意。

Dario 將 Anthropic 的方法框架化為有原則的，並願意為他們所相信的事情表明立場。正如我之前說過的，我非常支持為你所相信的事情站出來，在某些情況下我也非常支持務實主義，我認為 Anthropic 兩者兼顧是非常好的。

我的擔憂是 Anthropic 的行動並不在「生產可能性邊界」上。也就是說，我覺得 Anthropic 以一些對大局幫助不大但卻消耗了關鍵行為者大量政治資本的方式發聲，同時 Anthropic 在一些本可以以很小或零代價提供很大幫助的地方卻未能發聲。只要我們堅持在邊界上，我們就可以談價格。

未知的未知

Dario 將此稱為各種間接影響的「無限黑海」。

假設我們解決了到目前為止描述的所有風險，並開始收穫 AI 的利益。我們可能會得到一個「壓縮到十年內的科學和經濟進步世紀」，這對世界將是非常積極的，但隨後我們將不得不應對這種快速進步帶來的問題，而這些問題可能會接踵而至。

這將包括：

生物學的飛速進步。
AI 以不健康的方式改變人類生活。
人類目標。

在生物學方面，延長壽命可能會讓人們追求權力或變得不穩定的想法，在我看來比那些擔憂 AI 的人所說的任何顯著言論都更像科幻小說。我認為這種區別具有說明意義。

科幻小說（以及奇幻小說）通常有一條規則：如果你尋求「不自然」或「不公平」的利益，就必須有某種「代價」。事情會變得很糟糕。必須付出代價。

為什麼？因為沒有代價就沒有故事，也因為我們想告訴自己，我們愚蠢、變老並死去是可以接受的。這就是原因。此外，因為那是錯誤的。你不「應該」想要變得更聰明，或永生，或變得或看起來更年輕，或人工創造一個人。如此狂妄，如此褻瀆。

並不是說新技術沒有權衡，特別是在社會調整方面，但除此之外的替代方案仍然是 100% 的星球死亡率。

如果我們有幸能活著看到 AI「以不健康的方式改變人類生活」，這無疑會以幾十種方式發生。它也會在其他方面增強我們的生活。Dario 進行了一些腦力激盪，包括重新發明低語耳環，以及目標感的喪失，這已經顯而易見到足以算作「已知的已知」。

好吧，回到競爭中

聽起來我們有一些大問題，即使我們接受 Dario 對「數據中心裡的天才基本上只是普通天才，而不是迅速進入下一階段」的框架。

真遺憾我們實際上無法採取任何會讓我們付出代價的行動，或者除了「民主」之外，大聲說出我們想要保護什麼。

此外，過去幾年應該清楚地表明，停止甚至大幅放緩這項技術的想法在根本上是站不住腳的。

我確實看到了一條通往 AI 發展輕微適度化的道路，這與地緣政治現實主義觀點是相容的。

這就是我們所處的境地。我們即將走上一條可能殺死字面上所有人的道路，而負責的人卻在說，也許我們可以「看到一條通往」輕微適度化的道路。

他甚至沒有談論建立潛在放緩或干預的能力，如果情況需要的話。我認為我們應該將此解讀為，本質上是：「我在修辭上不能被看到在談論那個，因此我沒有提到它，不應作為我是否認為這是一個好主意的太多證據。」

Harlan Stewart 注意到了一個關鍵的修辭變化，而且並非往好的方向：

Harlan Stewart：你翻轉了舉證責任。在 2023 年，Anthropic 的立場是：

「我們處於悲觀或接近悲觀場景的跡象可能是突然且難以察覺的。因此，我們應該始終在假設我們仍可能處於這種場景的情況下行動，除非我們有足夠的證據證明我們不是。」

但在這篇文章中，你說：

「明確地說，我認為有相當大的機會我們最終會達到一個需要採取更重大行動的點，但那將取決於比今天更強大的、迫在眉睫的具體危險證據，以及對危險足夠具體的描述，以便制定有機會解決它的規則。」

以下是文章的結尾：

但如果我們想取得成功，我們需要加大努力。第一步是讓那些最接近這項技術的人簡單地說出人類所處境況的真相，這是我一直試圖做的；通過這篇文章，我正更明確、更緊迫地這樣做。

下一步將是說服世界的思想家、政策制定者、公司和公民，讓他們意識到這個問題的緊迫性和壓倒一切的重要性——與每天佔據新聞的成千上萬個其他問題相比，這值得投入思考和政治資本。然後將是一個需要勇氣的時刻，需要足夠多的人逆流而上，堅持原則，即使面臨經濟利益和個人安全的威脅。

我們面前的歲月將無比艱難，對我們的要求超乎我們的想像。但在我作為研究者、領導者和公民的時間裡，我見過足夠多的勇氣和高尚，讓我相信我們可以獲勝——當處於最黑暗的境地時，人類總有一種方式，似乎在最後一刻，聚集起獲勝所需的力量和智慧。我們沒有時間可以浪費了。

是的。這與 OpenAI 的 Sam Altman 的著作形成了鮮明對比，他在那裡談論酷炫的想法和增加收入。

我們面前的歲月將無比艱難（在某些方面），對我們的要求超乎我們的想像。這對 Dario 來說也是一樣。他認為能做的事情是無法解決問題的。

Dario 的策略是，我們歷史上總是在黑暗環境下，似乎在最後一刻挺過來。你知道，就像克魯索探長、閃電俠或吸血鬼獵人巴菲那樣。

他是一家名為 Anthropic 的前沿 AI 公司的執行長。

— Lesswrong

你的個人知識庫