達里奧可能並不相信超智能

Lesswrong·大約 4 小時前

我認為許多人對 Anthropic 的看法是建立在一個錯誤信念上：即達里奧·阿莫代相信超智能。透過分析他歷年來的言論，我認為他對 AI 的看法更傾向於實用的技術進步，而非那種會瞬間改變世界或失控的激進超智能願景。

認識狀態：我認為標題的觀點是正確的，且文中的證據在貝氏機率（Bayesian sense）意義上其實相當強而有力，但我不認為這篇文章本身寫得很好或特別有趣。但我必須湊足 500 字！我認為 2013 年的那場對話作為一段歷史紀錄非常值得一讀，與本文的核心問題無關，推薦大家去讀讀看。

我認為許多人與 Anthropic 的關係是建立在一個錯誤的信念之上：即 Dario Amodei 相信超人工智慧（superintelligence）。

我所說的「相信」超人工智慧是什麼意思？粗略來說，是指當智慧超越人類水準後，就其賦予掌控世界的能力而言，回報是巨大的，且將這種額外的智慧整合進系統中是切實可行的。

有許多證據顯示這一點，且可以追溯到很久以前。

2013 年，Dario 是 Holden 帶去與 Eliezer 和 Luke 討論 MIRI 策略的兩位科學顧問之一（另一位是 Jacob Steinhardt）。對話紀錄在這裡。這是我能找到的 Dario 關於該主題的第一份公開交流。完整讀完後，我不認為它能強烈支持我標題的論點。然而，有這段話：

Dario：不，但我以及或許 Jacob 隱含的觀點是，也許很大一部分潛在的毀滅世界型 AI 會先犯下這種錯誤，因此我們一開始就不會受到威脅。

如果你腦中裝載的概念與我對「超人工智慧」的概念相同，你是不會說出這種話的。我不認為上下文能特別為這句話辯解。

2016 年，Dario 是《AI 安全的具體問題》（Concrete Problems in AI Safety）的第一作者。我明白這是一篇學術論文。儘管如此，我認為這段話很有啟發性：

關於意外事故已有大量的公共討論。到目前為止，許多討論都強調了極端情境，例如超智慧代理人中目標函數設定錯誤的風險 [27]。然而，我們認為不需要援引這些極端情境也能有效地討論意外事故，事實上，正如一些評論者所指出的，這樣做可能會導致缺乏精確性且不必要的投機性討論 [38, 85]。我們認為，將意外風險架構在現代機器學習技術的實際（儘管通常相當普遍）問題上通常是最有成效的。隨著 AI 能力的提升以及 AI 系統承擔日益重要的社會功能，我們預期本文討論的基本挑戰將變得越來越重要。AI 和機器學習社群越能成功地預見並理解這些基本技術挑戰，我們最終在開發日益有用、相關且重要的 AI 系統方面就會越成功。

接下來的相關證據來自他在 2017 年 EAG 的一場小組討論「關於 AI 的沉思」（YouTube 連結）。這裡有多段相關引文（粗體為我所加）：

Michael Page： 我們在這個社群中經常談論開發先進 AI 相關的風險。但顯然，開發先進 AI 也有很多好處。這是一個有點調皮的問題，但可以這樣問：你們更擔心開發出先進 AI，還是更擔心「沒能」開發出先進 AI？

Dario Amodei： 我想我對兩者都深感擔憂。嗯，關於沒能開發出先進 AI，你可以觀察到的一點是，現代社會，特別是擁有核武器的社會，才存在了大約 70 年。從那時起發生過很多千鈞一髮的時刻，而且情況似乎正在惡化。你看，如果我觀察過去幾年的世界和地緣政治，中國正在崛起。嗯，西方世界有很多動盪，很多極具破壞性的民族主義。嗯，我們發展生物技術的速度非常快。我並不完全清楚文明是否與數位通訊相容。嗯，它確實有一些微妙的腐蝕性影響。

所以，逝去的每一年都是我們面臨的危險，雖然 AI 有許多危險，但實際上我認為，如果你知道，如果我們從不建造 AI，如果我們 100 年或 200 年都不建造 AI，我非常擔心文明是否真的能生存下去。嗯，當然，另一方面，你知道，我從事 AI 安全工作，所以我非常擔心變革性 AI 非常強大，可能會發生壞事，無論是因為安全或對齊問題，還是因為權力集中在控制 AI 的錯誤的人、錯誤的政府手中。所以我認為各個方向都很可怕，但不建造 AI 不是一個選項，因為我不認為文明是安全的。

如果你跟我有相同的「超人工智慧」指向標，並且你認為那才是隧道盡頭真正的東西（而不是一個可能但機率相當低的結果），你是不會說出這種話的。

Dario Amodei： 這裡有一句話總結。呃，AI 不需要學習所有的人類道德。所以，這實際上是即使在目前 MIRI 也同意的事情，但過去有一些著作，很多過去的著作，我認為人們在許多方面仍然被其錨定。我特別指的是，我認為我們希望從 AGI 得到的是，你知道，某種程度上穩定世界、結束物質匱乏、讓我們掌控自己的生物學、也許解決國際衝突。我們不想要，或者我認為不需要，你知道，去建立一個系統——至少不是我們自己建立一個系統——讓它成為主權者，並在無限的未來統治世界並控制整個光錐。所以當然你仍然需要了解很多關於人類價值觀的事情，但我仍然經常遇到一些人，他們思考這個問題的方式，我認為實際上比我們可能需要解決的還要困難。

誠然，這些話可能出自一個與我有相同「超人工智慧」指向標的人之口，但絕不是出自一個曾自問如何到達安全點然後停止，而不意外跨越危險門檻（或讓其他人這樣做）的人。

然後，唉，我們看到了《慈悲機器的福音》（Machines of Loving Grace, 2024）。

雖然我認為大多數人都低估了強大 AI 的好處，但討論激進 AI 未來的少數社群通常使用過度「科幻」的語調（例如強調意識上傳、太空探索或一般的賽博龐克氛圍）。我認為這導致人們不太認真對待這些主張，並賦予它們一種不真實感。明確地說，問題不在於所描述的技術是否可能或可行（主文詳細討論了這一點）——更多的是這種「氛圍」在內涵上夾帶了大量文化包袱和關於什麼樣的未來是理想的、各種社會問題將如何演變等未經說明的假設。其結果往往讀起來像是某個狹隘次文化的幻想，同時讓大多數人感到反感。

...

以大多數標準來看，我的預測將是激進的（除了科幻式的「奇點」願景之外^(2)），但我是誠摯且認真地提出這些預測。

^(2)我確實預期少數人的反應會是「這相當平庸」。我認為這些人需要用 Twitter 的話來說，「去接觸一下大自然」（touch grass）。但更重要的是，從社會角度來看，平庸是好事。我認為人們一次能處理的變化是有限的，而我所描述的速度可能接近社會在不發生極端動盪的情況下所能吸收的極限。

...

我們可以將其總結為「數據中心裡的天才之國」。

顯然，這樣一個實體將能夠非常快速地解決非常困難的問題，但要弄清楚有多快並非易事。兩個「極端」立場在我看來都是錯誤的。首先，你可能認為世界會在幾秒鐘或幾天內立即轉型（「奇點」），因為卓越的智慧會自我建構，並幾乎立即解決所有可能的科學、工程和操作任務。問題在於存在真實的物理和實際限制，例如在製造硬體或進行生物實驗方面。即使是一個新的天才之國也會遇到這些限制。智慧可能非常強大，但它不是魔法粉末。

其次，相反地，你可能認為技術進步已飽和，或受到現實世界數據或社會因素的速率限制，而優於人類的智慧將增加極少。這在我看來同樣不可信——我可以想到數百個科學甚至社會問題，如果有一大群真正聰明的人，將會大幅加速進展，特別是如果他們不限於分析，並且可以在現實世界中促成事情發生（我們假設的天才之國可以做到這一點，包括通過指導或協助人類團隊）。

我認為事實可能是這兩種極端圖景的某種混亂混合，隨任務和領域而異，且細節非常微妙。我相信我們需要新的框架來以富有成效的方式思考這些細節。

...

^(10)另一個因素當然是強大的 AI 本身可能被用來創造更強大的 AI。我的假設是這可能會（事實上，很可能會）發生，但其影響將比你想像的要小，正是因為這裡討論的「智慧邊際收益遞減」。換句話說，AI 將繼續迅速變得更聰明，但其影響最終將受到非智慧因素的限制，而分析這些因素才是對 AI 以外科學進步速度最重要的。

這篇文章暗示的一種可能性是，Dario 並不真正相信超人工智慧（我們目前正在檢驗的假設）。另一種可能性是他相信，但出於戰略目的選擇了掩飾。雖然我不認為 Dario 不會進行戰略性溝通，但我確實認為這大致是他的主流世界觀，而且這與他 2017 年的信念一脈相承。除了這兩種可能性之外，也許還有其他可能，儘管我還沒想出會是什麼。

《技術的青春期》（The Adolescence of Technology, 2026）也包含許多相關細節，我就不在此引用了。

除了文本證據外，讓我列舉其他幾條證據：

Dario 因為在晶片出口管制問題上（以及後來在「可接受使用政策」上，儘管後者較弱，因為如果不在這方面堅持立場，他在員工士氣/流失方面的損失可能比他在國防部的敵意中損失的更多）與川普政府為敵，付出了巨大的政治代價。這與他非常擔心誤用風險（特別是來自威權政府的風險）高度一致。
我曾與多位 Anthropic 員工交談，或私下得知相關對話，其中涉及此話題。幾位員工證實（轉述），Dario 並不像他們那樣對 ASI（人工超智慧）深信不疑，而且我尚未聽到任何員工反對說：不，Dario 實際上確實期望活著看到強大的奈米技術和戴森球，且這些擔憂是他定位 Anthropic 使命、涉及的潛在風險與利益、如何向大眾傳達這些信念等的基礎。（如果我錯了，歡迎其他 Anthropic 員工或 Dario 本人指正。）
Dario 唯一一次給出災難性後果 10-25% 的實際估計時，包含了多個風險來源。我猜測對齊失控的風險遠低於其中的一半。這在技術上與是否相信超人工智慧是正交的，但在實踐中，我認為這些信念是相關的。

參與討論

https://lesswrong.com/posts/Fnty2JpQ6WBD9FWo5/dario-probably-doesn-t-believe-in-superintelligence