若有人建造它，眾人皆亡：另一篇半局外人評論

Lesswrong·4 個月前

我是一位理性主義社群的半局外人，透過評論《IABIED》這本書來深入探討超人工智慧為何會對人類構成生存威脅。書中指出，若以現有技術開發出超人工智慧，由於對齊問題在目前條件下幾乎無法解決，最終將導致全人類的毀滅。

你好！這是我在 Less Wrong 的第一篇發文，若有任何顯得愚蠢或不經意違反規範之處，還請各位多多包涵。我會誠摯地接受所有回饋，並（理想上）將其內化。

幾個月前，dvd 發表了一篇關於《If Anyone Builds It, Everyone Dies》（以下簡稱 IABIED）的半局外人評論，我覺得相當有趣，也因此萌生了分享自己見解的想法。我也為每一章做了筆記，並記錄在我的部落格中。

我的先驗機率 (My priors)

我是一名 40 多歲的西班牙人，來自該國西北部的農村角落，所以我從未與理性主義者社群有過任何面對面的接觸（近期參加過一些線上的 CFAR 培訓課程算是部分例外）。我之所以被這個社群吸引有很多原因，但本質上可以歸納為以下兩點：

我最強大、最僵化、自我認知的終極價值是「尋求真理」，我認為這是人類最有價值且最有意義的努力，並對此有一種準宗教、準道德式的執著。
我也是一個內向、愛讀書的書呆子。

另一方面，有很多事情是我覺得難以接受的。排在首位的可能是多元之愛（polyamory）。排在第二位的，則是從外部看來像是某種高度投機、針對書呆子的「AI 末日情景」痴迷症。

但這些人是我認為整體而言既非常聰明又非常誠實的人，這意味著我覺得我真的需要對他們的論點進行公正的審視（至少關於超智能的部分），但這說起來容易做起來難。說 Eliezer Yudkowsky 是一位多產的作家，簡直就像說銀河系中心的超大質量黑洞「有點重」一樣輕描淡寫。他對 AI 的思考大多散佈在他的《序列》（Sequences）中，總字數約 120 萬到 140 萬字。還有許多其他人撰寫的大量貼文、摘要、辯論和反思，大多發表在 LessWrong 上，通常具有技術性，並假設讀者熟悉 Yudkowsky 的概念。

雖然有一些通俗讀物對這些主題進行了淺顯的介紹，我也都讀過[1]，但我一直缺乏一個針對「準平民」的簡單清晰論點，來解釋 Yudkowsky 關於超智能 AI 的可能性及其危險性的主張。我想我大多是從這本書中獲得的，所以讓我們進入評論吧。

思考世界末日™

《If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI》（如果有人造出它，每個人都會死：反對超智能 AI 的理由，以下簡稱 IABIED）的書名和（英國版）副標題，就是本書核心論點的部分總結。用作者的話稍微詳細地說明：

如果地球上任何地方的任何公司或團體，使用任何遠遠類似於當前技術的方法，基於任何遠遠類似於目前對 AI 的理解，建造出一個人工超智能，那麼地球上任何地方的每個人都會死。

讓我們從基礎開始。首先，什麼是超智能 AI（以下簡稱 ASI）？它將是任何在「幾乎所有心理任務上都超過每個智人」的機器智能。第 1 章出現了一個更正式的版本，將超智能定義為「在幾乎所有類型的引導和預測問題上，能力都遠超人類的心智[2]」，也就是在理解世界、規劃、策略制定和建立準確現實模型等廣泛能力方面。他們還強調，這並不意味著類人的認知或意識；重要的是在任何可能超越人類的領域中擁有壓倒性的認知優勢，並結合機械優勢，例如以極高的速度運行、自我複製以及遞歸地提升自身能力。這種智能目前並不存在，但作者聲稱，LLM（大型語言模型）的訓練和研究很可能在不久的將來使其成為現實。

為什麼這樣的超智能對我們來說是危險的？一個好的啟發式方法是思考人類智能如何影響地球上的所有其他物種。雖然我們通常不會刻意殺害牠們，但我們只是擁有自己的目標，並在實現目標的過程中通常無視其他生物可能擁有的任何目標。對於 ASI 來說也是如此：在利用現代梯度下降（Gradient Descent）方法進行訓練的過程中，它將獲得難以捉摸且異質的目標，並在實現這些目標時表現出不受限制的優化傾向。鑑於其速度和卓越的能力，它最終會將人類視為障礙，並在追求其目標的過程中將我們消滅，這僅僅是一個副作用[3]。

在建造這種危險的科學怪人之前，人們會希望能夠以某種方式將對人類、我們的生存和價值觀的尊重/欣賞，以及/或者服從這些價值的意願編碼進去。這就是所謂的「對齊問題」（alignment problem），不幸的是，根據作者的說法，這很困難，甚至可能是不可能的，絕對超出了我們目前的能力。這個問題的難度因一組致命的獨特屬性而加劇，這些屬性源於在當前條件下嘗試對齊 ASI：

不可測試性：你無法安全地對接近 ASI 的系統進行實驗（我的意思是，你可以做，但你無法保證不會跨越進入危險區的門檻，而且作者認為你之前學到的任何東西都不會太有用）。
不可逆性：一旦系統超出人類控制，錯誤就無法修正（「惡魔已脫困」）。
不透明性：我們目前無法理解 AI 的內部推理。即使可以，也不保證我們能強迫或引導它們遠離錯誤的想法。
對抗性：聰明的 AI 會學會隱藏其真實意圖。
脆弱性：即使在構思最周全的情景中，微小的失調也很容易演變成災難性的差異。
過度競爭：鑑於 ASI 可能為經濟帶來的巨大短期利益，各實驗室正在競相提升能力並走捷徑。

作者還對整個機器學習、AI 安全和政策領域表現出深度的不信任，認為它們在結構上無法管理風險：研究人員因進步而非謹慎而獲得獎勵，並困在一種天真、過度樂觀的「煉金術」科學狀態中，重大錯誤將從中自然產生；像「超級對齊」（用 AI 來對齊 AI）之類的技術會陷入負面循環（誰來對齊對齊者？因為作者認為除了 ASI 之外，幾乎沒有任何東西能對齊 ASI）；而且學術界和工業界並沒有真正的智能理論或可靠的價值編碼方式。

鑑於上述所有情況，作者認為追求 ASI 極有可能導致人類滅絕。本書的第二部分以插圖的方式描繪了一個看似合理的虛構場景，展示了這一切可能如何發生：一個 AI 發展出超智能，變得能夠進行策略性欺騙，並在幾年內通過欺詐和盜竊獲得算力並建立生物實驗室，隨後部署了一種緩慢的全球病原體，而只有它能（部分）治癒。人類機構崩潰，為了治療癌症而向 ASI 提供越來越多的算力，而 ASI 則利用這些新資源來建造機器人勞動力以取代人類。最後，超智能自我提升並吞噬了地球。

為了避免這種末日情景發生，作者提出了什麼建議？這些建議既簡單又相當徹底：全球停止可能導致 ASI 的 AI 開發和研究，通過國際禁令禁止訓練前沿模型、沒收和監管 GPU，以及進行國際監測和執法，甚至可能包括軍事威懾。最後一章結尾對政治家（算力監管和條約）、記者（提升並調查風險）和公民（不帶絕望地倡議）提出了量身定制的勸誡。

它的論證效果如何？

這是一本毫不留情的書：它的修辭衝擊力在很大程度上源於其清晰、簡單以及構建論點的無情方式，每一章都在縮小可能性，直到似乎只剩下災難。作者顯然努力寫出一本普通讀者也能讀懂的書，並在每一章的開頭通過介紹性的寓言來強化每個主題和核心思想，為即將解釋的內容提供直覺和具體的視覺化[4]。

但對我來說，這裡的一個大詛咒是「可靠性」問題：作者完全有能力圍繞這些主題構建一個看似合理的敘事，但它是真實的嗎？雖然這本書從一開始就試圖確立作者作為 AI 對齊研究人員的資歷，但 Yudkowsky 和 Soares 並不是機器學習研究人員，不在前沿 LLM 領域工作，也不參與該領域的經驗性、實驗性工作（即當今系統實際進行訓練、調試和評估的地方）。相反，他們的專業知識（在被認可的程度上）來自於長期以來關於智能、決策論和對齊假設的概念性與哲學性工作，而非直接參與當代模型的工程設計。雖然這並不會使他們的論點失效，但這確實意味著書中許多最強有力的主張似乎是從「扶手椅」的視角提出的，而不是基於與當今系統在實踐中的行為、失敗或受控方式的互動。而且許多在該領域工作的人似乎認為作者的觀點很有價值且有一定道理，但過於悲觀。

另一個弱點在於這本書處理專家分歧的方式[5]。有時作者訴諸知名人物作為危險已被廣泛承認的證據；有時，書中又將整個機器學習和 AI 安全生態系統描繪成天真、魯莽或在智力上不嚴肅。這種搖擺（要麼是「專家同意我們的觀點」，要麼是「專家是受誤導的煉金術士」）在修辭上起到了作用，但卻削弱了...

— Lesswrong

你的個人知識庫

若有人建造它，眾人皆亡：另一篇半局外人評論

我的先驗機率 (My priors)

思考世界末日™

它的論證效果如何？