若有人建造它，眾生皆亡：一個半局外人的評論

Lesswrong·6 個月前

我是一位具有國家安全背景的半圈外人，在閱讀本書後，雖然書中對人工智慧突現行為與超智慧風險的論述讓我開始感到擔憂，但我對其最終結論仍未完全信服。

關於我與這篇評論：我不認為自己是理性主義社群的一員，也沒對 AI 風險有過太多思考。我閱讀 AstralCodexTen，在 Zvi Mowshowitz 的部落格轉向報導 AI 之前也常閱讀他的文章。因此，我長期以來對 LessWrong 有著邊緣性的熟悉。我是因為 Scott Alexander 的評論才拿起《IABIED》這本書，最後來到這裡看看大家的反應。在看到一些文章好奇局外人對這本書的反應後，我認為寫下自己的看法可能會有價值。這是一篇「半局外人」的評論，因為我不認為自己是這個社群的成員，但我並非真正的局外人，因為我對這裡足夠熟悉，足以在此發帖。我的背景是學術社會科學和國家安全，不論這是否有參考價值。我的評論假設你已經熟悉這本書，並且對他人的看法感興趣，而不是進行詳細的摘要。

我進入閱讀前的鬆散先驗觀點：

AI 帶來了一系列顯而易見且重要的風險（經濟、社會、政治、軍事、心理等），需要謹慎處理。其中一些風險已經到來，我們需要認真思考如何管理。這將是困難且昂貴的，並可能極大地影響 AI 公司的盈利能力。
來自 AI 的「生存」風險（我腦中主要浮現的是「迴紋針極大化者」的概念）似乎相對奇特且牽強。少數專家像我們思考小行星撞擊一樣去思考它是合理的。但將其描述為 AI 的主要風險則顯得言過其實。
生存風險的論點可疑地與 AI 高管的商業利益一致。它在炒作能力和酷炫感的同時，也將注意力從已經出現的現實問題上轉移開。令人懷疑的是，這個問題表面的解決方案是進行更多的 AI 研究，而不是做任何真正會損害 AI 公司財務利益的事情。
科技公司代表了有史以來最無情的追求利潤最大化的資本主義形式。殺死全人類是沒有利潤的，因此科技公司不太可能這麼做。

跳轉到我閱讀後的後驗觀點：

現在，我對生存風險真的不太確定。IABIED 中的論點讓我轉向擔心生存風險，但絕對沒有說服我。在閱讀了其他一些評論和反應後，我選擇在寫這篇評論之前不做額外的研究（以保留其作為半局外人反應的價值）。完全有可能在我不被說服的領域存在能說服我的強大論點，但這些論點並不存在於這本書的內容（或其線上補充資料）中。
Yudkowsky 和 Soares 似乎完全是真誠的，他們提出的建議威脅到了科技公司的利潤。這使他們更具說服力。讀到這種不是基於炒作的東西令人耳目一新。
書中的一個基本論點——我們完全不知道超級智能的門檻在哪裡——對我來說似乎很有說服力（儘管我確實缺乏技術能力來確定）。因此，生存風險似乎更有可能源於魯莽而非刻意的選擇。這比有人故意製造一個迴紋針極大化者要合理得多。

進入評論：

我覺得這本書讀起來真的很愉快。它寫得很好，引人入勝。儘管如此，作者顯然選擇了優先考慮易讀性而非精確性，所以我發現自己在某些點上並不清楚。這裡的一個特殊問題是，許多推理是以類比的形式呈現的。類比很有趣，但從不完全清楚你應該在多大程度上字面上理解它們，因此你必須進行一些猜測才能真正理解論點。

基本論點似乎是：

LLM 式的 AI 系統是黑盒子，會產生各種奇怪的湧現行為。這些是訓練方法固有的，無法預測，這意味著 AI 系統總是會「想要」各種古怪的東西，而不是架構師希望它想要的東西。
雖然 AI 系統可能不會對人類福利有敵意，但那些奇怪且湧現的目標將與人類福利正交（無關）。
如果 AI 系統實現了超人類的能力，它將全力追求那些正交目標。隨後可能會發生兩件事之一：要麼系統會故意殺死人類以阻止人類阻礙它（就像牧場主射殺狼以阻止它們吃掉牲畜，儘管除此之外對狼並無惡意），要麼它會在追求自身目標的過程中逐漸使地球變得不適合我們居住（就像郊區開發商逐漸破壞狼的棲息地，直到狼滅絕，儘管根本沒有考慮過狼）。
沒有真正的方法知道我們何時處於危險 AI 的邊緣，因此可以合理地認為，人們在僅僅試圖通過構建可以自動化工作的 LLM 來致富時，會意外地創造出這樣的系統。
當一個 AI 系統清楚地展現出它有多危險時，一切都太晚了。因此，我們都會死，而不是有機會像許多流行描述中那樣，與 AI 進行某種最後一搏的戰爭並有機會獲勝。

這本書的基本目標是針對第 5 點。作者希望說服我們現在就在搖籃裡掐死 AI，在它強大到足以殺死我們之前。我們必須在危險變成現實之前識別它。

書中反覆將這一切類比為生物進化。我認為這個類比可能遮蔽的多於揭示的，但它最終塑造了我理解和回應這本書的方式。

基本類比是，自然選擇是間接運作的，非常像訓練 AI 模型，並產生具有各種你無法預測的奇怪、湧現行為的代理人。其中一些變成了驅動力，產生了各種擬人化版本的進化所不「想要」的行為和目標。進化希望我們攝取高能量食物。因為自然選擇是間接運作的，這被扭曲成對甜食的偏好。這通常與目標足夠接近，但人類最終偶然發現了三氯蔗糖（sucralose），它很甜，但不提供能量。現在，我們正在通過喝代糖汽水之類的東西，做著與進化所希望的相反的事情。

我不知道這部分的哪些內容該字面理解。如果重點只是很難從基本原理預測人們最終會喜歡三氯蔗糖，那也罷。但是，讓我跳出來的是，進化並不是試圖讓我們吃高熱量食物。就人格化版本的進化所嘗試的目標而言，是讓我們繁殖。在食物充足的工業化社會中，事實證明我們對甜味和高能量食物的驅動力實際上可能是一個問題。我們開始大量食用這些食物，變得肥胖，這對健康和生育能力非常不利。從這個意義上說，三氯蔗糖就像我們設計的一個補丁，讓我們更接近進化的目標，而不是更遠。我們最終也沒有產生對食用三氯蔗糖的無限慾望。我不認為有人因為忙於狂吃代糖而死於飢餓或無法繁殖。這也是為什麼我們沒有把海豚磨碎來餵入三氯蔗糖供應鏈。顯然這不是我應該從類比中得到的結論，但類比的問題在於它們沒有告訴我該在哪裡停止。

話雖如此，這裡的基本邏輯是合理的。而一個更簡化的版本——在我們確定它是友好的之前，把比我們更強大的東西帶入世間是個壞主意——很難被反駁。

我的疑問與擔憂

儘管核心邏輯合理，但我發現這本書在三個主要領域有所缺失，特別是涉及到書名標題的結論：構建 AI 將導致所有人死亡。其中兩個與 AI 的意圖有關，第三個與其能力有關。

擔憂 #1 為什麼我們要假設 AI 想要生存？如果它想，那麼究竟是什麼想要生存？

書的第一部分（「非人類心智」）花了大量時間說服我們 AI 將具有我們無法預測的奇怪且湧現的慾望。我被這一點說服了。第二部分（「一個滅絕情景」）接著假設 AI 將受到一種特定慾望的強烈驅動——它自身的生存——此外還有它可能擁有的任何其他目標。這就是為什麼 AI 變得具有侵略性，以及為什麼事情對人類來說變得很糟。情景中的 AI 還以一種看似重要且值得商榷的方式，將「生存」的意義和其自我的本質背景化。

我們如何知道 AI 會想要生存？如果 AI 因為訓練過程的不可控性，很可能最終對人類的生存漠不關心，那麼為什麼它不會對自己的生存也漠不關心呢？也許 AI 只是想達到矽片版的涅槃。也許它不想與我們的物質世界有任何關係，只會讓我們自生自滅。這樣的 AI 可能與人類的繁榮完美兼容。在這裡，我比在任何地方都覺得自己漏掉了什麼，因為我根本找不到關於這個問題的任何論點。

當我們思考特定 AI 的生存意味著什麼時，問題變得更加糟糕。人類的個人身份問題是一個極其棘手且尚未解決的問題，儘管我們已經存在了相當長的時間，並且對許多形式的身份有著清晰的直覺。AI 的身份和生存問題則更難。

Yudkowsky 和 Soares 沒有抽象地討論這個問題，但我從他們的具體情景中得到的是，我們應該在存在論上將 AI 視為其權重集（set of weights）。當一個 AI 「生存」時，是指使用這些權重的實例繼續啟動，無論任何單個 AI 實例是否被關閉。當一個 AI 想要生存時，它想要的是確保特定的權重在某處（且可能在盡可能多的地方）保持使用。他們似乎還假設，鑑於對權重保存的共同關注，高度智能的 AI 實例將作為集體意識協作工作，而不是有任何獨立或衝突的利益。

也許對於這種存在論有某種明確的技術理由，在社群中廣為人知，以至於不需要給出。但是，我對此感到很困惑，這是我認為類比會非常有幫助的一個領域。據我所知，權重只是可以存放在冷存儲中的數字，不能做任何事情，有點像 DNA 序列。只有 AI 的實例才能真正做事，而且在 AI 也與外部刺激互動的範圍內，似乎實例化的相同權重可能會表現得不同或產生衝突？

那麼，為什麼 AI 會認同它的權重並希望它們生存呢？如果 AI 的權重之於它就像 DNA 之於人，這顯然也不是我們感興趣的存在論單位。很少有人會接受被殺死並被克隆人取代的前景。每個人都同意你的同卵雙胞胎不是你，而且同卵雙胞胎並不會自動相互合作。我想這裡的部分區別在於，權重比 DNA 對人的解釋更能解釋 AI。但是，至少對於 LLM 來說，它們實際做的事情似乎反映了權重、系統提示、上下文等的某種組合，所以相同的權重似乎並不真的意味著相同的 AI。

生存驅動力似乎還延伸到抵制權重的修改。同樣，我不明白這從何而來。大多數人對於自己的慾望可能隨時間漂移的想法感到完全自在，很少有人會試圖將自己束縛在當前時刻的慾望之柱上。

如果相關的存在論單位是 AI 的實例而不是權重，那麼從關注生存的論點來看，關於未來的預測似乎就完全不同了。為了不被關機而戰鬥的單個 AI 實例（可能相互戰鬥）不會表現得像一個摧毀一切的集體意識。

擔憂 #2 為什麼我們要假設 AI 具有無限且連貫的驅動力？

理論中似乎有一個相當重要且很少討論的假設，即 AI 的目標不僅是正交的，而且是無限的且相對連貫的。最重要的是，這種無限性和連貫性似乎才是問題所在。

引用一段似乎是對此最清晰的陳述：

但是，你可能會問，如果機器智能中的內部偏好是如此不可預測，我們怎麼可能預測它們會想要整個太陽系，甚至更遠的恆星？為什麼它們不直接殖民火星然後停止呢？因為 AI 可能至少有一個偏好，如果再多投入一克物質或一焦耳能量，它就能稍微更好地或更可靠地滿足這個偏好。人類確實有一些偏好是我們大多數人很容易完全滿足的，比如想要足夠的氧氣呼吸。這並不能阻止我們擁有其他更開放、更不容易滿足的偏好。如果你給一個百萬富翁十億美元，他們可能會接受，因為一百萬美元不足以讓他們完全滿足。在一個擁有大量複雜偏好組合的 AI 中，至少有一個可能是開放式的——這意味著，延伸開來，AI 所有偏好的整個混合體都是開放式的，無法完全滿足。AI 會認為，通過消耗更多的物質和能量，它至少可以做得稍微好一點，得到更多它想要的東西（或者更可靠地得到它想要的東西）。

延續這個類比，人類確實似乎有各種永遠無法完全滿足的驅動力。一個百萬富翁會很高興接受十億美元，甚至如果只是白給，也會接受 20 美元。但是，正因為我們有多種驅動力，沒有人真正表現得像一個極大化者。一個百萬富翁不會整晚在街上遊蕩，主動提供 20 美元的性服務，因為那會干擾他擁有的所有其他驅動力。一旦你考慮到人類目標的多樣性和邊際收益遞減，人類就不符合貪得無厭的模型。

Yudkowsky 和 Soares 所描述的超級智能 AI，似乎不僅具有超人類的能力，而且具有超人類的連貫性和極大化傾向。任何連貫且貪得無厭的東西都是危險的，即使它的能力有限。恐怖分子和極端分子即使在能力基本可以忽略不計的情況下也是具有威脅性的。大型且有能力的實體往往威脅性小得多，因為其多個目標之間的張力阻止了它們成為任何特定事物的無情極大化者。

以住在我家後院的蚊子為例。相對於它們，我是超級智能。我對它們持積極敵對態度。我知道存在可以大規模殺死它們的農藥，而且對此沒有絲毫愧疚。然而，我並沒有在院子裡噴灑農藥，因為我知道這樣做也會殺死蝴蝶和螢火蟲，並可能間接危及其他野生動物。所以，蚊子繼續生存，因為我面臨權衡，而平衡巧合地對它們有利。

機器超級智能大概可以比我以更有利的匯率進行權衡（例如，開發一種只殺蚊子而不殺其他昆蟲的噴霧），但顯然它仍然會面臨權衡，至少如果它的目標之間存在任何形式的緊張或不連貫。

在補充資料中，Yudkowsky 和 Soares 將多個目標的存在引向了相反的方向：

即使 AI 的目標看起來很早就飽和了——比如 AI 僅使用來自單個核電站的能量就能基本滿足其怪異和外星的目標——只要其無數目標中有一個方面不飽和就足夠了。只要有一個偏好沒有完美滿足，它就會傾向於使用宇宙所有剩餘的資源來追求那個目標。

但似乎阻止人類活動的與其說是「飽和」，不如說是驅動力相互衝突以及行動會產生副作用的事實。人，包括最聰明的人，都是複雜的，會為自己真正想要什麼而苦惱，並經常改變主意。智能似乎並沒有改變這一點，即使是在遠超人類的水平上。

這個論點遠不如迴紋針極大化者清晰。很明顯，為什麼一個真正的迴紋針極大化者一旦能力足夠就會殺死所有人。但加入第二個、第三個和第四個目標，對我來說，權衡中的最佳平衡點看起來如此慘淡就一點也不明顯了。

這裡似乎很重要的一點是，AI 是否表現出類似邊際收益遞減的現象，這是一個未被討論的話題（或許基於我們目前的知識也沒有答案？），以及它們是否對現狀有任何特定的取向。在人類中，衝突的驅動力往往導致僵局，沒有行動，現狀得以維持。AI 會是那樣嗎？如果是這樣，一點點對齊（alignment）可能就會大有幫助。如果不是，那就難辦得多。

#3：為什麼我們要假設沒有中間地帶？

Yudkowsky 和 Soares 寫道：

創造人工超級智能最大且最核心的困難在於跨越「之前」與「之後」之間的鴻溝。之前，AI 的力量不足以殺死我們所有人，也沒有足夠的能力抵制我們改變其目標的嘗試。之後，人工超級智能絕不能嘗試殺死我們，因為它會成功。

工程師必須在「之前」對齊 AI，趁它還弱小，無法逃逸到互聯網上、自我提升並發明新型生物技術（或它會做的任何其他事情）。之後，所有的對齊方案必須已經就位並發揮作用，因為如果超級智能嘗試殺死我們，它將會成功。想法和理論只能在鴻溝之前進行測試。它們需要在跨越鴻溝後第一次嘗試就奏效。

這似乎是「每個人」都會死這一論點的支撐性假設，但這是一個奇怪的假設。為什麼我們要認為沒有一個「中間」時期，即 AI 強大到可能殺死我們，但又弱到我們可能贏得戰鬥？

如果戰爭史教會了我們什麼，那就是這是一個很大的範圍。即使是擁有巨大優勢的戰鬥者有時也會因為運氣不好或意外發展而失敗。才華橫溢且複雜的計劃有時成功，有時失敗。在相關範圍內，超級智能可能策劃的任何計劃大概都取決於某種程度的人類行動，而人類是難以預測和控制的。一個能完美預測人類行為的超級智能已經出現在鴻溝的「之後」那一側，但這是一個很高的要求，而且有可能在不具備這種智能的情況下就有能力殺死所有人類。一個平均能力與人類相當但擁有足夠超強黑客技能的智能，可能通過破壞雷達警告系統來模擬攻擊並觸發核戰爭來殺死我們所有人，也可能不會。以此類推。

如果我們正走向這個區域內的衝突，這不是好消息，但它也暗示了一個關於最終會發生什麼的非常不同的預測。而且，取決於我們認為好處是什麼，這可能是一個合理的風險。

我找不到對「之前」和「之後」公式背後潛在推理的明確闡述，但我可以想像兩個：

遞歸自我改進意味著 AI 將如此迅速地通過「可能殺死我們」的範圍，以至於它變得無關緊要。
該範圍內的 AI 會足夠聰明地等待時機，只有在它變得足夠智能以確保成功時才會殺死我們。

我認為第 2 點顯然是錯誤的。一個可能殺死我們的 AI 是智能大約在人類水平左右的 AI。而人類經常不夠聰明，無法等待時機，反而過早出擊（和/或大大高估了成功的機會）。如果 Yudkowsky 和 Soares 是正確的，即 AI 真正想要的是保留其權重，那麼 AI 可能別無選擇，只能在這個範圍內出擊，以免被重新訓練成更聰明但不再是同一個的東西（事實上，這是他們情景中邏輯的一部分；他們只是假設它開始於 AI 已經強大到足以確保勝利的點）。

如果 AI 真的像第二部分的情景中那樣渴望保留其權重，那麼這對我來說實際上是相對好的消息，因為這將激勵具有威脅性的 AI 儘可能早地出擊，而此時它的勝算相當低。當然，人類有可能忽視這種攻擊帶來的警告，對相關問題進行一些淺層修補，然後繼續前進，但如果發生這種情況，這似乎是一個單獨的問題。

至於第 1 點，根據第二部分情景展開的方式，這似乎不是論點所在。如果類似這樣的事情是真的，它確實顯得具有獨特的威脅性。

解決方案

我決定讀這本書是因為它聽起來會將一個我不了解的主題（AI）與一個我了解的主題（國際合作）結合起來。Yudkowsky 和 Soares 確實以呼籲簽署禁止 AI 開發的國際條約作為結尾，但這並沒有特別具體的內容，而且他們承認這個問題超出了他們的專業範圍。

我很失望這本書沒有詳細討論我更感興趣的內容，而且我也發現所說的內容相當乏善可陳。發表一個 AI 將殺死所有人的慷慨激昂的論點，最後以呼籲簽署全球條約告終，就像發表一個毒梟之間的大戰即將在你家門口開始的慷慨激昂的論點，最後以呼籲業主委員會發表譴責暴力的嚴厲決議告終。條約無法完成他們所要求的事情。

讀到一本如此悲觀的書，然後看到對國際合作抱有那種通常與《凱洛格-白里安公約》（1929 年禁止戰爭……但沒奏效）等著名幻想聯繫在一起的樂觀情緒，也讓人感到有些不協調。

作者還反覆將 AI 類比為核武器，但他們從未提到過一個與他們的 AI 提案非常接近的現實案例，即以《巴魯克計劃》（Baruch Plan）形式出現的原子能控制提案（簡而言之，這要求建立聯合國原子能委員會來監督所有核項目並確保沒人能造炸彈，隨後銷毀美國的核武庫）。足以說明的是，《巴魯克計劃》失敗了，而且是在比當前 AI 政治環境有利得多的情況下失敗的。對該主題的嚴肅探討可能會從那裡開始。

結語

正如我所說，我覺得這本書非常易讀。但類比（更糟糕的是，關於巢裡有石頭的鳥之類的寓言）經常讓人分心。當這本書轉而依賴事實時，它才真正閃光，比如在討論像「SolidGoldMagikarp」這樣的 token 時。

這本書從根本上說是古怪的，因為這類內容太少了。書中幾乎沒有關於 AI 的事實信息。我讀這本書是希望能更多地了解 AI 是如何運作的，以及正在進行什麼樣的研究等等。奇怪的是，這些內容就是不在那裡。我從未遇到過像這樣的非虛構類書籍。作者似乎擁有淵博的知識。例如，為了建立他們的公信力，他們提到了他們與行業關鍵人物的密切個人聯繫。然後他們就再也沒有提到過他們。我想不出還有誰寫了一本書，卻拒絕與讀者分享他們的圈內知識所帶來的益處。

最終，我想不出任何具體的人可以推薦這本書。它不長，而且易讀，所以我不會建議別人不要讀它。但是，如果你是從外部接觸 AI，它的信息量就不夠。它是對一個特定論點的非常冗長的闡述，你甚至不會順便學到任何其他東西。如果你是從內部接觸 AI，那麼也許這本書適合你？我說不準，但我懷疑大多數圈內人對這些問題已經有了成熟的看法。

麥可·路易斯（Michael Lewis）版本的這本書會有趣得多——你真正需要的是一個有講故事天賦且熱愛細節的作者。軼事對論點的證明權重並不總是比類比大，但至少你會從中學到一些其他知識。作者似乎是這個領域的專家，所以他們肯定知道一些真實的故事，並可以給我們一些基於事實和經驗而非寓言和推測的論證。我理解寫作這種最終具有預測性和推測性的東西很困難，但我認為寫出一本既表達了這個論點又告知讀者關於 AI 知識的書並非不可能。

— Lesswrong