重新審視建造友善AI的競賽

Lesswrong·5 個月前

我正在重新審視過去與 Eliezer 的爭論，旨在論證 MIRI 在 2013 年打造「友好人工智慧」的計畫在策略上是錯誤的，無論技術對齊難度為何，該計畫都因哲學上的過度擴張、缺乏公眾合法性以及引發 AI 軍備競賽等風險而顯得不合理。

最近我一直在重新審視一些過去與 Eliezer 的爭論，目的是為了撥亂反正。呃，我的意思是為了改善 AI 風險（AI x-risk）社群的戰略立場。（這與我最近的主題「人類不擅長戰略」有關——為什麼我沒有早點這樣做呢？）

當然，最核心的舊爭論在於：MIRI 在 2013 年左右提出的計劃——即建立一個足以改變世界的「友好 AI」（Friendly AI）^([1])——是否是一個好計劃。如果今天有人要為其辯護，我想他們的主要論點會是：在當時，無法得知解決友好性/對齊問題（Friendliness/alignment）有多難，所以值得一試，萬一它其實很簡單呢。這聽起來似乎合理，因為關於對齊技術難度的新證據是 MIRI 轉向其計劃的主要原因；但我想要論證的是，事實上即使沒有這些資訊，當時也有足夠充分的論點可以得出該計劃很糟糕的結論：

MIRI 當時正在自創元倫理學（部署新穎或具爭議性的哲學），即使對齊在狹義的技術層面上被證明並不那麼困難，這也不是一個好主意。
考慮到不可見的安全性問題（illegible safety problems）的可能性，該計劃風險極高。一個小團隊能及時發現並使所有相關問題變得「可見」的機率有多少？即使對齊實際上很容易且沒有隱藏陷阱，一個小團隊也無法獲得足夠高的合理信心來證明按下「啟動」按鈕的正當性。這使得該計劃要麼毫無意義（如果團隊足夠理性/謹慎，最終不按下按鈕），要麼就是魯莽（如果團隊無論如何都會按下按鈕）。
如果該計劃在其他方面取得成功，它將導致一個小團體在過程中掌握改變世界（或毀滅世界）的力量。
如果知情，世界上大多數人都不會信任 MIRI（或任何類似團體）去執行這件事，因此 MIRI 勢必得打破一些廣泛認同的倫理約束。（這也是當前《超智能聲明》背後的論點：在沒有「1. 廣泛的科學共識確保其安全可控，以及 2. 強大的公眾支持」的情況下，任何人都不應構建超智能。）
它可預見地激發了其他人（如 DeepMind 和 OpenAI）加入競賽^([2])，並使得呼籲暫停/停止 AI 發展的聲音極難吸引注意力和資源。

（在我目前的論證中，當時尚未出現的主要修辭創新是「不可見的安全性問題」這一概念，但關於可能存在小團隊容易忽略的隱藏陷阱這一普遍想法，當時已經被提出過，或者對 MIRI 及其周邊社群來說應該是顯而易見的。）

考慮到現有及新加入競賽者的計劃，這些論點中的許多在今天仍然具有現實意義，但由於歷史原因（即 MIRI 及其支持者為了捍衛 MIRI 的計劃而反對這些論點，因此它們從未成為 LessWrong 共識或修辭工具箱的一部分）而不為人所知。這篇文章的部分努力是為了糾正這一點，並幫助將修辭策略從「把一切都押在技術對齊難度上」轉移開來。

（這篇文章曾被撤回草稿，以便為我的主張尋找更多支持證據，這也給了我一個闡述進一步思考的機會。）

我近年來常談論的話題是：相對於我們在技術創新方面的能力，人類在哲學進步方面是多麼糟糕；AI 在這方面可能同樣糟糕（甚至在相同的相對意義上更糟）；以及這如何極大地增加了生存風險（x-risks）和苦難風險（s-risks）。但我最近開始意識到（或更多地關注到）我們在戰略思維方面也是多麼糟糕，以及 AI 在這方面可能同樣糟糕（在類似的相對意義上），這對生存風險和苦難風險的貢獻可能更大。^([3])

（進一步說明：如果 MIRI 的計劃事實上是一個壞計劃，即使從我們過去的角度來看也是如此，為什麼沒有更多人反對它？難道沒有人的全職工作是戰略性地思考人類應如何應對像 AI 轉型這樣複雜且影響深遠的未來技術/事件嗎？如果有，為什麼他們沒有試圖勸說 Eliezer/MIRI 放棄他們的計劃？無論如何，如果你是在外星物種中觀察這段歷史進程，你會如何評價他們的戰略能力以及成功應對此類事件的機會？）

這一切的一個潛在含義是，提高 AI 的戰略能力（相對於其技術能力）可能至關重要（以便它們能幫助我們進行戰略思考，及/或避免自身犯下災難性錯誤），但這顯然比 AI 的哲學能力更像是一把雙面刃。提高人類的戰略思維是更穩健的好事，但與提高人類的哲學能力一樣，面臨著缺乏明顯可行性的問題。也許結論與 12 年前相同：我們應該努力暫停或放慢 AI 轉型，以爭取時間來解決這一切。

^(^)在與 @habryka 和 @jessicata 討論後，這部分從「建立一個友好 AI 以接管世界，服務於降低生存風險」修改而來。Jessica 還發現了這段文字來支持這一說法：「MIRI 聯合創始人 Eliezer Yudkowsky 通常談論的是特別是 MIRI——或至少是功能等同的組織——創造出友好 AI。」（有趣的是，僅僅 12 年前在 LW 上的常識，現在卻需要難以找到的證據來證實。）
^(^)根據連結的文章，Shane Legg 通過 Eliezer 在 2000 年的一次演講接觸到了 AGI 的想法，隨後在 2010 年共同創立了 DeepMind（在 Eliezer 將其介紹給投資者 Peter Thiel 之後；這在歷史上很有趣，特別是關於 Eliezer 這樣做的動機，我目前在網上找不到相關資訊）。我從 2004 年就開始反對 SIAI/MIRI 建立友好 AI 的計劃：「也許它可以通過投入更多資源來強調不安全 AI 的危險，並探索奇點的其他途徑來做更多好事，例如研究人類認知，並計劃在必要技術成熟時如何進行智能增強（IA）。」
^(^)如果我們不擅長哲學但擅長戰略，我們可以意識到不可見生存風險的可能性（包括由哲學錯誤引起的風險），並據此決定停止或放慢危險技術的開發。如果我們擅長哲學但不擅長戰略，我們可能會避免犯下災難性的哲學錯誤，但在做出具有重大影響的決策過程中，仍會犯下各種戰略錯誤。

— Lesswrong

你的個人知識庫

重新審視建造友善AI的競賽