重新審視建造友善AI的競賽
我正在重新審視過去與 Eliezer 的爭論,旨在論證 MIRI 在 2013 年打造「友好人工智慧」的計畫在策略上是錯誤的,無論技術對齊難度為何,該計畫都因哲學上的過度擴張、缺乏公眾合法性以及引發 AI 軍備競賽等風險而顯得不合理。
最近我一直在重新審視一些過去與 Eliezer 的爭論,目的是為了撥亂反正。呃,我的意思是為了改善 AI 風險(AI x-risk)社群的戰略立場。(這與我最近的主題「人類不擅長戰略」有關——為什麼我沒有早點這樣做呢?)
當然,最核心的舊爭論在於:MIRI 在 2013 年左右提出的計劃——即建立一個足以改變世界的「友好 AI」(Friendly AI)^([1])——是否是一個好計劃。如果今天有人要為其辯護,我想他們的主要論點會是:在當時,無法得知解決友好性/對齊問題(Friendliness/alignment)有多難,所以值得一試,萬一它其實很簡單呢。這聽起來似乎合理,因為關於對齊技術難度的新證據是 MIRI 轉向其計劃的主要原因;但我想要論證的是,事實上即使沒有這些資訊,當時也有足夠充分的論點可以得出該計劃很糟糕的結論:
- MIRI 當時正在自創元倫理學(部署新穎或具爭議性的哲學),即使對齊在狹義的技術層面上被證明並不那麼困難,這也不是一個好主意。
- 考慮到不可見的安全性問題(illegible safety problems)的可能性,該計劃風險極高。一個小團隊能及時發現並使所有相關問題變得「可見」的機率有多少?即使對齊實際上很容易且沒有隱藏陷阱,一個小團隊也無法獲得足夠高的合理信心來證明按下「啟動」按鈕的正當性。這使得該計劃要麼毫無意義(如果團隊足夠理性/謹慎,最終不按下按鈕),要麼就是魯莽(如果團隊無論如何都會按下按鈕)。
- 如果該計劃在其他方面取得成功,它將導致一個小團體在過程中掌握改變世界(或毀滅世界)的力量。
- 如果知情,世界上大多數人都不會信任 MIRI(或任何類似團體)去執行這件事,因此 MIRI 勢必得打破一些廣泛認同的倫理約束。(這也是當前《超智能聲明》背後的論點:在沒有「1. 廣泛的科學共識確保其安全可控,以及 2. 強大的公眾支持」的情況下,任何人都不應構建超智能。)
- 它可預見地激發了其他人(如 DeepMind 和 OpenAI)加入競賽^([2]),並使得呼籲暫停/停止 AI 發展的聲音極難吸引注意力和資源。
(在我目前的論證中,當時尚未出現的主要修辭創新是「不可見的安全性問題」這一概念,但關於可能存在小團隊容易忽略的隱藏陷阱這一普遍想法,當時已經被提出過,或者對 MIRI 及其周邊社群來說應該是顯而易見的。)
考慮到現有及新加入競賽者的計劃,這些論點中的許多在今天仍然具有現實意義,但由於歷史原因(即 MIRI 及其支持者為了捍衛 MIRI 的計劃而反對這些論點,因此它們從未成為 LessWrong 共識或修辭工具箱的一部分)而不為人所知。這篇文章的部分努力是為了糾正這一點,並幫助將修辭策略從「把一切都押在技術對齊難度上」轉移開來。
(這篇文章曾被撤回草稿,以便為我的主張尋找更多支持證據,這也給了我一個闡述進一步思考的機會。)
我近年來常談論的話題是:相對於我們在技術創新方面的能力,人類在哲學進步方面是多麼糟糕;AI 在這方面可能同樣糟糕(甚至在相同的相對意義上更糟);以及這如何極大地增加了生存風險(x-risks)和苦難風險(s-risks)。但我最近開始意識到(或更多地關注到)我們在戰略思維方面也是多麼糟糕,以及 AI 在這方面可能同樣糟糕(在類似的相對意義上),這對生存風險和苦難風險的貢獻可能更大。^([3])
(進一步說明:如果 MIRI 的計劃事實上是一個壞計劃,即使從我們過去的角度來看也是如此,為什麼沒有更多人反對它?難道沒有人的全職工作是戰略性地思考人類應如何應對像 AI 轉型這樣複雜且影響深遠的未來技術/事件嗎?如果有,為什麼他們沒有試圖勸說 Eliezer/MIRI 放棄他們的計劃?無論如何,如果你是在外星物種中觀察這段歷史進程,你會如何評價他們的戰略能力以及成功應對此類事件的機會?)
這一切的一個潛在含義是,提高 AI 的戰略能力(相對於其技術能力)可能至關重要(以便它們能幫助我們進行戰略思考,及/或避免自身犯下災難性錯誤),但這顯然比 AI 的哲學能力更像是一把雙面刃。提高人類的戰略思維是更穩健的好事,但與提高人類的哲學能力一樣,面臨著缺乏明顯可行性的問題。也許結論與 12 年前相同:我們應該努力暫停或放慢 AI 轉型,以爭取時間來解決這一切。
-
^(^)在與 @habryka 和 @jessicata 討論後,這部分從「建立一個友好 AI 以接管世界,服務於降低生存風險」修改而來。Jessica 還發現了這段文字來支持這一說法:「MIRI 聯合創始人 Eliezer Yudkowsky 通常談論的是特別是 MIRI——或至少是功能等同的組織——創造出友好 AI。」(有趣的是,僅僅 12 年前在 LW 上的常識,現在卻需要難以找到的證據來證實。)
-
^(^)根據連結的文章,Shane Legg 通過 Eliezer 在 2000 年的一次演講接觸到了 AGI 的想法,隨後在 2010 年共同創立了 DeepMind(在 Eliezer 將其介紹給投資者 Peter Thiel 之後;這在歷史上很有趣,特別是關於 Eliezer 這樣做的動機,我目前在網上找不到相關資訊)。我從 2004 年就開始反對 SIAI/MIRI 建立友好 AI 的計劃:「也許它可以通過投入更多資源來強調不安全 AI 的危險,並探索奇點的其他途徑來做更多好事,例如研究人類認知,並計劃在必要技術成熟時如何進行智能增強(IA)。」
-
^(^)如果我們不擅長哲學但擅長戰略,我們可以意識到不可見生存風險的可能性(包括由哲學錯誤引起的風險),並據此決定停止或放慢危險技術的開發。如果我們擅長哲學但不擅長戰略,我們可能會避免犯下災難性的哲學錯誤,但在做出具有重大影響的決策過程中,仍會犯下各種戰略錯誤。
相關文章