末日預言者的日記：關於 AI 風險的十二年爭論（第一部分）

Lesswrong·5 天前

AI 生成摘要

我回顧了自 2012 年接觸深度學習以來的歷程，描述我如何從一名對 AI 風險感到擔憂的學生成長為研究者，並揭示了當時學術界對於 AI 可能導致人類滅絕的風險普遍缺乏關注的現狀。

就我所知，我是史上第二個因為擔心人類滅絕風險而進入 AI 領域的人。1

2012 年底，當我正藉由啤酒和電視從一段輕微的心碎中復原時，我決定終於要來看看那些我報名過的 Coursera 線上課程。當時，我正打算放棄成為職業音樂家的目標，考慮申請電腦科學、數學、經濟學、心理學、社會學、哲學或物理學的研究生院。因此，我挑選了大約十幾門不同的隨機課程。但我最後決定投入的是傑弗里·辛頓（Geoffrey Hinton）的神經網絡（即深度學習）課程。那時我根本不知道辛頓是「深度學習教父」，也不知道他剛取得了一項將徹底改變 AI 領域的成果；我純粹只是對這個主題感到好奇。

感謝閱讀《The Real AI》！免費訂閱即可接收新文章並支持我的工作。

事實上，我在幾年前的 2009 年夏天就聽說過神經網絡。當時我正在德克薩斯州休士頓的貝勒醫學院進行神經科學的本科研究。那個計畫的範圍非常廣泛——涵蓋了從「精細模擬單個神經元」到「將整個大腦視為黑盒子並測試其運作方式的不同假設」（系統神經科學）的所有內容。在計畫開始時，其中一位教授即興進行了 5 分鐘關於深度學習的演講。對我來說，這似乎立即成為了完美的折衷方案：以最簡單的方式模擬單個神經元。當演講以當時的主流觀點「它們行不通」結束時，我感到非常失望。

觀看辛頓的課程時，我被震撼了：深度學習行得通！ 我覺得自己被騙了（儘管我知道其實沒有）。辛頓在多倫多大學的團隊剛在電腦視覺領域取得了前所未有的飛躍，憑藉他們的「AlexNet」模型贏得了競爭最激烈的圖像識別比賽。更讓我印象深刻的是一個神經網絡逐字生成文本的演示。雖然文本內容漫無邊際且大多不連貫，但系統也創造出了看起來煞有介事的新詞。人工創意！這其中的含義我瞭然於心。

在 AI 熱潮初期偶然發現這門課程是極大的運氣。在我加入後，深度學習領域迅速變得更具競爭力，但在當時，它仍然是一個邊緣話題，只有少數研究小組在研究它。但對於能看清局勢的人來說，證據已經擺在那裡：深度學習將成為該領域的未來，如果我們能將其規模擴大到足夠大，它甚至可能帶領我們走向「真正的 AI」（Real AI）。辛頓的課程（以及約書亞·本希奧的一些基礎影片和論文）向任何留心的人解釋了為什麼深度學習在其他方法失敗的地方取得了成功：數據需要被正確地表示（represented），電腦才能理解它，而表示方式需要具備：

分佈式（Distributed） —— 這樣不同的屬性組合才能被高效地表示，每個屬性都有一個神經元，而不是每種組合一個。
「深層」（Deep）（即層次化） —— 這樣高層次的表示（例如圖像中的物體）可以建立在低層次的表示（例如圖像的「特徵」，如邊緣）之上。
學習而來（Learned） —— 因為我們不知道如何手動編寫正確的表示。

在目睹了深度學習中正在發生的突破，並理解了它與競爭方法如此不同的運作方式後，我覺得自己掌握了一個重要的秘密。我感到震驚。我原以為「真正的 AI」可能至少還需要一個世紀。但現在看來，更像是幾十年。在一個下午的時間裡，我從連該追求哪個學科都不知道，變成了知道自己必須進入一個深度學習研究小組。

我是如何了解 AI 的

明確地說，這並不是說我之前沒思考過 AI。當我 2007 年在里德學院開始本科生涯時，我立刻遇到了一位雷·庫茲維爾（Ray Kurzweil）「超人類主義」哲學的粉絲，他們說服我 AI 的創造將是人類歷史上最重要的事件。

在那之前，我甚至不知道這是有人研究過的課題。我以為那純粹是科幻小說，字面意義上的。但在得知這是一個真實可靠的研究課題後，我選修了所有與 AI 相關的課程……但並不多——那時，里德學院甚至還沒有電腦科學系。

當時，AI 看起來仍像是一個巨大的謎團，而且在我有生之年可能不會發生。當我在學業過半時聽說「機器學習」時感到非常興奮，因為我覺得手動編寫智能行為顯然是行不通的。但結果發現那基本上只是被美化的統計學。我得出結論：AI 領域沒有人知道如何構建「真正的 AI」。

我也對社會和技術變得更加憤世嫉俗。我開始擔心更先進的科學技術——AI、監控、心理操縱技術——儘管它們顯然有潛力讓事情變得更好，但最終可能反而讓情況惡化。畢竟，100 年前像凱因斯這樣的經濟學家認為我們現在每週只需工作 15 小時。我們已經擁有足夠的物資讓每個人過上體面的生活，但人們仍在挨餓。人類社會出了問題，似乎沒人知道該怎麼辦。

我思考過如果我們擴大我所知道的那些相對愚蠢的 AI 算法會發生什麼……它們永遠無法真正模仿人類的智慧和創造力，但它們可能「足夠好」——且足夠便宜——從而席捲全球。我想像一個未來，一切都由這些並不真正理解任何事情的算法運行，而任何不富有的人都只能忍受這些愚蠢 AI 的愚蠢決定，由它們決定自己是否能得到工作、是否能進入好學校、有哪些產品可以購買，或者是否有人會聽取他們的想法。

很多人認為這正是今天 AI 正在發生的事情。我也深有同感……這仍然是一個非常真實且恐怖的可能性。但重點是，我真的沒想到在我有生之年能看到科幻小說中那種「真正的 AI」。直到我聽說了深度學習。

我是如何了解 AI 存亡風險（x-risk）的

儘管如此，我認為我們總會在某個時刻開發出「真正的 AI」。我擔心當我們開發出來時，人類不只是會生活在某種糟糕的、千篇一律的烏托邦中，而是會被取代。因為現有的社會顯然對我們不起作用。它沒有給我們每週 15 小時的工作時間。它給我們帶來了氣候變化、饑荒和永遠存在的核毀滅威脅。沒人想要這些東西。但我們就是停不下來。競爭驅使我們所有人把錢花在地位象徵上而不是拯救生命，把時間花在工作上而不是生活。它絕對可以驅使我們用 AI 零星地取代我們自己，儘管那是多麼毫無意義且可悲。

我也意識到互聯網某些隱秘角落的人們正在提出類似的論點。而且這些論點相當有力。我從未完全相信超智能 AI 系統必然會想要統治世界，但我看到了很多理由，說明人們可能會因為魯莽或疏忽而把系統構建成那樣。

但這種關於 AI 奪權的談論甚至比深度學習還要邊緣。所以當我 2013 年加入蒙特婁大學攻讀深度學習碩士時，我預期會發現以下三種情況之一：

專家們有充分的理由不擔心 AI 導致人類滅絕。
他們正熱切期待 AI 取代人類的那一刻。
他們還沒真正思考過這件事。

結果證明是 (3)。好吧，大部分是……令人警覺的是，也有一些研究人員屬於第 (2) 營。從那以後，我基本上一直在與其他 AI 研究人員爭論，並試圖讓他們認真對待風險。這是一場漫長、痛苦且緩慢穩定的進軍。

我是如何發現其他研究人員並未「處理此事」的

在碩士開始時，我基本上保持低調，只是在適應環境並學習基本的編程技能。我很驚訝自己竟然被蒙特婁大學錄取了，因為那裡基本上是當時世界上研究深度學習最好的地方——傑弗里·辛頓剛離開去 Google，楊立昆（Yann Lecun）也即將離開去 Facebook。我也考慮過申請尤爾根·施密德胡伯（Juergen Schmidhuber）的小組，但我決定不想在從未去過瑞士的情況下搬到那裡。

基本上，我不確定人們聽到我對 AI 的擔憂會有什麼反應。我記得第一次提到這件事是在喝酒聊天時。我的一位實驗室同僚問桌上的人（大意是）：「那麼你們認為一旦我們達到超越人類的 AI，會發生什麼？」我的回答是：「嗯，我認為它會吞噬地球，在那之後，就很難預測了」……然後每個人都像看瘋子一樣看著我。

我試圖解釋 AI 可能會有宏大的野心，想要盡快殖民可觸及宇宙的其餘部分，並且可能擁有技術能迅速將地球的物質（及其居民……）轉化為對它更有用的東西。我不記得很清楚那次對話了，但足以說明我認為他們在結束時仍然覺得我瘋了。但同時他們似乎對我的觀點感到驚訝，甚至對我有這種觀點感到驚訝……看起來他們並沒有花太多時間對此進行「閒暇推測」。

我想可能還有幾次類似的對話，但在尼克·博斯特羅姆（Nick Bostrom）的書《超級智能：路徑、危險與策略》（Superintelligence: Paths, Dangers, Strategy）出版並真正引發討論之前，我不記得任何具體的對話。

《超級智能》引發討論

這本書大受歡迎，特別是考慮到以典型的「科普」標準來看，它是一本枯燥乏味的哲學著作。博斯特羅姆關於 AI 為何以及如何變得比人類聰明得多，然後可能消滅我們的論點，在媒體上以簡化形式被廣泛討論——而幾乎所有的 AI 研究人員都對他們眼中的無知推測感到惱火。

我仍然認為這引發了寶貴的討論，否則這些討論在很長一段時間內都不會發生。我的解讀是，其他 AI 研究人員很樂意無視這些擔憂，只是因為他們覺得有必要公開為自己辯護，才開始接觸這個話題。

*確實，柏克萊大學教授、前深度學習時代最受歡迎 AI 教科書的合著者斯圖爾特·羅素（Stuart Russell）大約在同一時間也開始公開談論這些擔憂（我想是在《超級智能》出版後一年內開始的），但並沒有獲得同樣的關注。

我記得約書亞·本希奧（當時是我的碩士導師之一，現在是應對此類風險的熱心倡導者，也是史上被引用次數最多的科學家）曾說，他認為報導中的擔憂是因為「人們讀了太多科幻小說」。為了回應《超級智能》引發的文章，約書亞出現在加拿大廣播電台討論（並淡化/駁斥）這些擔憂，並將其發送到我們研究小組的電子郵件列表，同時附上了一篇批評生命未來研究所（Future of Life Institute）第一封重大公開信的文章。

我立即加入了討論：

我的淺見：

我更同意危言聳聽者的觀點（雖然肯定不完全同意）。而且我認為研究優先順序文件未能傳達出該問題應有的緊迫感。我認為這可能是為了獲得更廣泛支持的刻意舉動。

我認為從該文件中呈現出的圖景仍然是對幾乎所有與 AI 風險相關的主題都極度缺乏理解。

因此，我的結論是，我們不應僅僅呼籲在這些領域進行更多研究，而應將研究重點徹底重新聚焦於這些主題。

但隨後我認為更大的優先事項是政治變革，因為在我們目前競爭和短期激勵的環境中，使用更強大 AI 工具的即時回報將超過許多參與者（國家、公司、個人等）的潛在長期風險。我不確定對此能做些什麼，因為我認為競爭是一種自然現象，但我們可以從世界和平和為所有人提供基本生存手段開始 :D。

就「散佈恐懼」而言，我的觀點是，提高對 AI 及其潛在風險的意識通常是一件好事（就像提高對一般科學的意識一樣），特別是考慮到（依我之見）「大眾」仍然認為 AI 僅限於科幻領域。大眾媒體中一定程度的扭曲既是不可避免的，也是值得付出的微小代價。

我也認為研究優先順序文件確實包含比這篇科普文章中提到的更「黑暗」的段落。例如：

「如果一個 AI 系統正在選擇最能讓其完成給定任務的行動，那麼避免

阻止系統繼續追求任務的條件是一個自然的子目標 [53, 10]（並且

相反地，尋求不受約束的情況有時是一種有用的啟發式方法 [91]）。然而，

如果我們希望重新調整系統用途、停用它或顯著改變其

決策過程，這可能會變得有問題；這樣的系統會理性地避免這些改變。」

接著寫道：

「不表現出這些行為的系統被稱為可修正系統（corrigible systems）[77]，該領域的理論和實踐工作似乎是可行且有用的。例如，有可能設計效用函數或決策過程，使系統不會試圖避免被關閉或重新調整用途 [77]，並且可以開發理論框架來更好地理解避免不良行為的潛在系統空間 [36, 38, 37]。」

（粗體為我所加。）

懶人包 —— 有可能創造出不會尋求權力與生存最大化的目標導向 AI。這是一個開放性問題*。

[77] 摘要的最後一句話是：「雖然有些提議很有趣，但目前還沒有一個被證明能滿足我們所有直覺上的要求，這使得這個簡單的可修正性問題仍然懸而未決。」（他們提到的「簡單問題」是如何為智能代理製作一個可行的關閉按鈕）。

同樣值得注意的是，科普文章的作者承認「淡化了 FLI 對採取與超級智能相關的即時行動的興趣」（見頁面底部的更新。我想如果你研究一下參與者，顯然這不僅僅是伊隆·馬斯克用 1000 萬美元扭曲他們的研究優先順序的問題）。

最後，我想分享我的印象：研究極其先進 AI 的風險正在迅速演變成一個信譽良好的科學領域，事實也理應如此。

我非常樂意與任何人討論這些話題。

*當然，尚未證明 AI 預設會尋求權力與生存最大化，但我們可以想像這些可能是智能代理在優化某些任意獎勵時常見的中間目標。

**我確實認為科學報導和一般報導應該有更高的標準。但這是一個市場驅動的行業。AI 報導的一個問題是，它們往往基於一兩個人的意見，這些人可能在該領域，或者只是名人。我最近發現了一個由研究人員提供的更多意見的好來源：http://wiki.lesswrong.com/wiki/Interview_series_on_risks_from_AI。我認出的名字有：Larry Wasserman, Michael Littman, Jurgen Schmidhuber, 和 Shane Legg。

這引發了一場廣泛的討論，回覆多達 66 條，其中 21 條來自於我，11 條來自於約書亞。我正式且不可撤銷地以「末日論者」（doomer）的身份「出櫃」了（當時沒人使用這個詞，但氛圍很相似）。

在這段時間裡，大約有幾週或幾個月的時間，也有關於 AI 風險的面對面討論，從這整個郵件串之前就開始了。我記得最生動的部分是約書亞爭辯說鯨魚的大腦比人類大，但並非超智能……反對超智能擔憂的論點質量過去一直很低，現在也依然如此。回顧十多年前，看到同樣的「不要相信炒作」敘事在今天仍被定期重複，真是令人感嘆，尤其是在深度學習先是吞噬了 AI 領域，接著又日益吞噬整個經濟之後。我不得不說，AI 絕對感覺正處於吞噬地球的軌道上。

這也開啟了此後十年我只要有機會就與其他 AI 研究人員爭論的歷程。一開始，我幾乎被我交談過的每個人公開嘲笑，被稱為瘋子、「散佈恐懼」等。最後，世界領先的 AI 專家們簽署了一份由我發起的聲明，證實了我對人類滅絕的擔憂。

待續……

1 我以前以為我是第一個，但事實證明我以前的實習導師歐文·埃文斯（Owain Evans）比我早了幾年。

討論

— Lesswrong

其他收藏 · 0

收藏夾