不可挽回性:或莫非定律對人工超級智慧的一次性詛咒
本文透過歷史上的太空任務失敗案例,論證像人工超級智慧這樣複雜且高風險的系統,本質上極易受到災難性且不可逆轉的錯誤影響,這些錯誤無法輕易透過補丁修復或提前預測。
在 1970 年代,美國航太總署(NASA)向火星發射了一對探測器,即海盜 1 號(Viking 1)與海盜 2 號任務。總成本為 10 億美元(1970 年幣值),相當於約 70 億美元(2025 年幣值)。海盜 1 號探測器在火星表面運作了六年,直到其電池開始嚴重衰退。
有人可能會認為,像這樣的電池問題將意味著任務不可挽回的終結。探測器已經發射並身處火星,遠在天邊,任何人類技術人員的修復之手都觸及不到。那麼,如果在 1975 年 8 月太空發射很久之後發現任何技術問題,難道不是注定無能為力嗎?
但海盜 1 號探測器富有遠見的工程師們針對這類情況制定了一個計畫,他們預見了這種可能性,即便不完全精確。他們在建造海盜 1 號時,使其能夠透過無線電接收器接受從地球傳輸的軟體更新。
1982 年 11 月 11 日,地球向海盜 1 號登陸器的軟體發送了一次更新,旨在確保電池僅放電至最低電壓水平,而不是在每次充電後運行固定時間。
這項電池軟體更新意外地覆蓋了天線指向軟體。
由於登陸器的天線不再指向軌道器,從那時起便無法再接收任何進一步的軟體更新。
這個錯誤摧毀了原本預計用來從錯誤中恢復的機制。
與海盜 1 號登陸器的所有聯繫永久中斷。地面工程師嘗試了一些重新取得聯繫的策略,基於對天線最終可能指向位置的推算,但均未成功。
在此,我觀察到一個普遍觀點的具體實例:太空探測器上「墨菲的不可觸及詛咒」(Murphy's Curse of Inaccessibility)是一個深層問題。而一個旨在接受後期補丁的聰明系統,則是一個相對淺層的解決方案。
給飛機裝上機翼並不會讓它變得無重力,也不會廢除萬有引力定律。飛機的重量是其固有屬性,如果機翼停止運作,它就會持續面臨從空中墜落的風險。你的飛機模型應該包含持續的重量和持續的升力;而不是爭辯說飛機重量的詛咒會被機翼消除。
工程師試圖減輕太空探測器發射本質上的「一錘子買賣」特質的策略——即工程師預想的事後糾錯機制——實際上並沒有將海盜 1 號登陸器變成一輛停在地球上、你可以走過去修理的汽車。任何打擊到糾錯機制本身的各類問題,都會將你直接拋回基本的「不可觸及」情境中,即你無法走過去修復損壞的糾錯機制。(而且,當然,很大一部分可能的錯誤根本無法透過軟體更新來解決。)底層現實是,探測器依然遠在高空。
如果墨菲定律作用於項目的高度敏感條件能透過一點努力就輕易擊敗,那麼火箭科學就不會因墨菲定律的詛咒而如此聞名。航太工程中墨菲的諸多詛咒可以被對抗,但無法被根除,也無法被消除。
優秀的航太工程師深知這一點。因此,他們投入了極高程度的偏執與準備,這才使得他們能「有時」獲得成功。
我們只能想像,如果工程師或管理層是那種到處吹噓的人,太空探測任務的成功率會剩下多小的碎片:「我們的太空探測器在發射後根本不會無法觸及;我們內建了天線來上傳軟體更新!別聽那些傻瓜說發射後『不能走過去修理』探測器;他們缺乏我們這種能想到軟體更新妙計的經驗!」
這樣天真樂觀的人曾成功讓太空探測器著陸過嗎?將他們在現實世界的成功機率定為 10% 似乎都太瘋狂了。航太工程師必須比這更努力、更偏執、更謹慎,才能將成功機率顯著提升到 0 以上。
範例 2:火星觀測者號
火星觀測者號(Mars Observer)任務於 1984 年 10 月獲批,並於 1992 年 9 月發射,耗資 8.13 億美元(2025 年為 20 億美元)。它在太空中飛行了 330 天,然後在進入火星軌道的三天前,與探測器的通訊中斷了。
事後分析的最佳推測是:在經歷了早期的發射壓力以及在真空中 11 個月的飛行後,一個 PTFE 單向閥洩漏了燃料和氧化劑蒸氣,這些蒸氣在零重力下積聚在輸送管線中;當引擎重新啟動(用於進入軌道前的航道修正)時,引發了爆炸。
當你嘗試第一次做某件事時,這種情況就會發生。太空探測器之所以以極易受墨菲定律影響而聞名,原因之一是每個新探測器都是為新任務客製化的。每一次任務都是一個讓「新」事物出錯的機會。
現在想像一下,某位經理或太空愛好者在災難發生前說:「火星觀測者號任務並不新穎!我們可以在地球上的真空室測試探測器!我們有來自先前太空探測器的經驗!我們有整個強大的科學大廈來觀察物理定律;我們可以用這些定律來推演火星觀測者號在前往火星途中的系統行為!」
要列舉這為何無法廢除墨菲對太空探測任務(或具體對火星觀測者號)的「新穎性詛咒」,其具體層面的原因如下:
- 即便人類確實從先前的太空探測器中學到了一些東西,先前的探測器也與火星觀測者號「並不完全相同」。任務最終的新穎性並未被擊敗、廢除或規避。
如果火星觀測者號是在經驗更少的情況下嘗試的,它可能會更早失敗。這並不是說先前所有的學習都沒有效果。但人類還沒有從那些不完全相同的早期探測器中學到「足夠多」的東西,並以足夠的可靠性進行正確的歸納,從而將這艘全新且不同的火星觀測者號送達火星。
- 即便有人在離心機中旋轉探測器以模擬高 G 力的太空發射,並在真空室中測試了所有系統,那仍然無法忠實地複製燃料蒸氣在真空中洩漏、然後在零重力下積聚 11 個月的「確切」條件。地球上的驗證條件與部署條件並不完全相同。
這就是為什麼你無法使用數學上有效的統計數據來獲得太空探測器的可靠保證。訓練分布並非部署分布,這會讓所有的數學保證都化為烏有。由於航太工程師不是瘋子,他們知道這一點,而且從未有人試圖建議任何形式的數學保證可以適用。
現實生活中有許多這樣的案例。比太空探測器更平凡的是,沒有辦法使用聰明的統計保證來強迫一場普通的人類對話順利進行,因為沒有兩場對話是相同的,而且它們並非取樣自隨時間不變的分布。
- 人類對化學和物理的掌握——透過在極其龐大的觀察體系中歸納數學上簡單的定律而建立,然後應用於與火星觀測者號中完全相同的分子和氣體——加上在反覆觀察到的簡單機械過程中組裝(與大型電腦程式或生物化學相比極其簡單)——實際上「並不足以」預測和控制任務結果。
了解所有這些物理學並沒有消除即使是這種低複雜度系統內在的令人驚訝性。它並沒有將其轉化為對相同塑料和鋼鐵的先前操作的單純重複。
這同樣不代表人類的科學和物理知識對火星觀測者號任務毫無貢獻。如果人類對底層科學的掌握更接近於中世紀煉金術士對試劑哲學意義的誇誇其談,而每位領先的煉金術士都為太空任務制定自己的天才計畫,其中好幾個步驟涉及具有重大道德昇華意義的哲學原則,那麼該太空任務將會失敗得更早、更慘(甚至難以想像那種反事實情況)。
人類對底層機械過程的理解,正是火星觀測者號任務之所以能「接近」成功的原因——這種接近程度是中世紀煉金術從未接近過長生不老藥,甚至從未接近過將鉛變成金子這個簡單得多的目標的。
總結來說:即便 (1) 從先前的太空探測器中學習,(2) 在試圖模擬太空條件的受控條件下進行測試,(3) 精確掌握所有相關的基本物理定律^([1]),(4) 對主導全局的相對簡單的高層現象有極佳的定量掌握,以及 (5) 針對一個耗資十億美元的項目進行 NASA 標準的高強度思考、推演和模擬可能出錯的地方,這一切都沒有廢除墨菲對太空探測器的「新穎性詛咒」。歸根結底,這仍然是「第一次」火星觀測者號任務。
NASA 在理解上的努力可以挑戰那種新穎性詛咒,這是任何煉金術士的哲學思考都無法挑戰的,即便煉金術士設法掌握了一兩個經驗法則。在 NASA 花費多年精心規劃這項確切任務並組裝火星觀測者號的人員,其專業精神、工程謹慎度、背景科學知識和整體的嚴肅性,遠遠超過任何煉金術士或通用人工智慧(AGI)公司的執行長。
但這實際上並沒有廢除太空探測器上所有的墨菲式詛咒。這並不足以讓火星觀測者號「真正」運作。
NASA 那些真正嚴肅的人付出了足夠的努力,使得火星觀測者號「幾乎」成功。甚至車諾比核電廠的 RBMK 設計也幾乎成功了;它在其中一個爆炸前運作了許多年!儘管蘇聯管理層採取了一些限制社會允許的最悲觀程度的「災難立場」,但蘇聯核能工程師比中世紀煉金術士或現代 AGI 公司更了解情況,也更認真對待他們的工作。關於車諾比反應爐為何不應該爆炸,是有實際理論依據的,白紙黑字寫下來讓多人閱讀,且基於對基本原理的理解!他們在 24 小時監控室裡有編寫好的手冊,而那些手冊並非只是為了好看而編造的!
只是,要讓一個帶有墨菲詛咒的項目在現實生活中「真正」運作,而不是「幾乎」運作,是非常困難的。
(雖然再次聲明,專業精神無法魔術般地讓「任何」項目都幾乎運作。你不可能給 1970 年代 NASA 那些真正嚴肅的人一個目標,讓他們建造一種能賦予抗衰老和無限生物壽命的傳染性病毒,並讓結果幾乎運作。對於 1970 年代的嚴肅人士來說,「製造長生不老病毒」的難度超出了他們能「幾乎做到」的範疇。嚴肅的一部分在於對項目的詛咒程度有所覺察,並且在面對高風險時不當瘋子。)
範例 3:馬奇諾防線
1939 年 9 月,德國入侵波蘭;這通常被視為第二次世界大戰的開始日期,儘管在此之前已有其他前奏和跡象。
1940 年 5 月,德國進攻法國。
法國認為他們準備好了。
法國富有遠見地,從危機發生前 11 年的 1929 年開始,就已經建造了馬奇諾防線:一個沿著法國大部分邊境、造價極其昂貴的防禦工事網絡。如果這些工事是在第一次世界大戰前建造的,它們在防禦上會輕而易舉地取得勝利。馬奇諾堡壘由地下鐵路供應物資,以使其補給線難以被切斷。它們擁有常規的糧食和彈藥儲備。堡壘甚至配備了空調——這對 1940 年的軍事堡壘來說是驚人且昂貴的奢侈品,但這正是士兵們在第一次世界大戰中夢寐以求的東西。
法國吸取了第一次世界大戰經驗和先前戰鬥的慘痛教訓,並將其歸納應用於未來!
由於造價昂貴,馬奇諾防線並未覆蓋法國所有的邊境。它確實覆蓋了與其他德國可能先入侵以進入法國的國家的邊境,而不僅僅是與德國的邊境;法國軍方「試圖」做到周全。但仍有一些經過深思熟慮的缺口。例如,法國認為森林茂密的阿登地區(Ardennes)不容易通過;法國認為任何經由阿登地區的德國入侵都會被茂密的森林地形減緩,然後被法國飛機的攻擊進一步阻礙。法國估計德國至少需要 3 天,更有可能是一週才能穿過阿登地區;根據法國軍事統帥部的計算,這將給法國充足的時間將自己的部隊部署到該邊境位置,以防德國嘗試那種注定失敗的戰術。
馬奇諾防線的存在是為了阻止導致突然勝利的突然襲擊;防止德國在法國能調動部隊回應之前獲勝。
德國從阿登地區入侵。納粹投入了精心的工作和組織來快速穿過地形。他們部署了足夠的空軍(Luftwaffe)屏障,以防止部隊在行動時遭到轟炸。
法國淪陷。
之後法國說了聲「哎呀」,然後從 1929 年(他們開始建造馬奇諾防線之初)的存檔點恢復。在他們的「第二次」嘗試中,法國擴展了防禦以覆蓋阿登地區……
開玩笑的!在現實生活中,法國淪陷了,就這樣;納粹佔領了該國並在二戰的大部分時間裡控制著它。
在一場嚴肅的戰爭中——一場為了國家生存而非「國王的運動」的戰爭——你只有一次機會。
「賭徒破產」(Gambler's ruin)是數學術語,用來描述押上全部籌碼的投注策略會發生什麼事;你的本金可能歸零,然後你就沒有東西可以再次投注了。類比來說,我會說「墨菲的毀滅詛咒」(Murphy's Curse of Ruin)存在於這類項目中:如果你失敗得夠慘,你就沒有機會再試一次。
當然,現實生活中的許多事情都是如此。大多數新創公司沒有重來的機會。在高風險的普通人類對話中沒有重來的機會。我們只能在腦海中勾勒出「毀滅詛咒」的輪廓,將其與那種奢侈的情況進行對比:如果工程師的第一個烤麵包機設計有缺陷,他可以奢侈地再造一個;或者程式設計師可以奢侈地重寫一行程式碼並再次執行程式。
如果工程師只有一次機會,他們能做的事會少得多。如果程式設計師只能編譯一次,他們能做的事會少之又少。
在實踐中,你擁有多少次嘗試機會,對於生活或工程中任何項目的可行性都有著「巨大」的影響。
在生活或戰爭中,只有一次機會是更困難的。
對「一錘子買賣」特質的其他所謂反駁
現在想像一下時間是 1929 年,距離第二次世界大戰還有十年,大約是馬奇諾堡壘開始施工的時候。想像一下,在法國政府高層的對話中,有人說——將其視為顯而易見的真理——他們只有一次機會把這件「馬奇諾防線」的事做對,因為在戰爭中你只有一次機會。
試著想像——這需要一點想像力,因為即使在 1930 年代的法國,軍方高層也是由嚴肅的人組成的——試著想像法國軍方高層官員駁斥這位悲觀的異議者,傲慢地宣稱:
「你說我們在與德國的戰爭中『只有一次嘗試』是什麼意思?這些關於『一錘子買賣』(oneshotness)的廢話是什麼?法國士兵與德國士兵交戰的情況會有很多次,我們的國家不會因為一個法國士兵倒下就立刻戰敗。我們有很多次殺死德國士兵的機會!我們拒絕接受你的理論,即戰爭會在所有德國士兵直接傳送到巴黎後,透過單次的一錘子買賣戰鬥來決定。我們有打第一次世界大戰的經驗,也有無數次警察與罪犯之間的小規模戰鬥經驗;當下一場戰爭開始時,它絕不會是史無前例或新穎的。而且隨著德國入侵,我們將學到更多,這將是一個持續而非瞬間的過程,一個營跨越邊境,然後又是另一個營。你說如果我們輸了,我們就會被征服而無法再試?也許我們可以讓俄羅斯入侵德國,讓我們的敵人互相抵消;在這種情況下,法國就『不會』被征服,我們就可以一次又一次地進行下一場戰爭。也許我們可以綁架一個德國嬰兒,培養他回答問題的習慣,讓他告訴我們如何擊敗德國,等到他大到足以預測德國未來的行為,但又小到還沒想到要撒謊的時候;如果提升的德國能力能幫助我們擊敗德國,那麼軍事力量的天平就不可能發生突然轉變。我們真的可以嘗試很多事情!我們不必像『你』主張的那樣,在零經驗的基礎上,第一次嘗試就靠某種理想的戰爭數學理論來擊敗德國;戰爭問題根本不是單次嘗試的問題!」
當然,你主要會說,這裡的發言者是「有動機的無視」(motivatedly oblivious)。他們採取的「災難立場」遠遠超出了車諾比事件中那種有動機的樂觀,也超出了 1930 年代法國無視某些暗示德國可能穿過阿登地區的演習結果的程度。
在聽到這樣的對話後,人們應該停止將發言者視為帶有一些嚴重缺陷的嚴肅人士。這已經到了一個我會開始使用「災難猴子」(disaster monkeys)這種詞彙的程度。
但儘管如此,還是要剖析上述所有的謬誤:
你說我們在與德國的戰爭中只有一次嘗試是什麼意思?法國士兵與德國士兵交戰的情況會有很多次,我們的國家不會因為一個法國士兵倒下就立刻戰敗。我們有很多次殺死德國士兵的機會!
- 一場較大的戰爭即使縮小到足夠小的規模,你可以找到一些較大的戰爭並不完全依賴的局部衝突實例,它仍然可以是「一錘子買賣」。
——「成功資助並啟動一家成為商業成功的鞋業新創公司」是一個一錘子買賣的問題,儘管「製造一雙好的運動鞋」不是。你有多次嘗試設計或組裝一雙好運動鞋的機會。但對於這家新創公司,你只有一次機會。^([2])
——火星觀測者號探測器無疑在失蹤前發生過一些可恢復且成功恢復的錯誤。從一位將部分職業生涯押注於此的經理或科學家的角度來看,這個大項目仍然是一錘子買賣。(從全人類的角度來看,它顯然不是一錘子買賣;失敗沒有殺死你的父母,所以你還在這裡聽聞此事。)
——從形式上講,看到一個隨時間延伸的大型戰略問題,並注意到它是由一些局部錯誤非致命的部分組成的,進而斷定大局因此不是一錘子買賣,這是一種「合成謬誤」(fallacy of composition)。
--- 新創公司的一錘子買賣特質是整個隨時間延伸的重大項目的屬性,而不是指沿途的每一次單一互動都是全局致命的。因此,指出一個失敗非全局致命的局部互動,並不能消除整個全局問題上的「一錘子買賣詛咒」。
我們拒絕接受你的理論,即戰爭會在所有德國士兵直接傳送到巴黎後,透過單次的一錘子買賣戰鬥來決定。
- 能夠想像出一個「更加」一錘子買賣版本的戰爭,並不會改變實際戰爭仍然相當具有一錘子買賣特質的事實。特別是,這裡的發言者正在想像一個更受墨菲詛咒、更受「墨菲速度詛咒」影響的戰爭版本,在那個版本中法國學習和反應的機會「更少」。但事情並非無限快地發生這一點並沒有救了法國,因為德國穿過阿登地區的速度仍然「夠快」。而那次事件足夠致命,以至於法國從中學到的任何教訓,都來不及挽救餘下的戰爭。
我們有打第一次世界大戰的經驗,也有無數次警察與罪犯之間的小規模戰鬥經驗。
- 這些問題並非取樣自與第二次世界大戰相同的分布。法國將軍們自以為「從經驗中學到」的東西確實是問題的一部分,因為他們獲得了自信的錯誤信念。
而且隨著德國入侵,我們將學到更多,這將是一個持續而非瞬間的過程,一個營跨越邊境,然後又是另一個營。
- 火星觀測者號探測器並沒有傳送到火星,但它仍然失蹤了。即使事情在物理上是連續的,也可能出錯。
——營隊一個接一個跨越邊境,在物理上是一個連續的過程,這並不意味著法國被賦予了足夠的時間來觀察第一個從阿登地區出現的營隊,學習第二次世界大戰的真實規律,然後在下一個營隊從阿登地區出現之前正確地重建馬奇諾防線。
你說如果我們輸了,我們就會被征服而無法再試?也許我們可以讓俄羅斯入侵德國,讓我們的敵人互相抵消;在這種情況下,法國就不會被征服,我們就可以一次又一次地進行下一場戰爭。
- 一個項目只要一個足夠重大的災難「將會是」足夠致命的,就可以說它帶有潛在的「毀滅詛咒」,這構成了其墨菲敏感性的總和。認為你有一個聰明的計畫來「不」被毀滅,是在提議嘗試對抗這種重量,而不是抵消它;給飛機裝上機翼並不會廢除萬有引力定律。
也許我們可以綁架一個德國嬰兒,培養他回答問題的習慣,讓他告訴我們如何擊敗德國,等到他大到足以預測德國未來的行為,但又小到還沒想到要撒謊的時候。
- 這個提議的分形難度需要專門發一篇文章來討論。
如果提升的德國能力能幫助我們擊敗德國,那麼軍事力量的天平就不可能發生突然轉變。
- 擁有這樣一個「聰明計畫」既不會抵消任何墨菲詛咒,也不會改變更大規模戰爭的一錘子買賣特質。
我們真的可以嘗試很多事情!
- 就法國所知,他們已經嘗試了幾件事,包括建造馬奇諾防線、圍繞第一次世界大戰的寶貴教訓改革軍隊、制定預先計畫以應對可能的德國入侵等等。就法國所知,所有這些事情都將運作得「非常好」。但隨後這些事情失效了,戰爭就結束了。法國嘗試的所有眾多事情,相對於「墨菲的一錘子買賣詛咒」而言,集體構成了一次嘗試。在那之後,他們沒有第二次機會。
我們不必像你主張的那樣,在零經驗的基礎上,第一次嘗試就靠某種理想的戰爭數學理論來擊敗德國。
- 這是對那些試圖警告你項目中存在墨菲詛咒的人所言內容的赤裸裸的「稻草人攻擊」^([3]);這是災難猴子的喋喋不休。
關於竭力誤解「一錘子買賣」概念的現象
如果沒有像這篇這樣的整篇文章來反覆強調我的確切含義,我發現過去在 MIRI 之外的大多數所謂「人工智慧安全」人士面前,我無法使用「一錘子買賣」或「你只有一次嘗試機會」之類的短語。
國會代表、幕僚或國家安全專業人士通常能立即理解所說的內容,前提是他們之前沒有被誤解和稻草人立場污染。主要是人工智慧公司、一些引用次數比 Yoshua Bengio 還少的人工智慧專業人士、受 OpenPhil 資助的團體等,設法做到了「聽不見」所說的話。
但是,「一錘子買賣」這個詞幾乎以機率 1 被誤解,這相對於某些人「能夠、將會且已經」付出的聽錯努力而言;更重要的是,在進一步的辯論中歪曲它。
因此,在有一個被預先毒化的傻瓜在場的對話中,也許你應該嘗試將其介紹為「不可挽回性問題」(Irretrievability Problem)而不是「一錘子買賣」,這樣傻瓜在下一句話中就更難誤解它,因為他們更難強行將這個詞映射到一個稻草人身上,或許吧?我還沒嘗試過這個新策略。
反對立場被迫進行這種倉促誤解的努力,是因為「我們在 ASI(人工智慧超智慧)上只有一次機會」這個概念的實際衝擊力,在哪怕對「為什麼可能存在任何值得注意的工程困難」有一點點理解的情況下,對他們的立場都是毀滅性的;人類工程師試圖做難以理解的事情,或前工程師試圖做儘管有少數成功觀察但幾乎完全不被理解的事情的實際歷史。一旦你掌握了 ASI 對齊的三四個基本障礙^([4])和該領域的三四個墨菲詛咒^([5]),你就會意識到,ASI 對齊「當然」不是那種在世界歷史上曾有過第一次出馬就做對的先例的事情——
「啊哈,」有人現在立即打斷我,「但我們不必在第一次出馬就做對!我們可以建造較小的人工智慧並觀察它們如何——」
這裡的「第一次出馬」與法國在第二次世界大戰中進行宏觀嘗試是他們對德作戰的第二次「出馬」、以及他們使用二戰技術的第一次「出馬」意義相同;而不是指該戰爭中的任何特定戰鬥是一次出馬。
ASI 對齊是這樣一種事務:從歷史上看,在完全正常且一如既往的科學進程中,最初對於如何處理理解不足的事物總是有各種古怪的想法,而前一打想法在承受壓力時都被證明會失敗——
「是的,這就是為什麼在較小的人工智慧上測試這些想法很重要!」
這裡的「在承受壓力時失敗」是指馬奇諾防線在「德國真正入侵」且競賽真正開始時失敗的方式,而馬奇諾防線在此之前並未特別允許任何入侵。「在承受壓力時失敗」,就像火星觀測者號任務在「真正發射」時失敗一樣,無論它之前通過了什麼地面測試,也無論 NASA 早期的模擬或仔細思考在發射前發現並修復了什麼。許多在較輕壓力下看似運作良好的事物,在較重壓力下都會失敗。
「但我們不必像你說的那樣,完全基於純理論來把一切做對,你說這是可能的且我們應該這樣做——」
這純粹是有動機的歪曲,針對的是一個這裡根本沒被提出的獨立論點;如果你想讓自己暴露在對此的沮喪咆哮中,請參閱腳註 3。
「——因為,與你想像的任何可能性相反,我們對早期人工智慧的經驗可以為我們的超智慧模型提供資訊——」
ASI 對齊的幾個基本困難之一是,你關於如何從聰明到足以殺死你的人工智慧中倖存的理論——即當周圍存在「可以」殺死你(如果它轉向反對你,如果出了什麼問題)的機器能力量級時,你如何倖存的理論——必須「僅」從那些如果失敗「不會」殺死地球上所有人的實驗中成功歸納出來。這意味著你是在對能力較弱的人工智慧進行實驗;如果這種人工智慧推理正確,它將不會估計自己能殺死你——在安全的可生存實驗模式與潛在致命的測試環境之間,還存在著「許多其他」條件變化、分布偏移。
這個巨大的、史無前例的問題有許多平凡且有效的類比。就像你無法透過觀察一個人如何處理十美元來判斷他是否值得信任去處理十億美元,即使事實上是同一個人,而且他們沒有變老多少或變聰明多少,因為「他們」可以智能地思考現在是否是偷錢的好時機。或者像一個希臘城邦,其哲學家爭辯說城邦可以透過觀察一個男孩小時候的行為,看看他在知道自己被監視時是否表現得有德行,來任命一個值得信賴的獨裁者。條件改變了,因為男孩長大後的腦袋不再是小時候的樣子;而被真正信任的城邦獨裁者的條件,也與一個被監視、表現不好就會被揍的男孩的條件不同。問題的這些面向雖然不像「用你自己的思想去預測一個比你聰明得多的外星人」那樣處於駭人的史無前例水平,但它們是為什麼你不能僅透過從一個因其「安全性」而不同的分布中提取一堆安全樣本來解決危險問題的非常正常的案例。
有人可以想像,爭辯說與「存在足夠多的機器超智慧,以至於 ASI 如果嘗試就能殺死人類」的條件相比,「正在實驗中的、如果嘗試也殺不死我們的人工智慧」的條件變化,將「少於」那種「你在地球上對火星觀測者號探測器進行的測試」與「探測器被發射並在太空中飛行的實際條件」之間的變化;或者是「車諾比的正常運作條件」與「在車諾比進行備用冷卻系統安全測試」之間的變化。
但那將是一個極其愚蠢的論點,以至於當他們想到要說出口時,聽起來可能真的很蠢。跳躍到實際賦能的超智慧「當然」會產生一堆比 NASA 在「實際太空旅行」與「旨在模擬那些在地球上被清楚理解的條件的人工測試室」之間的差異「大得多」的差異。除了其他問題外,釀造人工智慧的煉金術士對人工智慧內部認知的理解,遠比 NASA 物理學家對火星觀測者號將暴露於其中的條件的理解要差得多。而且,以一種非常普通的方式,就是沒有一種非致命的方法來測試致命水平的超智慧。就像你無法透過讓哲學家跟在一個知道自己被監視的小孩身後來測試他是否適合擔任城邦獨裁者一樣^([6]);就像你無法透過給某人十美元來確保他可以被信任處理十億美元一樣。
你可以爭辯說,跳躍到「有足夠的超智慧存在以至於能真正殺死我們」與先前觀察到的已部署或實驗室測試的人工智慧條件相比,其變化將「少於」將火星觀測者號真正送入太空與 NASA 實驗室測試及模擬相比的變化。
但如果你試圖明確地這樣爭辯,人們可能會不同意你的看法。
因此,取而代之的是,這個警告——「你在 ASI 上只有一次機會,如果你搞砸了,所有人都會死,你沒有機會再試」——被離譜地當成稻草人並誤解為「ASI 會因為 FOOM(智慧爆炸)而瞬間獲勝」,或「人類應該嘗試透過觀察早期人工智慧來學習零知識,並完全基於理論來做所有事」,因為 ASI 生還主義者真正需要提出的論點是一個不那麼吸引人的公關戰場。
「啊哈,但正如你顯然從未考慮過的,我們可以擁有不止一個 ASI;然後如果一個 ASI 變壞了,其他 ASI 會因為害怕破壞我們最初啟動 ASI 時所在的有序守法均衡而阻止它;因此大家『不會』死,我們『將』有機會再試!」
如果「那整個聰明的方案」出錯了,所有人都會死,你沒有機會再試。我現在甚至不想爭論這個聰明方案注定失敗的所有原因。^([7]) 我是在試圖解釋為什麼這並不是一個能反駁「ASI 對齊處於墨菲的一錘子買賣詛咒之下」的回應。
「啊哈,但我可以想像一些關於超智慧的可能錯誤,它們『不會』滅絕人類!」
酷!如果你在 1929 年與法國最高將領中一個不那麼嚴肅的版本共事,如果有人爭辯說軍事戰略不是一種一錘子買賣的設定,因為他們可以想像一個他們在馬奇諾防線上可能犯下的「不會」輸掉整場戰爭的可能錯誤,你一定會很合群。
坦白說,這裡的核心思想並不複雜。很多人能正確且立即地理解它。所說的內容很簡單,而且是處理比人類聰明得多的事物時顯而易見的預設預期:如果某件事可能出錯,那就是致命水平的危險——是的,一件足夠嚴重的事;是的,你可以想像一個不嚴重的錯誤;不,那不會改變核心思想,老天爺啊。
有人可以想像試圖反駁那個其實相當簡單的警告。但這需要一種強大的有動機心理,才能做到「聽不見」正在爭論的是哪個想法;並設法誤解每一個歷史範例、每一個普通的日常生活類比以及每一個抽象解釋。不是在反駁其相關性的意義上,而是在證明無法複述「正在爭論的是哪個想法」的意義上。
如果不是因為這種聽錯和歪曲思想的驚人努力,我本可以只說:「人類在搞對機器超智慧這件事上只有一次機會」,而任何理解「在一場與某人的重大對話中搞砸了,且因為沒有時光旅行而沒有重來機會」這種日常想法的人,都能理解所傳達內容的非常普通的核心。
墨菲詛咒領域中稱職工程師的秘訣:只嘗試那些簡單到實際上可能實現的項目。
最重要的是,嚴肅工程師有時甚至在沒有廉價重來機會的輕微詛咒問題上取得成功的原因在於,他們從理論和實踐中都能感覺到哪些問題是簡單到實際上可以解決的。
去找一位核能工程師並說:「給我造一個使用 2% 濃縮鈾運行的反應爐,但你唯一被允許使用的中子吸收劑是普通水,不能用硼、鎘或鉿。」核能工程師會回你:「那是一個極其愚蠢的主意,^([8]) 所以不行。」
去找一位航太工程師,要求他們製造一種超強傳染性的病毒,重寫人類基因組以賦予抗衰老和生物永生——但要安全可靠,使用他們發射太空探測器(成功率通常很高)時所用的那套嚴肅方法論。航太工程師會大笑,然後,如果你看起來是認真的,或許會試著像對五歲小孩一樣解釋:「我做不到,因為科學還沒有一個足夠好的理論來描述完成後的長生不老病毒長什麼樣。」
「我無法使用建造有時能運作的太空探測器的相同流程來為你建造長生不老病毒,更不用說安全的了,」航太工程師說。「因為太空探測器項目『起始』的基礎資源,是一個科學強烈暗示『如果』沒有意外發生,基於已知的簡單原因『將會』運作的想法。那項需要所有嚴肅組織流程的極其困難的工作——且仍然只是大部分時間有效——是讓那些基於非常容易理解的原因『應該』以非常簡單的方式運作的好想法,『真正』一路運作到探測器從火星傳回數據。我們對於長生不老病毒還沒有這種基礎,所以我們無法跨過嚴肅且安全方法論的第零步。」
而且我們對衰老過程中人體出了什麼問題的理解,比我們對 LLM(大型語言模型)認知內部的理解要好得多。如果我們試著叫航太工程師使用 NASA 的保證流程來建造長生不老病毒,比起叫他們建造一個安全的超智慧,我們會更接近成功。
但那種嚴肅流程主要會告訴你的是,你所製造的東西並不是一個安全的長生不老病毒,你不應該嘗試讓它具有高度傳染性並感染地球人口。
一位正派工程師的極大嚴肅性會以這種方式體現:他們對自身局限性的理解是如此廣大,以至於他們「不需要」先用一種高度傳染性、然後出乎意料地沒能如預期運作的病毒感染大多數人類,才能驚訝地學到建造長生不老病毒並非易事。他們甚至在殺死一打自殺志願者或一百隻猴子之前就會知道這一點!他們會在那個令人難以置信、震驚、意想不到的情節轉折發生之前就預見到它。
所以,沒有像那樣的人會啟動一個旨在製造傳染性抗衰老病毒以造福全人類的生物項目。他們知道那對任何人來說都是一個過於受詛咒、無法真正完成的項目。
在受墨菲詛咒的學科中,明智工程師的第零項技能是,他們知道什麼事情是如此遠遠超出他們的技能和理解,以至於如果他們嘗試了,在失敗代價極大的情況下,「當然」會失敗。
因此,沒有那麼明智的人會嘗試用任何遠程類似於現代方法和現代理解水平的方式來釀造機器超智慧;而人工智慧公司的執行長們已經被篩選掉,不再是那些理解這一點的人了。
-
^(^)對於所討論的低能量領域,實際上是精確的。
-
^(^)極其有動機的狡辯者會想像出這條規則的例外,例如擁有無限耐心的億萬富翁創始人。平均且普通的新創公司確實是在這種意義上的一錘子買賣詛咒下運作的;在某個時間點,資助者會耗盡資金,或者核心員工會失去希望。
-
^(^)我從未說過類似的話。如果有人告訴你不是這樣,他們是弄錯了,並且在重複那些極其有動機去對 MIRI 在 2015 年偶爾發表帶有數學內容的論文時所做的瘋狂稻草人誤解。或者,如果我可以在這裡發洩一下挫折感:
這是一個野蠻民粹主義者對於看到自己看不懂的數學論文意味著什麼的粗俗憤怒觀點。
我不想再向野蠻人解釋為什麼我們曾嘗試發表任何帶有數學的論文。但那並不是為了在純理論上把一切做對,也不是試圖用純數學建造一個類似於我們論文中數學的人工智慧,諸如此類,不勝其煩。
如果有人某天想了解除了宣稱某事在邏輯上絕對可預測,或將數學轉化為精確程式碼之外,有時還能用數學做什麼,那將是一個更長的對話。但有時嘗試進行數學思考還有其他原因!或者寫帶有代數的論文!(當然,有些方法可以透過寫更花哨的代數來自我膨脹並讓自己看起來更重要,但我認為 MIRI 在不使用超出必要的代數方面其實做得不錯。)
在某種程度上,這是一個悲傷的歷史點:一些試圖警告馬奇諾防線為何是一錘子買賣問題的人,曾經寫過帶有一些代數公式的文章。現在災難猴子們可以互相吱吱喳喳地說,所有的警告都來自那些因為馬奇諾防線看起來不像他們的公式而感到沮喪的老傻瓜;他們可以對所有論點完全無動於衷,而不必費心反駁其直接含義,因為他們確信隱藏的前提一定藏在某處;即便我們反覆試圖說明這場新的獨立對話根本不是關於那個。
他們有一個足以讓自己安心的解脫理由,無論他們隨後接觸到什麼感官經驗,他們都會堅持這個理由,並對自己正確且聰明的決定感到高興和自我滿足,直到他們殺死自己和你的那一刻;與此同時,他們在彼此之間重複著:MIRI 從未對他們那些愚蠢的、試圖證明人工智慧在數學上安全的舊嘗試感到悔悟,這真是太可悲了;再次聲明,這在原則上不是數學能做到的事,而我們從一開始就知道這一點。
-
^(^)例如:你得到的不是你訓練的目標、超人類規劃者的認知不可遏制性、隨著能力提升而產生的分布偏移、作為擴大選項空間函數的古德哈特詛咒(Goodheart's Curse)等。參見《AGI 毀滅:致命性清單》(AGI Ruin: A List of Lethalities)。
-
^(^)例如:新穎性、基礎工程新穎性、對 LLM 思考過程的範式前基礎科學困惑、速度、狹窄的容錯空間等。參見《AGI 毀滅:致命性清單》(AGI Ruin: A List of Lethalities)。
-
^(^)特別是如果這個小孩是一個新的非人外星物種。但我不在主論點中提出這一點,因為增加這個析取點會誘使某種心理跳出來爭論他們的 LLM 如何不那麼外星,特別是它似乎理解很多關於人類的東西等等。(理解不是問題;ASI 總是理解事物;它們的「偏好」才是問題。)即使在現實生活中這個小孩是外星人,這個與日常生活的類比在小孩不是外星人的情況下也能成立。
-
^(^)如果你不知道如何對齊任何 ASI,在它們彼此之間的談判達成近帕累托均衡(near-Pareto equilibrium)後,其近帕累托屬性意味著它不會讓所有的代理人出於某種對破壞原本有序法律設定的恐懼而特意保留地球和地球的陽光;它們可以透過不這樣做來集體獲得更好的結果。它們足夠聰明,可以談判詳細的近帕累托協調行動並公平分配從中獲得的利益,而不是在人類對違反先前法律設定的恐懼面前畏縮。
此外,一個成功的太空探測器根本不需要依賴這種聽起來很聰明的方案。這就像煉金術士在爭論你所有的不同毒藥肯定會互相中和一樣。
- ^(^)這是一個愚蠢的主意,原因在於 (1) 水(或更準確地說,水中的氫成分)既是中子吸收劑又是中子減速劑,(2) 與插入設計良好的硼棒相比,很難非常快速地加入更多或更少的水,(3) 反應爐熱量的變化會透過將水轉化為蒸氣或超臨界蒸氣來直接影響水的行為,以及 (4) 水流的變化會影響從反應爐中移除熱量的多少。這其中的細節並非點對點地映射到 ASI 的任何具體事物上;這只是一個例子,說明稱職的工程師與其說是能做任何不可能的事,不如說是知道嘗試什麼是愚蠢的。
相關文章