newsence

致命現實假說

Lesswrong·25 天前

我認為滅絕是任何文明的強烈預設結果,這並非源於特定威脅,而是因為結構性的滅絕壓力,使得在競爭優化過程中,優先考慮長期生存而非眼前利益的個體會系統性地被淘汰。

關於認識論狀態的說明

請閱讀本節,因為這並非為了免責而寫的免責聲明。

我認為本文所描述的模型,就其完整形式而言,很容易是錯誤的。然而,我也認為它在實質上正確的可能性是不容忽視的,甚至更高,單憑這一點就值得將其寫出來並認真思考。

在整篇文章中,我會使用「X 是事實」的寫法,而非「雖然我不確定,但 X 似乎是有可能的」。每一項主張在心理上都應預先加上適當的保留語。我去掉這些保留語並非因為我充滿信心,而是因為如果每一句話都包含「似乎有可能」,會使文章變得難以閱讀,且實際上並不會讓讀者的判斷更精準。

我還必須指出,我是在對現狀感到相當沮喪的狀態下寫下這篇文章的,這種挫敗感可能會在不該支撐論點的地方起到了支撐作用。

這與 AI 無關

AI 風險至多是我在此描述的現象的一個例證,且並非特別具備代表性。即便人工智能從未被構想出來,這篇文章中的一切依然成立。即便核武器從未被製造,或者氣候完美穩定且沒人聽說過溫室氣體,這些論點依然成立。

這項主張是關於文明在優化壓力(optimization pressure)下的結構性屬性,而非針對任何特定的技術或威脅路徑。如果你讀完後的感想是「喔,又是一個 AI 毀滅論」,那麼我便未能成功傳達核心觀點——即問題比任何特定風險都要深得多,即使所有目前已知的風險在明天奇蹟般地消失,問題依然存在。

核心主張:滅絕壓力

核心觀點是:對於任何文明而言,滅絕是預設的結果,而且是一個強大的預設。這並非因為任何特定的威脅,而是因為一種我稱之為**滅絕壓力(extinctive pressure)**的結構性屬性,它僅僅憑藉優化、競爭與宇宙運作的共同作用,便施加於每個文明之上。

我想拆解一下為什麼我稱之為「壓力」而不僅僅是「風險」或「可能的結果」。

考慮一個舊思想實驗的變體。假設你得知克蘇魯(Cthulhu)是真實存在的。祂正沉睡在太平洋的某處,大約 200 年後祂會醒來並摧毀全人類,除非人類能協調一致阻止祂,並投入顯著但現實中可達成的資源。你有極佳的證據證明這一點,且證據是公開的,被廣泛認為是可信的。

我的主張是:幾乎可以肯定,人類無法成功對抗克蘇魯。

為什麼?粗略地說,因為對抗克蘇魯是有代價的(無論在何種意義上),且代價是眼前的,而回報是遙遠的。^([1]) 每一塊錢和每一單位投入到「克蘇魯防護」的政治資本,都是沒有投入到能立即產生競爭優勢的事物上的資源。每一位將國家資源投入克蘇魯計畫的領導人,都會被那些將資源投入經濟增長、軍事實力或大眾福利計畫的領導人所擊敗。每一位研究克蘇魯防禦的研究員,本可以從事那些在他們有生之年能產生更多論文、資助或產品的工作。在競爭的每一個層面上,認真對待克蘇魯的人,相對於那些不當回事,或口頭上說重視實則將資源分配到別處的人,都處於劣勢。

這就是我所說的「壓力」。我並不是像說「明天可能會下雨」那樣被動地觀察「滅絕是有可能的」。我的意思是,有一種主動的力量將文明推向滅絕,並反擊任何抵抗的嘗試。它在以下意義上是一種力量:(1) 抵消它需要持續消耗能量和資源;(2) 在缺乏這種消耗的情況下,系統預設會向滅絕漂移;(3) 投入精力對抗它的個體,會被不投入精力的個體系統性地淘汰,這意味著即便起初有一些個體在對抗它,系統對抗它的能力也會隨時間退化。

我認為逆風航行是一個很有用的類比。這並非不可能,也不違反任何物理定律。帆船可以而且確實能夠逆風航行。但這代價高昂,比順風慢,且需要持續的主動努力與技巧,一旦你停止操作,就會隨風漂移。關鍵在於,在比賽中,順風的船通常會擊敗逆風的船。

現在讓我解釋整個論證鏈。

優化的目標並非生存

個體和文明都受制於優化。大多數優化過程並不以「文明的生存」為目標。它們擁有局部目標:生殖適應度、利潤、政治權力、迷因傳播。這些目標有時與文明的生存有微弱的相關性,就像公司的盈利有時與客戶的福祉有微弱相關一樣。但「微弱相關」在句話中承擔了巨大的解釋壓力,而就我們的目的而言,這種相關性幾乎肯定是不夠的,原因有二:

  • 相對於整個狀態空間,文明長期生存的狀態集在天文數字級別上是極小的。
  • 優化實際驅動我們走向的狀態,與生存狀態之間存在著張力,而不僅僅是不相關。

最糟的最佳可能世界

這裡我需要引入一個概念,稱為局部環境(local environment)。

你現在存在於一組極其特殊的條件中。這個宇宙的基本物理常數允許複雜的化學反應;太陽是銀河系相對安靜區域中一顆穩定的主序星;地球擁有抵禦太陽風的磁場、調節碳循環的板塊構造、穩定地軸傾角的巨大月球,以及維持在液態水兼容溫度範圍內的氧氮大氣層,等等。

這一切就是我所說的「局部環境」:在空間、時間和參數空間中有界的特定條件氣泡,在其中我們的持續存在恰好是可行的。

現在結合兩個原則。人擇原理(anthropic principle)告訴我們,我們必然發現自己處於與自身存在兼容的條件中,因此我們不應對局部環境的友好感到驚訝。哥白尼原則(Copernican principle)告訴我們,我們在可能性空間中並不處於特殊或優越的位置;我們應該預期自己在觀察者中是典型的。

結合這兩點得出一個結論:我們應該預期生活在一個「最低限度友好」的宇宙中,而不是一個最大程度友好、甚至不是平均友好的宇宙。人擇原理保證了我們的宇宙達到了產生觀察者的門檻。哥白尼原則說我們在包含觀察者的宇宙中是典型的。由於宇宙「勉強達標」的方式遠多於「在所有層面和配置空間的所有部分都對人類友好」的方式,典型意味著「勉強達標」。我們應該預期我們的宇宙足夠友好以產生我們,但也僅此而已。

這可以用基本物理常數空間中允許生命存在的區域證據來解釋(但這只是一個例證,我不想讓人覺得這個論點僅僅關於物理參數的微調)。Barnes (2012) 提供了最全面的綜述:在可能的物理定律、參數和初始條件的空間中,允許智慧生命演化的集合非常小。對本文論點至關重要的幾何事實是:在一個可行區域僅為一小片的維度參數空間中,該區域的大部分體積都靠近其邊界,而非深處其內部。典型的觀察者位於可行性的邊緣,而非舒適的中心。

換句話說,文明生存的條件並非現實的預設狀態,它們是極其罕見的例外,而我們現在恰好處於這個例外之中,因為那是觀察者唯一能存在的地方。 踏出局部環境一步,朝任何方向(更深入的太空、更遙遠的未來,或環境尚未測試過的新型物理/技術/社會配置),你預設應該預期條件是致命的。^([2])

那麼,為什麼我們能生存至今?大概是因為我們的局部環境一直很穩定(至少在與生物演化和文明發展相關的時間尺度上),以及因為人擇選擇(anthropic selection)

局部環境並不穩定,而我們正主動破壞它

即便從自然角度看,如果我們等待足夠長的時間,環境終將變得致命:太陽的光度會增加,小行星撞擊是隨機的,接著還有熱寂。

但更迫切的擔憂是,強大的個體會主動改變其局部環境,這種改變往往是劇烈的,且在當時往往未被充分理解。

熵的框架

讓一切運作正常是很難的。讓事情出錯卻很容易。這本質上也是對狀態空間相對大小的觀察:複雜系統持續運作的狀態,遠少於其失效的狀態,就像手錶能計時的配置遠少於不能計時的配置一樣。

重要的推論是:只有當存在特定且強大的機制使事情保持正確時,事情才會正確。 你的身體維持穩態並非預設如此,而是因為數十億年的演化建立了精密的調節系統,將溫度、pH 值、血氧和上千個其他參數保持在可行範圍內。

在缺乏這種機制的地方,熵會獲勝。系統會漂移向廣大得多的功能失效狀態空間。因此,文明生存的問題在於:是否存在一個特定且強大的機制,能將文明保持在狹窄的生存兼容狀態帶內?答案很可能是否定的。

生存的回饋迴路並不緊密

讀者可能會對熵的論點提出反對:「當然,生存狀態是罕見的,但我們有回饋機制。當事情開始出錯時,我們會感到痛苦,經歷資源短缺,我們會注意到並修正。」這在許多領域是正確的,這也正是為什麼許多複雜系統儘管面臨熵增仍能維持功能:它們擁有緊密的回饋迴路,能偵測到偏離功能狀態的行為並施加修正壓力。

問題在於,對於存在性威脅(existential threats),回饋迴路通常一點也不緊密。

考慮一個緊密的生存回饋迴路會是什麼樣子。對於每一種存在性威脅,都需要有某種成比例的初步信號:痛苦、資源損失、政治動盪,某些能反映在那些真正能採取行動的個體的偏好和激勵結構中的信號(而不僅僅是某種「經驗信號」)。該信號需要 (a) 足夠早以允許修正行動,(b) 足夠強以激發代價高昂的修正行動,以及 (c) 與威脅的實際嚴重程度可靠地連接,而非連接到某種可以被古德哈特定律(Goodharted)利用的代理指標。期待這些是不現實的。

生存與優化存在衝突

優化實際推動我們走向的狀態,不僅與生存不相關,而且與生存處於主動的張力之中。

在競爭的每一個層面上,個體都面臨資源分配的決策。某些資源可以投入到與生存相關的活動中。同樣的資源也可以投入到能立即提升個體競爭適應度的活動中。^([3])

總有一個邊際,你可以將資源從第一類重新分配到第二類。關鍵在於,並沒有強大的反向回饋迴路:投資於文明生存通常不會讓你更具競爭力。有時存在微弱的相關性(一個為流行病做準備的社會可能擁有更健康的勞動力),但這種相關性遠不足以使「生存導向行為」在競爭格局中成為獲勝策略。

這意味著在大多數競爭環境中,從長期來看,生存導向行為的適應度是負的,因為那些跳過它並將資源重新分配到直接競爭中的個體,在其他條件相同的情況下,會勝過那些不這麼做的個體。

現在,有一種情況可以強化生存導向行為:如果存在性災難發生的頻率足夠高,且程度足夠溫和,使得為之做準備的個體始終能勝過不準備的個體。在這種情況下,你會得到類似於對「生存能力」的自然選擇。想想生物是如何演化出免疫系統的:病原體很頻繁,單次感染是可以存活的,擁有更好防禦能力的生物可靠地勝過沒有防禦能力的生物。回饋迴路是緊密的,災難分佈是正確的,生存能力因此被選擇出來。

但請注意所需的條件是多麼特殊:

(a) 災難分佈必須非常特殊。 存在性威脅必須足夠頻繁以提供訓練信號,但又必須足夠溫和,使得不準備的代價雖然高昂但不至於立即終結。如果災難太罕見,準備的個體會浪費資源,而其競爭對手則將資源花在贏得當前回合。如果災難太嚴重,它們會直接抹除所有人,根本不存在差異化選擇。頻繁且溫和的存在性威脅(獎勵準備工作)是一個非常狹窄的區間,沒有理由預期我們實際面臨的威脅分佈會落入其中。事實上,我們面臨的威脅特徵恰恰是罕見且災難性的,而非頻繁且溫和的。

(b) 即便分佈正確,對局部威脅的校準也無法推廣。 假設一個文明確實對其局部環境中的存在性威脅發展出了良好的應對措施。這完全不能保證這些應對措施能轉移到訓練分佈之外的新型威脅上。過去存在性威脅「險些擦身而過」的「訓練分佈」,並不代表所有可能的存在性威脅的完整分佈。

預見格局變化的能力並不能可靠地提供幫助

假設某些個體足夠聰明,能預測競爭格局將如何轉變。他們能利用這種預見來做準備嗎?理論上可以。實踐中,他們是在與那些利用資源在當前格局中獲勝的個體競爭,而不是為下一個格局做準備。一個正確預測 AI 將在 10 年內重塑競爭格局並轉移資源做準備的個體,在接下來的 9 年裡,會被那些利用這些資源在當下稱霸的個體所擊敗。等到預見者的預測被證實時,短視的個體可能已經積累了足夠的權力和資源,成為決定轉型如何進行的人。順便說一句,這在金融市場中是一種常見的動態:太早正確在操作上與錯誤是無法區分的。

優化壓力下生存的條件

我們現在可以相當精確地說明,為了讓文明在優化壓力下生存,優化格局需要具備什麼樣子:

條件 1:當前的適應度水平必須足夠。 要麼文明在競爭格局中的現有位置已經處於生存兼容區域內,要麼優化動態正以足夠快的速度將其帶向生存兼容區域,使其在存在性災難發生前抵達。

條件 2:格局必須足夠靜態。 競爭環境的變化速度不能快到讓適應變得過時。如果格局轉變的速度超過了文明調整的速度,那麼即便是一個目前適應良好的文明也只是在苟延殘喘,因為它的適應性失效速度快於新適應性的開發速度。

那麼:這兩個條件同時滿足的可能性有多大?

這兩個條件的結合並非邏輯上不可能。但它需要優化格局呈現出一種非常特定、非常幸運的配置,而目前並無已知機制能選擇或維持這種配置。

文明路徑並非遍歷的

你沒有機會玩多次。不存在一個文明的系綜(ensemble)可以讓你平均化結果。你只有一條穿過時間的路徑,而滅絕是一個吸收態(absorbing state):一旦進入,就無法離開。

任何非無窮小的每期滅絕概率,在足夠長的時間跨度下都會收斂於必然。 如果你每世紀面臨 1% 的滅絕概率,生存 1,000 年的概率約為 0.99^10 ≈ 0.90。或許還能存活。生存 10,000 年的概率約為 0.99^100 ≈ 0.37。令人不安。生存 100,000 年的概率約為 0.99^1000 ≈ 0.00004。實際上為零。而在宇宙時間尺度上,100,000 年根本不算什麼。

為了長期生存,你不需要「平均而言」或「預期上」生存。你需要「幾乎肯定」生存,幾乎是在技術性的測度論意義(measure-theoretic sense)上:在每一期,滅絕事件的概率必須被壓低到接近零,使得生存概率的無限乘積收斂於某個正數。這是一個比「保持每期風險在合理低位」要苛刻得多的要求。

生存無法規模化

一個推論:在一個尺度上的生存能力無法組合成更大尺度上的生存,無論是在時間還是空間上。

考慮時間維度。假設一個社會通過英勇的努力,在一代人的時間(約 30 到 50 年)內保持對存在性風險緩解的高度關注。假設每一代都如此:每一代都繼承這種承諾,維持制度,並將其自身時期的滅絕概率保持在極低水平。這一連串負責任的世代是否能累積成長期生存?

不一定,而且很可能不會。對於一代人的壽命來說看起來完全沒問題的概率,經過相乘後將意味著長期的滅絕。

空間維度甚至更糟。假設一個國家成功實施了強大的親生存政策。這個國家的生存依然取決於其他所有國家的行為。存在性風險下的生存是一個「最弱環節(weakest-link)」問題,更準確地說,是橫跨全球及所有未來時間的最弱環節問題,而每一期每一環都撐住的概率,是所有個體支撐概率的乘積。

過程是肥尾的

上述的非遍歷性論證慷慨地假設了每期滅絕概率隨時間大致恆定。實際情況幾乎肯定更糟。

代表文明結果的隨機過程極有可能是肥尾(fat-tailed)的。也就是說,系統可能遭受的衝擊分佈,其尾部比高斯分佈或其他薄尾分佈所暗示的要沉重得多。極端事件,尤其是技術性事件,並不像薄尾模型下那樣呈指數級罕見。它們至多是多項式級罕見的,這意味著它們在文明時間尺度上發生的可能性,遠高於從近期平靜時期進行的天真推斷。

在肥尾情況下,非遍歷性問題會急劇惡化。在薄尾世界中,你至少可以相當好地估計每期風險並據此規劃。在肥尾世界中,每期風險由那些超出你當前模型的事件主導,這些事件是你無法估計的,因為你從未觀察過類似的事物,且你的歷史數據幾乎無法提供關於其概率的信息。我上面使用的「每世紀 1%」估計只是說明性的;在肥尾世界中,誠實的估計更接近於「我們不知道,且我們可能無法知道,因為主導風險的尾部事件尚未發生,且看起來會與任何已知事物完全不同」。

然而,還不僅如此。

在缺乏足夠強大的修正機制時,乘法肥尾過程會將系統驅向零

考慮一個乘法過程:一個系統在每個時間步的狀態都被乘以某個隨機因子(而不是加上某個隨機量)。文明的「健康度」在這種意義上很可能是乘法的:一個足夠壞的衝擊不會從你的前景中減去一個固定數值,而是將其乘以一個接近零的數值。而滅絕就是零處的吸收態。

對於最簡單的情況,幾何布朗運動(一種對數收益為均值 μ、方差 σ² 的高斯分佈的乘法過程),有一個著名且精確的結果:單一路徑的時間平均增長率不是 μ,而是 μ − ½σ²。這是「系綜平均」與「時間平均」之間的差距,即「在許多平行世界的平均情況」與「在你實際生活的這一個世界發生的情況」之間的差距。修正項 ½σ² 永遠是負的,這意味著單一路徑的增長率永遠低於預期增長率,當 σ² 足夠大時,即使 μ 是正的,增長率也會變成負的。你的預期價值在增長,但你,在你這唯一的一條路徑上,正走向歸零。

這已經是一個重要的結果。它告訴你,對於任何在觸及零後無法重啟的系統,高波動性不僅令人不快,而且具有存在性危險:即使所有可能路徑的平均結果看起來很好,一條穿過足夠波動的乘法過程的單一路徑幾乎肯定會被摧毀。

現在考慮當過程是肥尾時會發生什麼。將高斯衝擊替換為從穩定指數 α < 2 的 α-穩定分佈(α-stable distribution)中抽取的衝擊。對於 α < 2,理論方差是無限的(或未定義的)。μ − ½σ² 的精確公式是專為高斯情況推導的(通過伊藤引理),形式上並不適用於具有無限方差的列維過程(Lévy processes);修正項會採取涉及過程特徵指數的更複雜形式。然而,存在一種經驗規律:如果你計算到每個時間點為止的運行樣本方差(running sample variance)(這總是有限的,因為是從有限觀測值計算而來),並將其代入高斯公式 μ − ½(σ_empirical)²,你會得到一個能相當好地追蹤過程實際實現增長率的數值。你會觀察到,運行樣本方差隨時間增長,並伴隨著新極端觀測值的到來而出現越來越大的尖峰,因為無限方差分佈的樣本方差不會穩定。每一個新的尾部事件都會向上修正有效 σ²,而有效增長率 μ − ½(σ_empirical)² 則被拖得越來越低。^([4])

不嚴謹地說,這意味著:對於具有肥尾衝擊的乘法過程,有效的波動性懲罰隨時間無限制增長,最終壓倒任何正向漂移。單一路徑走向歸零不僅是高概率的,而且具有一種必然性,因為累積的尾部事件會使有效增長率越來越深地陷入負值。

現在,這個論點如果照單全收,似乎證明得太多了。如果肥尾乘法動態不可避免地將系統驅向零,且如果它們真的精確描述了現實,那麼每個生物、每個物種、每個文明無論做什麼都注定滅絕。對於這篇投機性的文章來說,這可能也過於強勢了。

我認為解決之道在於,持續存在的真實系統並非在經歷不受約束的乘法隨機遊走——要麼它們的遊走並非真正的乘法,要麼並非真正的肥尾。

因此,數學論證並非證明萬物無論如何都會死亡。它展示的是:在缺乏足夠強大的修正機制的情況下,乘法肥尾動態會佔據主導地位,系統會歸零。 生存需要一種強大到足以抵消肥尾衝擊對單一路徑動態施加的、不斷增長的波動性懲罰的修正機制。

工具性收斂:最強的反論,以及為何它在實踐中可能失效

好吧,那工具性收斂(instrumental convergence)呢?

我們肯定知道:幾乎你可能擁有的任何目標,都需要你活著去追求。一個足夠聰明的個體,無論其終極目標為何,都應該將自我保存(以及延伸到文明保存,如果該個體依賴文明的話)作為一個工具性的子目標。

我認為這個論點在原理上是正確的,如果它在實踐中奏效,它將擊敗「致命現實假設」。 如果文明能可靠地產生足夠聰明的個體(無論是人類個體、機構還是 AI 系統),使其內化長期生存的工具價值,並最終有效地根據這種理解採取行動,那麼就存在一種對抗滅絕壓力的機制,本文的核心論點就是錯誤的。

然而,關鍵詞是「最終」。問題不在於這種體認是否最終會發生,而在於它是否發生得足夠快、具有足夠的力量、出現在足夠多的個體中,以便在為時已晚之前真正抵消滅絕壓力。

具體來說:

「足夠聰明」是一個很高的門檻,而我們尚未跨越。 工具性收斂是足夠聰明的個體的理論屬性。人類是聰明的,但在相關意義上顯然不夠聰明。人類在抽象層面上理解他們需要活著才能追求目標,但在許多情況下,人類並沒有採取相應的行動,包括在文明層面上。

理論上的接受不等於行為上的合規。 即便是在理解並接受工具性收斂論點的個體中,智力上的接受與實際行為之間仍存在差距。理解生存是工具性必要的,並不會自動重構你的激勵結構、你的貼現率、你的競爭環境或你運作其中的制度。這在某種意義上只是滅絕壓力核心機制的重申:即便理解該論點的個體,也會被那些同樣理解但選擇背叛的個體所淘汰。

理解與環境轉變之間的競賽。 一個文明需要在變得強大到足以將自身局部環境改變為致命狀態之前,變得足夠聰明以內化生存的工具價值。

對理解者的競爭性排斥。 假設文明中的某些個體確實達標了。這些個體現在正與同樣聰明、同樣理解該論點,但出於某種原因不採取行動的個體競爭。不採取行動的個體擁有更多資源用於眼前的競爭,因為他們沒有支付「生存稅」。理解並採取行動的個體被邊緣化,並非因為他們錯了,而是因為正確代價高昂,而錯誤卻是免費的。

因此,僅僅「最終變得足夠聰明」是不夠的。一個文明必須「此時此地」就足夠聰明,而這很難,因為:

每個新興文明都處於「最笨可能文明」的邊緣

當一個物種跨越某個認知和社會能力的門檻時,文明便產生了。低於這個門檻,你根本得不到文明。高於它,你就能得到。問題是:我們應該預期一個新興文明高出這個門檻多少?

通過一個簡單的選擇論證,答案是:僅僅高出那麼一點點。文明一旦具備條件就會出現,因為產生文明的組成部分(智力、社會複雜性、工具使用)在正向選擇壓力下,其原因與建立文明本身無關。它們被選擇是因為它們賦予了即時的競爭優勢。一個物種跨越文明門檻並非因為它瞄準了文明,而是因為出於其他原因推動智力上升的優化壓力,恰好將其推過了門檻。既然它是一旦具備條件就跨越,那麼它跨越時所具備的認知天賦大約就是所需的最低限度。

這與演化生物學中一個熟悉的觀點直接類比:生物傾向於對其生態位進行「最低限度」的適應,而非最大程度,因為演化是一個「滿意化(satisficing)」過程,一旦某項特徵對當前競爭格局「足夠好」(或者更準確地說,一旦進一步改進的邊際適應度收益低於邊際成本),它就會停止優化。同樣,文明以大約最低可行智力出現,因為沒有特定的選擇壓力推動前文明物種超越最低限度,即便有,那也需要比文明尺度更長的時間。^([5])

因此,我們應該預期一個新興文明大約與一個文明在仍能被稱為文明的前提下所能達到的最笨程度相當。

智力並非瓶頸

誠然,在其他條件相同的情況下,更高的智力會導致對存在性風險更好的意識,甚至可能導致更大的擔憂。

但「其他條件相同」從未是實際情況。當一個文明的整體智力水平提高時,實際發生的是所有個體都變得更聰明,包括那些優化目標並非生存的個體。而那些優化非生存目標的個體依然擁有競爭優勢,因為他們沒有支付生存稅。一個擁有更聰明人類的世界,並非一個由聰明的生存導向者主宰的世界,而是一個聰明的生存導向者與同樣聰明的增長導向者、權力導向者和利潤導向者競爭的世界,並且因為同樣的結構性原因而失敗,只是發生在更高的認知水平上。

高智力與對存在性風險的徹底忽視並存,這種狀態看起來像是一種不太可能或不自然的配置。在某種意義上確實如此:如果你從所有具備該智力水平的可能心智空間中隨機挑選一個,它不太可能具有這種特定的關注模式和盲點。但我們並非在心智空間中隨機抽樣。我們觀察的是一個專門選擇「競爭適應度」的優化過程的產出,而競爭適應度被智力提升,卻不被(甚至被削弱)對存在性風險的關注所提升。優化過程實際上是在搜尋正是這種「不太可能」的配置。

關心生存不等於生存

我不否認許多人在心理層面上關心生存。

然而,存在三個層次,而只有第三個層次才重要:

層次 1:在心理意義上關心生存。 你感到擔憂。你相信存在性風險是真實且重要的。你對此感到焦慮或緊迫。

層次 2:執行旨在親生存的行動。 你向 AI 安全組織捐款。你撰寫關於存在性風險的論文。你遊說政策變革。你在對齊實驗室工作。你合理地覺得自己正在為解決問題盡一份力。

層次 3:執行真正導致生存的行動。 你正在執行的行動在因果上促成了文明實際上沒有滅絕。這是一個極其苛刻的標準,而這正是重點所在。

滅絕壓力是關於層次 3 的主張。它指出文明的優化動態使得個體以足夠規模執行層次 3 行動的可能性極低。它並不暗示個體不會執行層次 1 和層次 2 的行動。

進步的困境:沒有好的選項

選項 1:全速前進。 這大約是現狀。技術進步以競爭優化格局產生的任何速率持續進行,在實踐中這意味著盡可能快,因為開發技術更快的個體會勝過開發較慢的個體。問題顯而易見,且已詳盡討論。

選項 2:停止進步。 完全停止開發新技術。這避免了人為造成環境不穩定的問題,但它直接撞上了困境的另一角:自然環境並非靜態。在宇宙時間尺度上,這意味著必然滅絕。此外,要注意競爭動態會推動恢復進步。

選項 3:緩慢、謹慎、生存導向的進步。 這是看起來應該奏效的選項,而它失效的原因最具啟發性。其想法是:緩慢且謹慎地前進,專門將研發導向增強文明韌性的技術,同時在進入下一項技術前仔細管理每項新技術引入的風險。

問題在於,「緩慢、謹慎、生存導向的進步」並非任何已知優化過程的自然吸引子。它僅僅是緩慢的進步。 一個進步緩慢的世界,預設情況下並非一個將其緩慢進步導向生存的世界。它是一個同樣的競爭動態以較慢速率運作的世界。那些需要將進步轉向生存的個體,依然面臨著同樣的結構性劣勢。

為了讓這奏效,你需要一個機制,不僅能減緩進步,還能重定向進步,專門將文明資源引導向生存相關的能力,而非競爭優勢相關的能力。而且這個機制必須是自我維持的:它必須能在不斷獎勵背離生存導向計畫的競爭動態壓力下維持自身。這實際上是在要求一個全球協調機制,能在強大的背叛誘惑下無限期地存在。

間接支持論點

哲學文獻中存在各種經典的末日論證。我並非建立在它們之上,當前的推理鏈條也不需要它們。但它們之間的一致性值得注意。

最相關的是狹義的末日論證(Doomsday Argument),其最簡單的形式觀察到:如果人類最終將達到數萬億人,分佈在數千年或多個星系中,那麼你的出生排名(大約是第 1000 億個出生的人類)使你處於物種歷史中極其早期的位置,這在先驗上是不太可能的。你將處於所有曾活過的人類中最初的 0.001% 或更少。在出生排名的均勻先驗下,這比另一種可能性要小得多:即曾活過的人類總數並非天文數字,這暗示人類並沒有一個漫長或廣闊的未來。這個論證在某種程度上是有爭議的,且存在著名的反對意見(自我抽樣假設 SSA自我標示假設 SIA 的辯論,以及參照類問題),我不想在這裡重新爭論。重點僅在於,如果你認真對待末日論證,它告訴你的事情與滅絕壓力大致相同:擁有數十億年繁榮人類文明的遙遠未來並非預期結果。

大篩選(Great Filter)論證或許更直接相關。就我所知,大篩選很可能確實存在,且在我看來,日益增多的生物學證據將估計從過去轉向了未來。同時,我承認 ASI(人工超智慧)不太可能是大篩選,因為如果是那樣,我們周圍的宇宙應該已經被某種 ASI 征服了。所以在我看來,這裡確實存在張力。^([6])

無論如何,滅絕壓力假設為前方的篩選提供了一個特定的機制。

觀察選擇效應(observation selection effects)文獻通常提供了工具,讓我們能仔細推理「既然我們是觀察者,我們應該預期觀察到什麼」,該文獻中的許多結論都指向同一個方向。我們不應對發現自己處於一個允許觀察者存在的宇宙感到驚訝,但我們也不應將「我們在這裡」這一事實視為「未來很可能安全」的強有力證據。

當然,還有大量關於技術風險(technogenic risks)的論述。從滅絕壓力的角度來看,每一項重大技術都是踏出局部環境、進入參數空間中未經測試區域的一步。在具體層面上,我們可以輕而易舉地想到諸如 ASI、核戰爭、全球變暖、生物武器或灰霧(grey goo)等事物。

總結:在優化層面上,你因關心生存而受罰

將資源從競爭中轉移到生存上的個體,支付了即時的代價,卻沒有獲得相應的競爭利益,這意味著他們會被不支付此代價的個體系統性地淘汰。

這就是我稱之為「壓力」的原因。當一個系統試圖對抗滅絕時,會有一種恢復力將系統推回「不對抗滅絕」的狀態,除非在相反方向投入巨大的資源。

轉身順風而行的水手總是會移動得更快,除非其競爭對手投入了額外的、更強大的動力源。

這並不是說你不應該關心生存。

  • ^(^)這聽起來像是關於跨時偏好/效用函數的論點,但讓我澄清,它不是。我做此說明是因為這句話可能會造成一種錯誤印象,認為問題在於時間貼現(time discounting),事實並非如此,請參見後文。

  • ^(^)這與脆弱世界假設(Fragile World Hypothesis)非常一致。關於此話題的更多討論請參閱該文。

  • ^(^)貫穿全文的這條推理線索與不適當均衡(Inadequate Equilibria)密切相關。我認為用不適當均衡框架來表述我在此寫下的內容是正確的。只是「適當均衡」非常罕見,且是被優化所針對的。

  • ^(^)這整段內容聽起來可能太過技術性,作為作者,我不應指望讀者能流暢理解。為了清晰起見,我建議可以詢問 AI 關於 α-穩定過程的知識,或者參考我關於該主題的書,或讓 AI 總結我書中關於 α-穩定過程經驗研究的結果。

  • ^(^)嚴格來說,存在一些合理的場景,即產生文明級智力的同樣壓力在跨越門檻後繼續運作(例如,對智力的性選擇並不會因為你發明了農業而停止)。然而,該觀點在較弱的形式下依然成立:我們應該預期自己處於最低限度附近(特別是在短時間尺度上),而不一定是正好處於最低限度,而「靠近最低限度」對於後續的一切推論已足夠。

  • ^(^)顯然,我認為 ASI 強大到足以逃脫滅絕壓力。因此,在本宇宙區域缺乏 ASI 似乎是一個論點,支持大篩選位於過去,但我並不確定。無論如何,這是一個獨立的大課題。

參與討論

https://lesswrong.com/posts/RrL7xqdPycGNHQkXR/the-lethal-reality-hypothesis