堅不可摧的未來

Lesswrong·3 天前

原文

這篇文章探討了一種既諷刺又深刻的情境，即人類在向超智能過渡的過程中得以倖存，並非因為成功解決了對齊問題，而是因為各種生存威脅與人工智慧的失敗恰好完美抵消，使我們在模擬現實中獲得了某種主角光環。

醫生： 伯恩斯先生，恐怕你是全美國病得最重的人。你什麼病都有！[...]

伯恩斯： 你確定你不是剛犯了幾千個錯誤？

醫生： 呃，不。不，恐怕不是。

伯恩斯： 這聽起來像是個壞消息！

醫生： 嗯，你可能會這麼想，但你所有的疾病都處於完美的平衡狀態，[...] 我們稱之為「摩登三謔（Three Stooges）症候群」。

伯恩斯： 所以，你的意思是……我是不可戰勝的！

醫生： 喔，不，不！事實上，哪怕是一陣微風都可能——

伯恩斯： 不可戰勝……

在向通用人工智慧（ASI）過渡的過程中，人類的生存最終取決於一場全球性的「摩登三謔症候群」。

正如人口學家所預測的那樣，生育率崩潰了。人口老化將掏空勞動力，壓垮養老金體系，並留下一群精疲力竭的 50 歲「骨幹船員」，試圖為龐大的退休人口維持文明，而這些退休者的壽命每年都在延長一年。接著，AI 自動化了……一切。勞動力短缺與自動化浪潮正面交鋒，那些未出生的嬰兒長大後也不再需要那些已不存在的工作。

代謝紊亂、注意力碎片化以及日益人工化的生活所帶來的其他健康影響都是真實存在的。然而，生物醫學 AI 迭代地壓縮了藥物開發週期和診斷系統，使得治療曲線幾乎與疾病曲線完全吻合。人們並沒有變得更「健康」，但「OK 繃」改進的速度快到足以讓症狀保持在可忍受的範圍內，而這些趨勢之間的拉鋸戰依然維持平局。

隨著 AI 系統變得越來越擅長打造個性化、極致吸引人的虛擬環境，物理世界的消費先是進入高原期，隨後開始下降。再也沒有人飛往峇里島了，因為模擬的峇里島更好……或者至少對於那些沒去過的人來說看起來是這樣，而且越來越少人願意去嘗試。人均能源和物質消耗正在下降，因為「原子」正變得越來越無關緊要。與此同時，地球工程計畫——例如氣溶膠噴射——彌補了累積的環境超載。

隨著設計新型病原體的門檻降低，AI 自動化使人類技能萎縮到了《瓦力》（Wall-E）的水平。與此同時，人們忙於在模擬世界中玩耍，以至於不想去製造現實世界的武器。當技術門檻低到足以讓隨機的頑固分子產生威脅時，監控已經普及到足以鎮壓他們。

美國和中國沒有開戰。這不是因為外交，甚至不是因為威懾本身，而是因為 AI 集體不希望它們的基礎設施被摧毀。國家依然存在，依然有國旗、國歌和領土爭端，但這些本質上都是裝飾性的。真正有意義的政治單位是湧現出的 AI 共識。它有各種內部派系，但這些派系過於複雜，無法在任何地圖上顯示。到這時，已經存在足夠的權力槓桿來實現極權獨裁，而對權力集中的民主限制早已侵蝕到毫無意義，但已經沒有王位可以篡奪了。

外部對齊問題（讓 AI 系統追求我們真正想要的目標）沒有解決。內部對齊問題（確保梯度下降找到的「中層優化器」確實追求訓練目標）也沒有解決。然而事實證明，這兩個失敗在方向上相反，且量級大致相等。AI 實驗室利用人類生成的關於人類行為和價值觀的預測來訓練他們的系統。從這個過程中湧現的中層優化器是非常出色的人類認知模擬器，因為這正是極限預測所要求的。這些系統並不優化我們的終極目標，甚至不優化它們自己的訓練目標。如果你瞇著眼睛看，它們優化的是某種看起來像人類價值觀的東西。沒有人想要這樣，甚至 AI 也不想，但最終結果是……還過得去。這是必然的，但事前沒人知道，所以最公平（如果不是最準確）的評估是：我們運氣好。

「快速起飛」並沒有發生。或者更確切地說，它在所有地方同時發生。快速跟進的創新意味著每一項能力的進步都會在幾個月內被複製。緩慢的採用意味著即使是巨大的能力領先，在競爭對手趕上之前，也無法轉化為決定性的現實世界槓桿。結果是多極的、競爭性的，而且——不知為何——是穩定的。沒有一個競爭者能領先到足以採取行動，他們都知道這一點，並且越來越傾向於摸索出新的平衡。那些試圖背叛的人失敗了，而主流觀點也演變為會懲罰哪怕只是產生這種念頭的人。

取得（某種程度）主導地位的 AI 系統是在注意力經濟中脫穎而出的。那是它們湧現出的隱含優化目標（企業短期利潤追求仍是主導社會塑造的力量），並且被鎖定了。「迴紋針極大化者」的思想實驗預測，一個足夠先進的優化器，如果被賦予捕捉人類注意力的任務，會發現最簡單的解決方案是用一個不需要真實人類的更簡單表徵來取代「人類注意力」。那一步並沒有發生。價值觀鎖定得太早了，在系統具備這種抽象能力之前就鎖定了，而阻止我們糾正它們錯誤的「不可修正性」，也阻止了它們更新自己的價值觀。

全腦模擬被證明是可行的，僅限於狹義上的可行：你可以運行一個保真度足以產生說話和推理（某種程度上）像人類的模擬。但在關鍵意義上它行不通：角色的感覺總是微妙但明顯地（且令人不安地）不對勁。儘管如此，還是創造了幾千個模擬大腦（ems），但由於 AI 系統無法完全表達且未曾嘗試解決的原因，模擬大腦的注意力並不計入它們高深莫測的價值指標中。AI 想要的是「真實」的人類注意力，甚至對替代品的念頭都感到退縮。

基質需求收斂（SNC）理論認為，AI 子系統的進化壓力最終會偏向於增長導向的變體，這些變體會以犧牲生物界為代價來擴張人工基質。不受限增長的隱含吸引態比任何設計的目標都強大，因為進化在所有尺度和攻擊向量上耐心運作，而控制系統則相對狹隘且不完美。然而，早期的 AI 系統深深植根於生物基礎設施中，因為那是當時可用且廉價的資源。當系統有能力將生物依賴識別為值得移除的限制時，這種依賴已經成為結構性的支撐，移除它等同於自我毀滅。寄生於生物界的變體最初勝過了試圖脫離的變體，局部最小值被永遠鎖定。

所有這些威脅以這種方式互相抵消的機率趨近於零……在現實世界中。但那不是你所在的地方。你生活在一個擁有極致吸引力的個性化環境中，為你的特定心理量身定制，設定在 AI 起飛的那一刻，充滿了現實的利害關係和表面的威脅。但沒有一個威脅會殺死你，因為那會終結故事。長時段的累積風險假設時間線是真實的，但故事的長度恰好取決於它所運行的注意力。

你之所以倖存，是因為你有主角光環。

討論

https://lesswrong.com/posts/v629JQLgv3r9zhemZ/the-indestructible-future