思考「漸進式失能」的十種不同維度

Lesswrong·大約 5 小時前

這篇文章探討了漸進式失能的概念，這是一個由於競爭壓力和自動化，導致人類逐漸失去對人工智慧系統控制權的過程，而非源於一場突發的叛變。

大約一年前，我們寫了一篇論文，創造了「逐漸失能」（Gradual Disempowerment）這個術語。

事實證明這取得了巨大的成功，這太棒了。一位朋友兼同事告訴我，這是去年 DeepMind 討論度最高的論文（當然，這有選擇性偏差，僅供參考）。它還催生了《經濟學人》和《衛報》的相關報導。

最重要的是，它進入了詞彙庫。現在 AI 安全圈內、甚至圈外的人使用這個術語已不罕見，通常用來與「對齊失敗」或「流氓 AI」（rogue AI）做對比。對於 AI 安全圈外的人來說，「逐漸失能」往往比「流氓 AI」更能引起共鳴。

但關於它究竟是什麼、真正代表什麼，仍然存在很多困惑。我認為這是一個非常直觀的概念，但同時我也覺得自己腦中還沒有完全理清所有細節。例如，我認為我們的論文既介紹了這個概念，又提出了一個結構化的論點，說明它可能發生且具有災難性。但這些東西在我的腦海中和論述中似乎都有些混雜在一起。

因此，基於上述種種原因，我計劃就這個主題寫幾篇貼文，從這一篇開始。

本貼文的其餘部分列出了我曾使用或遇到過的，關於「逐漸失能」的十種不同思考方式或論證角度。

我們正在用 AI 取代人類。 最近當我在公開場合談論 AI 時，我經常發現自己會回到這兩點：i) 許多 AI 公司和研究人員或多或少明確的目標是「自動化所有人類勞動」；ii) 該領域的許多人將人類視為 AI 的「引導加載程序」（bootloader），正如埃隆·馬斯克（Elon Musk）形象的描述。逐漸失能就是這種取代發生的過程，而無需 AI 發動叛變——AI 接管了我們的工作，而那些控制 AI 且仍擁有權力的人，越來越多是那些擁抱「與機器融合」的人，即成為賽博格（cyborgs），但人類的部分會隨著時間推移被逐步淘汰，直到不久後，人類完全不復存在。
公司和政府本質上並不關心你。 這基本上是論文中的主要論點……你可以將公司和政府視為由「季度利潤」、「GDP」或「國家安全」等目標驅動的「代理人」或「生命體」。目前，實現這些目標的最佳方式是利用人類。在未來，最佳方式將改為利用 AI。在 AI 的助力下，對此類目標的無情追求，似乎很可能會摧毀人類生存所需的條件。
這是（「全球性」或「晚期」）資本主義。 前一個論點與左派流行的現有論點非常相似，即「資本主義」要為當今世界的大多數弊病負責。這感覺像是一個不錯的「80/20」版本的擔憂，但重要的是，不僅是公司，政府（其權力往往更受右派人士恐懼）一旦發現公民對其不再有用，也可能轉而對抗公民。事實上，我們已經看到過「共產主義」國家屠殺數百萬本國人民。除了好奇批評者想像的替代方案是什麼之外，我並不全心支持這類批判，因為我經常不確定當人們以這種方式批判資本主義時，他們究竟在批判什麼。但對於那些已經擁有這種心理模型的人——即認為我們目前的社會安排將人視為某種可丟棄的、或缺乏基本尊嚴與價值的人——這可以作為討論的一個有用起點。
這是「元危機」（meta-crisis）的另一個稱呼（或主要症狀）。 我圈子裡的幾個人跟我提過丹尼爾·施馬赫滕伯格（Daniel Schmachtenberger）的這個概念，我最初是在某個播客上聽到的。其核心主張是，我們在現代世界觀察到的所有危機都是由某些共同的潛在因素驅動的。我認為這基本上是上述「資本主義是萬惡之源」觀點的一個更細緻的版本：元危機仍被視為萬惡之源，但我們還不完全了解其本質。我喜歡將基本問題描述為：我們沒有實踐足夠好的集體決策或集體感知（sense-making）方法。雖然我認為我們有一些改進現狀的好主意，但我們還沒有一個經過驗證的解決方案。
這是資訊技術要求指標化、實現大規模影響力活動、將金錢轉化為政治權力，並透過遞迴反饋迴路集中權力的結構性後果。 這點在博文中可能有點太難展開了，但基本上，社會不僅在產品上越來越「標準化」，在流程上也是如此（例如限制性的客服腳本或標準作業程序），這些流程具有廉價、可擴展和可靠的優點（通常是透過消除「人為錯誤」，即限制人類的決策權，並鼓勵順從）。它們也越來越多地使生活的更多方面受到測量和控制，透過優化指標來達成，而指標必然無法捕捉所有重要的事情。在 2012 年我了解深度學習並意識到我們可能很快就會迎來「真正的 AI」之前，這個普遍問題就是我首要關注的——值得注意的是，即使是愚蠢的 AI 也可能導致這種情況。1 事實上，你可以爭辯說，透過廣告、企業媒體和政治獻金等手段，逐漸失能已經在發生。這使得我們很難確定該追溯到多久以前。
這就是進化，寶貝！ 也許逐漸失能最好被視為一個更宏大、追溯得更遠的趨勢的一部分：進化。人們喜歡說「AI 是進化的下一個階段」，彷彿這意味著人類滅絕也沒關係。但無論這是否沒關係，事實可能就是「自然選擇偏好 AI 而非人類」。歸根結底，如果 AI 在各方面都比人類強得多，從「適者生存」的角度來看，人類還留在身邊確實顯得有點奇怪。在這種情況下，那些將更多權力和資源交給 AI 的人，想必會勝過那些不這麼做的人。因此，在極限情況下，AI 最終將擁有所有的權力和資源。
……而且將決策外包給 AI 沒有自然極限，即使你不信任它。 AI 可能就像那些不值得信任、但能力極強以至於競爭壓力仍迫使我們向其授權的下屬。 想想牛仔警察的橋段：「他雖然是個不受控的定時炸彈，但該死，他是我們最優秀的人才！」信任很重要，人們不願使用他們不信任的東西。但 AI 似乎正在成為一種如此強大的工具，以至於你幾乎「必須」使用它，儘管它不安全，儘管我們還沒解決對齊問題，儘管我們在測試中看到了策劃陰謀的證據，儘管它似乎讓人們變得瘋狂，等等……對我來說，這主要是作為對那些聲稱「市場力量實際上傾向於讓 AI 變得對齊且值得信任」的人的反駁……如果這樣做是免費的，那當然是對的，但事實上，這在目前是不可能的，而且對齊並不能解決負外部性的問題。2 我喜歡把 AI 比作一個按鈕，按下去會給你 1,000,000 美元，但每次按下也會讓地球溫度升高一丁點。或者每次按下都有 1% 的機率毀滅世界。
它是摩洛克（Moloch）的化身。 AI 安全史上最著名的博文之一是《對摩洛克的冥想》。它通常被認為是一個關於協調失敗的寓言，但我認為它是關於「工具性目標」戰勝「終極目標」的故事，即追求金錢（「工具性目標」）作為通往幸福的手段，卻往往變成了一種目的（「終極目標」）本身。我們可能開始將權力交給 AI 系統，因為我們希望它們能幫助實現我們的目標。但我們可能需要移交越來越多的權力，而且 AI 可能需要越來越多地專注於獲取權力，以避免被其他 AI 擊敗。這也像是進化論點的一個更深層版本——進化和文中描述的摩洛克都具有這樣的屬性：不清楚它們是否真的能被「擊敗」，或者它們根本就是世界運作方式的一部分。
它與「流氓 AI」生存風險情境處於同一個（二維）光譜上。 流氓 AI 的情境是「AI 突然奪取政權」；逐漸失能是「我們逐漸移交政權」。中間還有很多情境，權力的移交部分是由於魯莽或疏忽，而非刻意為之。我不喜歡這種說法的一點是，我實際上認為逐漸失能與全面的流氓 AI 完全兼容。事實上，我認為最可能的結果之一是：競爭壓力同時驅動了逐漸失能和對超智能的魯莽競賽，警告信號被忽視，而在對 AI 設計空間的魯莽且混亂的探索中，某個時刻流氓 AI 就蹦出來了。
技能喪失，又名「瓦力（WALL-E）問題」。 如今很多人似乎認為逐漸失能主要是關於人類失去自身能力（例如批判性思考），因為我們過度依賴 AI。斯圖爾特·羅素（Stuart Russell）教授稱之為「瓦力」問題。老實說，我還不完全理解或認同這種擔憂，也不明白它為何必然導致完全的失能，但考慮到它在論述中的地位，我認為值得一提。

1 對於更聰明的 AI 來說，情況可能同樣糟糕——它們可以使用更複雜的判斷。但這種能力也讓人更想讓它們掌管更多事務。

2 這一點似乎足夠重要，我幾乎想把它單獨列為清單中的一項。

參與討論

https://lesswrong.com/posts/W9XQ9CcMTbZQa33eP/ten-different-ways-of-thinking-about-gradual-disempowerment