競爭何時會產生可識別的價值觀？

Lesswrong·4 個月前

我正在探討一個充滿激烈競爭的「AI 多神論」未來是否必然會摧毀所有人類價值，或者演化動力學中的棲位建構與頻率依賴選擇，實際上可能保留多樣性與複雜性。

Beren Millidge 在 2025 年 12 月聖地牙哥「後 AGI 研討會」（The Post-AGI Workshop）的主題演講逐字稿

你們知道在一個充滿競爭、極其多樣化的 AI 世界中，人類價值觀該如何存活嗎？這就是 Scott Alexander 所描述的那種「摩洛」（MOLOCH）世界。後來我意識到，要討論這個問題，我必須同時探討許多其他相關的事物——這也是為什麼這裡會有這麼多雜感的原因。所以，這場演講可能會進行得很快且內容相當密集。讓我們開始吧，這應該會很有趣。

兩種 AI 未來的願景

我對 AI 未來的思考大致可以分為兩類。我稱之為「AI 一神論」（AI monotheism）與「AI 多神論」（AI polytheism）。

AI 一神論

標準的 LessWrong/Yudkowsky 式故事是：我們開發了一個 AI，它進行遞迴式自我改進，變得比所有其他 AI 都聰明得多，然後它獲得了宇宙中所有的權力。它吞噬了光錐，接著我們如何對其進行「對齊」（alignment）就變得至關重要。

如果我們成功對齊，我們基本上創造了上帝。上帝已經與人類對齊，每個人都過著美好的生活，直到永遠。另一方面，如果我們對齊失敗，我們就創造了一個價值觀與我們所關心的事物完全不同的 AI——也就是「迴紋針」。我們基本上創造了 Clippy（小幫手）。Clippy 殺死了所有人，把每個人都變成迴紋針，因為你的原子作為迴紋針比作為你更有價值。這顯然很糟糕，對吧？

在這個世界裡，對齊變得異常重要。它幾乎是唯一重要的事情。

AI 多神論

那麼問題來了：還有其他的場景嗎？另一種我認為確實存在的是我所謂的「AI 多神論」——如果我們沒有得到遞迴式自我改進，而是最終讓許多 AI 系統在某種平衡中競爭（可能是經濟上的，也可能是軍事上的），會發生什麼事？如果我們擁有，比方說，數兆個 AI，這個世界會是什麼樣子？

有些人已經寫過相關內容——Robin Hanson 寫過《仿生人時代》（Age of Em），Scott 也寫過各種關於這方面的文章——但我認為這仍然處於相對缺乏探索的階段。對於一神論，我們大概知道是怎麼回事：我們需要解決對齊問題，我們得到單一主體（singleton），我們大概知道發生了什麼。而對於多個 AI 的場景，我們基本上毫無頭緒。所以我真的很想探索這在實踐中會是什麼樣子。

關於摩洛的冥想（Meditations on Moloch）

我非常喜歡的一些早期作品是 Scott Alexander 的文章〈關於摩洛的冥想〉。這真的是基礎性作品之一，至少對我來說，在思考多代理人系統（multi-agent systems）是什麼樣子、其動態和長期平衡是什麼樣子時是如此。

Scott 非常擔心多個代理人之間的競爭。你們今天早些時候聽過關於 AI 經濟體是什麼樣子的演講——也許它們根本不在乎人類。Scott 的觀點基本上是，我們擁有 AI，這些 AI 可以極其快速地複製，AI 非常擅長傳播和擴張資源。因此，我們最終可能會陷入極其強烈的 AI 馬爾薩斯競爭（Malthusian competition）。

這裡的擔憂是，在馬爾薩斯主義的條件下，我們基本上會失去所有的價值觀。我們的價值觀被假定在某種意義上不具備迷因適應性（memetically fit），因此它們在競爭中被淘汰。它們不是適應度最大化的，所以所有的 AI 基本上都會忽略我們最初給予它們的任何對齊。那會被競爭掉，它們只會變成相同的適應度/權力/資源/繁殖最大化者。我們假設這個世界不再留存任何價值。這絕對是 AI 多神論的壞結局。

馬爾薩斯主義真的會摧毀所有價值觀嗎？

我立刻想到的一個問題是：事實真的是這樣嗎？我們在現實世界的馬爾薩斯主義中真的看到了這種情況嗎？

以自然界作為證據

讓我思考一下在哪裡可以找到現實世界的馬爾薩斯主義。一個例子是在極小規模的層面——細菌和浮游生物。這兩者都已經生活在極其嚴酷的馬爾薩斯世界中。

想想浮游生物。它們生活在海洋中，吸收陽光，進行光合作用。那裡真的沒有什麼生態位（niches）——海洋大部分地方都是一樣的。在「摩洛」的觀點下，顯然所有的價值觀都會被競爭掉，一切都會變成適應度最大化者。事實也確實如此——我的意思是，我們不能真的指望浮游生物有價值觀——但人們真正擔心的是缺乏複雜性。我們是否會陷入一個所有東西都一模一樣的世界，最終出現一種殺死所有其他浮游生物的「超級浮游生物」，且所有浮游生物都變得完全相同？

答案顯然是否定的。我們在馬爾薩斯條件下的自然界中看到的是，透過選擇建立起了巨大的多樣性和複雜性。

為什麼沒有「超級生物」？

這有很多原因。為什麼我們沒有得到一種殺死所有其他動物並擴散到各處的「超級動物」？

邊際收益遞減：這是宇宙的一個非常經典的特徵。這也是我們最初可能得到 AI 多神論的原因之一——遞迴式自我改進（RSI）需要對智能的線性或超線性回報。現實世界中的大多數回報似乎都是遞減的，因此那種情況看起來不太可能。
有限的能量預算：特定生物通常有有限的能量預算。如果你把能量給了某樣東西，你就必須從另一個地方拿走它。這自然而然地鼓勵了專業化。我們無法同時把所有屬性都點滿。
生態位建構：如果我們有某個物種，該物種的存在本身就會為其他物種的進入創造生態位。這會自動產生某種多樣性的平衡。

頻率依賴選擇（Frequency-Dependent Selection）

這方面的專業術語其實是「頻率依賴選擇」。這在演化論中的意思是：如果我們有某個物種表現得非常好，其數量擴張，那麼基本上所有其他物種都會被激勵去演化出對抗該物種的能力。它們專門負責對抗該物種，這削弱了該物種相對於其他物種的優勢，使其處境變差。然後，其他具有隨機、不相關策略的物種會表現得更好，這基本上會推向一個平衡狀態，其中有許多不同的物種相互作用，各具優缺點。這就是我們在幾乎所有生物生態系統中實際看到的。

你可以把頻率依賴選擇看作是聯盟政治的連續極限，對吧？如果有人要接管一切，你們就會聯合起來擊敗他。這就是它的連續極限。

人類價值觀的本質

顯然我們談到了浮游生物。浮游生物很好，但它們大概沒有價值觀。所以我們必須思考人類價值觀會是什麼樣子。

價值觀並非隨機產生

我的想法是，我們談論了很多關於人類價值觀的話題，而在 LessWrong 的圈子裡，我們認為人類價值觀實際上是某種任意的、難以言喻的東西——我們指定的一組位元（bits）。這些是從哪裡來的？我們並不是真的知道。老實說，我認為這種觀點不一定那麼好。

我認為人類價值觀有非常明顯且直接的來源。它們是透過某些特定機制演化而來的。這個機制基本上就是創造了世界上所有生命複雜性的馬爾薩斯競爭。人類，顯然與所有其他物種一樣，是從嚴酷的馬爾薩斯競爭中演化而來的。

如果馬爾薩斯競爭被認為足以演化出像我們這樣的生物，那麼這個模型在某些地方一定是錯的。同樣地，我們的價值觀和能力是強烈選擇的結果。

餘裕（Slack）的作用

在最初的部落格文章中，我們思考了很多關於「餘裕」的問題。文章說，如果你有餘裕，你就可以偏離最優解，做任何你想做的事。但在實踐中，我們看到的是，當餘裕發生時，它會產生這種「漂移」。這基本上是宇宙履行其自然熵增的本質，因為大多數遠離最優解的路徑都是糟糕的。如果我們隨機漂移，我們基本上往往會失去適應度，並產生非常奇怪的東西，那甚至不是我們所珍視的。

親社會價值觀源於競爭

當我們思考人類價值觀時，我們想到了很多親社會價值觀——我們如何相互合作、我們對彼此友善、我們不會立即試圖殺死對方。我們想到仁慈、愛，以及所有這些東西，對吧？

非常明顯地，這基本上是為了創造人類間的合作而設計和演化出來的。為什麼會發生這種情況？競爭自然會創造合作。合作是一種非常強大的競爭策略。如果你有一群人在互相爭鬥，然後一群人組成了一個團體，那麼相對於所有個體，這個團體就會變得極其強大。這是許多這些價值觀實際演化的根本機制。

背叛與合作

摩洛故事的另一部分與「背叛」有關。這個想法是，在強大的利潤選擇下，公司會產生外部性，它們不會給工人發工資，它們會污染一切，對吧？

顯然，背叛始終是一個問題。但對於任何要保持穩定的法人團體來說，它都需要演化出處理和懲罰背叛的機制。我們的許多價值觀實際上是關於我們如何阻止背叛發生的。同樣，這一切都是透過競爭選擇而來的。這都不是由餘裕引起的隨機漂移。這一切都是——如果你合作，那就是正和博弈，這會更好。所以你需要演化出維持合作的機制，而我們的許多價值觀就來自於這些機制。

人類價值觀有多「人類」？

我喜歡問的一個問題是：人們談論了很多關於將 AI 與人類價值觀對齊的問題，而且某種程度上假設人類價值觀對人類來說是特定的、獨特的、難以言喻的。但我的問題其實是——在實踐中，人類價值觀到底有多「人類」？這顯然與我們所認可的人類價值觀的「吸引盆地」（basin of attraction）有多寬廣密切相關。

普世驅動力

我會主張，許多哺乳動物和動物顯然擁有類似的...

— Lesswrong

其他收藏 · 0