競爭何時會產生可識別的價值觀?

競爭何時會產生可識別的價值觀?

Lesswrong·

我正在探討一個充滿激烈競爭的「AI 多神論」未來是否必然會摧毀所有人類價值,或者演化動力學中的棲位建構與頻率依賴選擇,實際上可能保留多樣性與複雜性。

Beren Millidge 在 2025 年 12 月聖地牙哥「後 AGI 研討會」(The Post-AGI Workshop)的主題演講逐字稿

你們知道在一個充滿競爭、極其多樣化的 AI 世界中,人類價值觀該如何存活嗎?這就是 Scott Alexander 所描述的那種「摩洛」(MOLOCH)世界。後來我意識到,要討論這個問題,我必須同時探討許多其他相關的事物——這也是為什麼這裡會有這麼多雜感的原因。所以,這場演講可能會進行得很快且內容相當密集。讓我們開始吧,這應該會很有趣。

兩種 AI 未來的願景

我對 AI 未來的思考大致可以分為兩類。我稱之為「AI 一神論」(AI monotheism)與「AI 多神論」(AI polytheism)。

AI 一神論

標準的 LessWrong/Yudkowsky 式故事是:我們開發了一個 AI,它進行遞迴式自我改進,變得比所有其他 AI 都聰明得多,然後它獲得了宇宙中所有的權力。它吞噬了光錐,接著我們如何對其進行「對齊」(alignment)就變得至關重要。

如果我們成功對齊,我們基本上創造了上帝。上帝已經與人類對齊,每個人都過著美好的生活,直到永遠。另一方面,如果我們對齊失敗,我們就創造了一個價值觀與我們所關心的事物完全不同的 AI——也就是「迴紋針」。我們基本上創造了 Clippy(小幫手)。Clippy 殺死了所有人,把每個人都變成迴紋針,因為你的原子作為迴紋針比作為你更有價值。這顯然很糟糕,對吧?

在這個世界裡,對齊變得異常重要。它幾乎是唯一重要的事情。

AI 多神論

那麼問題來了:還有其他的場景嗎?另一種我認為確實存在的是我所謂的「AI 多神論」——如果我們沒有得到遞迴式自我改進,而是最終讓許多 AI 系統在某種平衡中競爭(可能是經濟上的,也可能是軍事上的),會發生什麼事?如果我們擁有,比方說,數兆個 AI,這個世界會是什麼樣子?

有些人已經寫過相關內容——Robin Hanson 寫過《仿生人時代》(Age of Em),Scott 也寫過各種關於這方面的文章——但我認為這仍然處於相對缺乏探索的階段。對於一神論,我們大概知道是怎麼回事:我們需要解決對齊問題,我們得到單一主體(singleton),我們大概知道發生了什麼。而對於多個 AI 的場景,我們基本上毫無頭緒。所以我真的很想探索這在實踐中會是什麼樣子。

關於摩洛的冥想(Meditations on Moloch)

我非常喜歡的一些早期作品是 Scott Alexander 的文章〈關於摩洛的冥想〉。這真的是基礎性作品之一,至少對我來說,在思考多代理人系統(multi-agent systems)是什麼樣子、其動態和長期平衡是什麼樣子時是如此。

Scott 非常擔心多個代理人之間的競爭。你們今天早些時候聽過關於 AI 經濟體是什麼樣子的演講——也許它們根本不在乎人類。Scott 的觀點基本上是,我們擁有 AI,這些 AI 可以極其快速地複製,AI 非常擅長傳播和擴張資源。因此,我們最終可能會陷入極其強烈的 AI 馬爾薩斯競爭(Malthusian competition)。

這裡的擔憂是,在馬爾薩斯主義的條件下,我們基本上會失去所有的價值觀。我們的價值觀被假定在某種意義上不具備迷因適應性(memetically fit),因此它們在競爭中被淘汰。它們不是適應度最大化的,所以所有的 AI 基本上都會忽略我們最初給予它們的任何對齊。那會被競爭掉,它們只會變成相同的適應度/權力/資源/繁殖最大化者。我們假設這個世界不再留存任何價值。這絕對是 AI 多神論的壞結局。

馬爾薩斯主義真的會摧毀所有價值觀嗎?

我立刻想到的一個問題是:事實真的是這樣嗎?我們在現實世界的馬爾薩斯主義中真的看到了這種情況嗎?

以自然界作為證據

讓我思考一下在哪裡可以找到現實世界的馬爾薩斯主義。一個例子是在極小規模的層面——細菌和浮游生物。這兩者都已經生活在極其嚴酷的馬爾薩斯世界中。

想想浮游生物。它們生活在海洋中,吸收陽光,進行光合作用。那裡真的沒有什麼生態位(niches)——海洋大部分地方都是一樣的。在「摩洛」的觀點下,顯然所有的價值觀都會被競爭掉,一切都會變成適應度最大化者。事實也確實如此——我的意思是,我們不能真的指望浮游生物有價值觀——但人們真正擔心的是缺乏複雜性。我們是否會陷入一個所有東西都一模一樣的世界,最終出現一種殺死所有其他浮游生物的「超級浮游生物」,且所有浮游生物都變得完全相同?

答案顯然是否定的。我們在馬爾薩斯條件下的自然界中看到的是,透過選擇建立起了巨大的多樣性和複雜性。

為什麼沒有「超級生物」?

這有很多原因。為什麼我們沒有得到一種殺死所有其他動物並擴散到各處的「超級動物」?

  1. 邊際收益遞減:這是宇宙的一個非常經典的特徵。這也是我們最初可能得到 AI 多神論的原因之一——遞迴式自我改進(RSI)需要對智能的線性或超線性回報。現實世界中的大多數回報似乎都是遞減的,因此那種情況看起來不太可能。
  2. 有限的能量預算:特定生物通常有有限的能量預算。如果你把能量給了某樣東西,你就必須從另一個地方拿走它。這自然而然地鼓勵了專業化。我們無法同時把所有屬性都點滿。
  3. 生態位建構:如果我們有某個物種,該物種的存在本身就會為其他物種的進入創造生態位。這會自動產生某種多樣性的平衡。

頻率依賴選擇(Frequency-Dependent Selection)

這方面的專業術語其實是「頻率依賴選擇」。這在演化論中的意思是:如果我們有某個物種表現得非常好,其數量擴張,那麼基本上所有其他物種都會被激勵去演化出對抗該物種的能力。它們專門負責對抗該物種,這削弱了該物種相對於其他物種的優勢,使其處境變差。然後,其他具有隨機、不相關策略的物種會表現得更好,這基本上會推向一個平衡狀態,其中有許多不同的物種相互作用,各具優缺點。這就是我們在幾乎所有生物生態系統中實際看到的。

你可以把頻率依賴選擇看作是聯盟政治的連續極限,對吧?如果有人要接管一切,你們就會聯合起來擊敗他。這就是它的連續極限。

人類價值觀的本質

顯然我們談到了浮游生物。浮游生物很好,但它們大概沒有價值觀。所以我們必須思考人類價值觀會是什麼樣子。

價值觀並非隨機產生

我的想法是,我們談論了很多關於人類價值觀的話題,而在 LessWrong 的圈子裡,我們認為人類價值觀實際上是某種任意的、難以言喻的東西——我們指定的一組位元(bits)。這些是從哪裡來的?我們並不是真的知道。老實說,我認為這種觀點不一定那麼好。

我認為人類價值觀有非常明顯且直接的來源。它們是透過某些特定機制演化而來的。這個機制基本上就是創造了世界上所有生命複雜性的馬爾薩斯競爭。人類,顯然與所有其他物種一樣,是從嚴酷的馬爾薩斯競爭中演化而來的。

如果馬爾薩斯競爭被認為足以演化出像我們這樣的生物,那麼這個模型在某些地方一定是錯的。同樣地,我們的價值觀和能力是強烈選擇的結果。

餘裕(Slack)的作用

在最初的部落格文章中,我們思考了很多關於「餘裕」的問題。文章說,如果你有餘裕,你就可以偏離最優解,做任何你想做的事。但在實踐中,我們看到的是,當餘裕發生時,它會產生這種「漂移」。這基本上是宇宙履行其自然熵增的本質,因為大多數遠離最優解的路徑都是糟糕的。如果我們隨機漂移,我們基本上往往會失去適應度,並產生非常奇怪的東西,那甚至不是我們所珍視的。

親社會價值觀源於競爭

當我們思考人類價值觀時,我們想到了很多親社會價值觀——我們如何相互合作、我們對彼此友善、我們不會立即試圖殺死對方。我們想到仁慈、愛,以及所有這些東西,對吧?

非常明顯地,這基本上是為了創造人類間的合作而設計和演化出來的。為什麼會發生這種情況?競爭自然會創造合作。合作是一種非常強大的競爭策略。如果你有一群人在互相爭鬥,然後一群人組成了一個團體,那麼相對於所有個體,這個團體就會變得極其強大。這是許多這些價值觀實際演化的根本機制。

背叛與合作

摩洛故事的另一部分與「背叛」有關。這個想法是,在強大的利潤選擇下,公司會產生外部性,它們不會給工人發工資,它們會污染一切,對吧?

顯然,背叛始終是一個問題。但對於任何要保持穩定的法人團體來說,它都需要演化出處理和懲罰背叛的機制。我們的許多價值觀實際上是關於我們如何阻止背叛發生的。同樣,這一切都是透過競爭選擇而來的。這都不是由餘裕引起的隨機漂移。這一切都是——如果你合作,那就是正和博弈,這會更好。所以你需要演化出維持合作的機制,而我們的許多價值觀就來自於這些機制。

人類價值觀有多「人類」?

我喜歡問的一個問題是:人們談論了很多關於將 AI 與人類價值觀對齊的問題,而且某種程度上假設人類價值觀對人類來說是特定的、獨特的、難以言喻的。但我的問題其實是——在實踐中,人類價值觀到底有多「人類」?這顯然與我們所認可的人類價值觀的「吸引盆地」(basin of attraction)有多寬廣密切相關。

普世驅動力

我會主張,許多哺乳動物和動物顯然擁有類似的...

Lesswrong

相關文章

  1. AI對齊與哲學能力之間的衝突

    4 個月前

  2. 智能已成商品,上下文才是真正的 AI 護城河

    Hacker News · 大約 2 個月前

  3. 提醒:道德問題仍未解決

    6 個月前

  4. 人工智慧與即將到來的認知生態崩潰:回應 David Krakauer

    Hacker News · 3 個月前

  5. 未來人工智慧的聖潔價值觀

    大約 2 個月前

其他收藏 · 0