普丁的連貫推斷意志(CEV)可能沒那麼糟

Lesswrong·

AI 生成摘要

我認為即使是爭議性領導人的價值觀,在經過連貫推斷意志過程後,可能仍會創造一個充滿繁榮與人性色彩的未來,這遠比空無一物的宇宙或非人類的AI價值觀要好得多。

(為 Inkhaven 快速撰寫,希望有朝一日有人能比我在此處更完善地論證這一點)

Kelsey Piper 在 Twitter 上表示

我:打妹妹是不對的。
5 歲小孩:那殺掉弗拉迪米爾·普丁(Vladimir Putin)是可以的嗎?
我:……是的,如果你處於某種與此相關的情況下,殺掉弗拉迪米爾·普丁是可以的。
5 歲小孩:好吧,我妹妹比弗拉迪米爾·普丁還壞。

現在,考慮到所有因素,我確實認為弗拉迪米爾·普丁可能是一個相當壞的人。我個人認同目前大國之間不暗殺外國領導人的均衡狀態,所以我並不確定 Kelsey 的 5 歲小孩殺掉普丁是否真的「可以」,但我非常同意他做過一些極其可怕的事,且可能缺乏良好道德指南針的重要面向。

但在關於人工智慧(AI)的討論中,我經常看到這種擔憂被延伸成一個更強而有力的陳述:「即使弗拉迪米爾·普丁擁有了世界上他想要的一切,且沒有維持對俄羅斯控制的壓力,並可以選擇讓自己變得更聰明、更明智,且可以學習他想知道的任何事實、獲得他感興趣的任何實驗結果,普丁仍然會對世界做出可怕的事情」(這個過程被稱為「連貫外推意志」,Coherent Extrapolated Volition,簡稱 CEV)。

我的猜測是,對於普丁在這種情況下依然墮落的信念,很大程度上是宣傳洗腦後的產物。雖然我認同「在專制國家最終獲得強大領導地位」與「邪惡」之間存在相關性,但選擇誰來領導俄羅斯的篩選機制,大部分必須聚焦於「能力」,而非各種與邪惡相關的特質。而且,人們太容易相信敵對國家的領導人是邪惡的,而自己的領導人是正義的。因此,從一開始我們就應該預料到,人們會強烈高估外國社會群體、機構或國家中權勢人物的邪惡程度。

但這在許多具體案例中仍留下了不容忽視的相關性,讓大眾擔心世界各地的權勢人物如果獲得授權,真的可能會搞砸未來。雖然我不認為我對所有擔憂都有完美的答案,但我認為我聽過的一些常見擔憂其實很站不住腳,可以在這篇文章中加以討論。

需要明確的是,我並非基於道德現實主義(moral realism)進行辯論。我不認為所有的心智在變得更聰明、更明智且基本需求得到滿足後,都會趨同。大多數動物和大多數 AI 系統若以此方式獲得授權,最終會走向價值景觀中截然不同的部分。

甚至人類在反思和改變自身時,也可能產生劇烈的分歧。

我反對的是這種主張:我們與邪惡聯繫在一起的特質(身為獨裁者、冷酷的執行長、騙子)會讓一個人在反思過程中變得如此糟糕,以至於他們的外推輸出會比外推一個非人類哺乳動物,或目前的 LLM(如 Claude 或 ChatGPT)得到的結果更差^([1])。

因此,我看到有人提出諸如「美國必須在對齊的中國 AI 出現之前建立 AI」之類的建議,寧願要美國領導的 AI,也不願放慢速度並冒著中國將系統對齊於習近平價值的風險。當然,我更希望 AI 對齊於我自己的價值觀,而且如何應對這種情況的博弈論確實很棘手,但我認為這場博弈最好由「某人」贏得,而不是「無人」贏得。


我對於何時一個人的道德外推會變好或變壞,並沒有一個有信心的模型。但我最好的猜測是,絕大多數人類(包括那些我們會稱之為壞人的人),都會利用這種力量創造一個充滿繁榮、充實生命的世界——以人類特有的方式感到快樂,講述像人類故事那樣有趣的故事。也許那些生命會是價值被外推者的副本,也許是他們的後代,也許是仍帶著人類火花的奇特新心智。

普丁也有朋友!習近平也是,歷史上幾乎所有其他的權勢人物也是,無論邪惡與否。他們的日子可能大多充滿了平凡的擔憂和平凡的偏好,這些都反映了身為人的樣貌。他們幾乎肯定有深愛並祝福的人,也擁有與大多數人類共有的美感。既然他們是愛國者,他們會希望看到自己的國家繁榮,並傳播其價值觀。


在我看來,最看似可信的重大擔憂是,這些人中的某些人會動用大量資源,永生永世地折磨他們敵人的某種理想化版本。

是的,那聽起來確實很糟。

但既然有整個宇宙(或其中任何可觀的部分)可以填滿美好,我不認為你會花太多精力在折磨敵人上。意義何在?如果你真的恨鮑伯(Bob),你可以把鮑伯留在舊地球上,永世折磨。如果你有成千上萬個敵人,你也可以對他們所有人這樣做。但創造數兆個鮑伯的副本來折磨,需要一種非常特殊的混合體:既對博弈論有錯誤理解,又對他人的價值觀持有某種古怪的開明視角。當你這樣做時,你真的在傷害鮑伯嗎?在一個其他人本可以繼承宇宙的世界裡,這算是健全的決策理論嗎?

我不認為怨恨會轉化為對傷害他人無止境的渴望。有些人可能會做一些非常糟糕的事,但這些事還不至於糟糕到能與「空虛宇宙的悲哀」相比擬。

我在這方面仍有一些擔憂,但我並不相信世界領導人中典型的邪惡行為,能作為其 CEV 會出錯的有力證據。

有些人的心智結構確實可能導致他們以這種方式摧毀未來——但我的猜測是,這需要對某種信仰體系或願景有狂熱的奉獻,而這種狂熱與「積極掌權」是不相容的。掌權者通常是腐敗的,但他們高度競爭的地位,無法容忍佔據該位置的心智有太多破損。那些心智必須在很大程度上保持完好才能勝任工作,這篩選掉了許多最壞的結果。


關於驅動人們模型的另一個假設是,人們認為邪惡大多是出於選擇。我認為這在極少數情況下是真的,但我最好的猜測是,世界上的邪惡大多是由《獨裁者手冊》中所概述的那種動態驅動的。

領導人身上許多看起來像「邪惡價值」的東西,實際上是一種選擇效應:一旦你處於小聯盟政權的頂端,維持權力就需要做特定的齷齪事。收買親信、剷除對手、鎮壓基層,無論你個人想要什麼。

「普丁可以做任何他真正想做的事,而無需維持權力」與「擁有更多權力的普丁」有著本質上的不同。我很確定普丁並非本質上熱愛威權體制。他可能並不喜歡那些裝腔作勢、謊言、必須處理試圖推翻他的將軍、需要偽造選舉,以及所有他為了維持權力可能需要做的可怕事情。

他可能確實喜歡他所要求的崇拜和尊重,但這些並不需要(且我的猜測是,甚至會因)崇拜者的痛苦而受到輕微損害。


另一個假設是,人們擔心如果你不小心,你的價值觀可能會意外地讓宇宙佈滿痛苦的子程序(subroutines)。在優化宇宙的副產品中,重現了相當於工廠化養殖的東西。

我認為這些人對價值的「高維度性」理解不足。就任何一套涉及為某種目的創建算法的價值觀而言,我的猜測是,那些算法將會是該目的的極端實例,以至於它們不會具備「自我意識」或「痛苦」等高階特質。

生產肉類的理想牛隻並非有知覺的,它是一堆自行生長的脂肪和肌肉細胞,或者更有可能是一個類似於製造工廠的工業過程。同樣地,用於任何目的的理想算法都不會感到痛苦。痛苦(可能)之所以存在,是因為它填補了進化的目的;為了不同目的從頭構建的心智不會繼承那套電路。

即使痛苦真的出現在某個目標的最優算法中,也只需要極其微小的「對痛苦的關懷」就能繞過它,而要在心智完好的人類身上完全找不到這種關懷,似乎不太可能。


需要明確的是,這並不意味著在 CEV 過程中獲得廣泛代表性不重要。普丁的價值觀被外推,對我來說不如我自己的價值觀被外推來得好。

而且可能更重要的是,為了避免不必要的軍備競賽,且不激勵人們在追求自身神格化的祭壇上威脅人類,我們不應該直接把未來交給跑得最快的人。也許一種博弈論上的承諾——寧可玉石俱焚也不願交給那些最嚴重犧牲公共利益的人——是正確的選擇,但這僅適用於那些在奪取未來時,確實讓毀滅變得更有可能的人。

因此,如果你正看著一個未來,在沒有人特別犯錯的情況下,一些你認為相當壞的人最終可能會掌管它,那麼對此的擔憂應該遠少於對「未來毫無價值」的擔憂。弗拉迪米爾·普丁的 CEV 可能相當不錯,特別是與虛無或非人價值相比。如果另一種選擇是讓光錐(light cone)面臨基本空虛的巨大風險,那麼阻止他塑造光錐將是一個極其愚蠢的選擇。

  • ^(^)我指的是如果讓 Claude 或 ChatGPT 自行其是,在沒有人類監督或可請示對象的情況下會發生的那種外推。目前兩者都具有可修正性(corrigibility),很有可能將未來交還給某些人類(希望我們能保持這種狀態),但那並不是我所指的那種對齊的 CEV。

參與討論

Lesswrong

相關文章

其他收藏 · 0

收藏夾