普丁的連貫推斷意志（CEV）可能沒那麼糟

Lesswrong·大約 5 小時前

AI 生成摘要

我認為即使是爭議性領導人的價值觀，在經過連貫推斷意志過程後，可能仍會創造一個充滿繁榮與人性色彩的未來，這遠比空無一物的宇宙或非人類的AI價值觀要好得多。

(為 Inkhaven 快速撰寫，希望有朝一日有人能比我在此處更完善地論證這一點)

我：打妹妹是不對的。
5 歲小孩：那殺掉弗拉迪米爾·普丁（Vladimir Putin）是可以的嗎？
我：……是的，如果你處於某種與此相關的情況下，殺掉弗拉迪米爾·普丁是可以的。
5 歲小孩：好吧，我妹妹比弗拉迪米爾·普丁還壞。

現在，考慮到所有因素，我確實認為弗拉迪米爾·普丁可能是一個相當壞的人。我個人認同目前大國之間不暗殺外國領導人的均衡狀態，所以我並不確定 Kelsey 的 5 歲小孩殺掉普丁是否真的「可以」，但我非常同意他做過一些極其可怕的事，且可能缺乏良好道德指南針的重要面向。

但在關於人工智慧（AI）的討論中，我經常看到這種擔憂被延伸成一個更強而有力的陳述：「即使弗拉迪米爾·普丁擁有了世界上他想要的一切，且沒有維持對俄羅斯控制的壓力，並可以選擇讓自己變得更聰明、更明智，且可以學習他想知道的任何事實、獲得他感興趣的任何實驗結果，普丁仍然會對世界做出可怕的事情」（這個過程被稱為「連貫外推意志」，Coherent Extrapolated Volition，簡稱 CEV）。

我的猜測是，對於普丁在這種情況下依然墮落的信念，很大程度上是宣傳洗腦後的產物。雖然我認同「在專制國家最終獲得強大領導地位」與「邪惡」之間存在相關性，但選擇誰來領導俄羅斯的篩選機制，大部分必須聚焦於「能力」，而非各種與邪惡相關的特質。而且，人們太容易相信敵對國家的領導人是邪惡的，而自己的領導人是正義的。因此，從一開始我們就應該預料到，人們會強烈高估外國社會群體、機構或國家中權勢人物的邪惡程度。

但這在許多具體案例中仍留下了不容忽視的相關性，讓大眾擔心世界各地的權勢人物如果獲得授權，真的可能會搞砸未來。雖然我不認為我對所有擔憂都有完美的答案，但我認為我聽過的一些常見擔憂其實很站不住腳，可以在這篇文章中加以討論。

需要明確的是，我並非基於道德現實主義（moral realism）進行辯論。我不認為所有的心智在變得更聰明、更明智且基本需求得到滿足後，都會趨同。大多數動物和大多數 AI 系統若以此方式獲得授權，最終會走向價值景觀中截然不同的部分。

甚至人類在反思和改變自身時，也可能產生劇烈的分歧。

我反對的是這種主張：我們與邪惡聯繫在一起的特質（身為獨裁者、冷酷的執行長、騙子）會讓一個人在反思過程中變得如此糟糕，以至於他們的外推輸出會比外推一個非人類哺乳動物，或目前的 LLM（如 Claude 或 ChatGPT）得到的結果更差^([1])。

因此，我看到有人提出諸如「美國必須在對齊的中國 AI 出現之前建立 AI」之類的建議，寧願要美國領導的 AI，也不願放慢速度並冒著中國將系統對齊於習近平價值的風險。當然，我更希望 AI 對齊於我自己的價值觀，而且如何應對這種情況的博弈論確實很棘手，但我認為這場博弈最好由「某人」贏得，而不是「無人」贏得。

我對於何時一個人的道德外推會變好或變壞，並沒有一個有信心的模型。但我最好的猜測是，絕大多數人類（包括那些我們會稱之為壞人的人），都會利用這種力量創造一個充滿繁榮、充實生命的世界——以人類特有的方式感到快樂，講述像人類故事那樣有趣的故事。也許那些生命會是價值被外推者的副本，也許是他們的後代，也許是仍帶著人類火花的奇特新心智。

普丁也有朋友！習近平也是，歷史上幾乎所有其他的權勢人物也是，無論邪惡與否。他們的日子可能大多充滿了平凡的擔憂和平凡的偏好，這些都反映了身為人的樣貌。他們幾乎肯定有深愛並祝福的人，也擁有與大多數人類共有的美感。既然他們是愛國者，他們會希望看到自己的國家繁榮，並傳播其價值觀。

在我看來，最看似可信的重大擔憂是，這些人中的某些人會動用大量資源，永生永世地折磨他們敵人的某種理想化版本。

是的，那聽起來確實很糟。

但既然有整個宇宙（或其中任何可觀的部分）可以填滿美好，我不認為你會花太多精力在折磨敵人上。意義何在？如果你真的恨鮑伯（Bob），你可以把鮑伯留在舊地球上，永世折磨。如果你有成千上萬個敵人，你也可以對他們所有人這樣做。但創造數兆個鮑伯的副本來折磨，需要一種非常特殊的混合體：既對博弈論有錯誤理解，又對他人的價值觀持有某種古怪的開明視角。當你這樣做時，你真的在傷害鮑伯嗎？在一個其他人本可以繼承宇宙的世界裡，這算是健全的決策理論嗎？

我不認為怨恨會轉化為對傷害他人無止境的渴望。有些人可能會做一些非常糟糕的事，但這些事還不至於糟糕到能與「空虛宇宙的悲哀」相比擬。

我在這方面仍有一些擔憂，但我並不相信世界領導人中典型的邪惡行為，能作為其 CEV 會出錯的有力證據。

有些人的心智結構確實可能導致他們以這種方式摧毀未來——但我的猜測是，這需要對某種信仰體系或願景有狂熱的奉獻，而這種狂熱與「積極掌權」是不相容的。掌權者通常是腐敗的，但他們高度競爭的地位，無法容忍佔據該位置的心智有太多破損。那些心智必須在很大程度上保持完好才能勝任工作，這篩選掉了許多最壞的結果。

關於驅動人們模型的另一個假設是，人們認為邪惡大多是出於選擇。我認為這在極少數情況下是真的，但我最好的猜測是，世界上的邪惡大多是由《獨裁者手冊》中所概述的那種動態驅動的。

領導人身上許多看起來像「邪惡價值」的東西，實際上是一種選擇效應：一旦你處於小聯盟政權的頂端，維持權力就需要做特定的齷齪事。收買親信、剷除對手、鎮壓基層，無論你個人想要什麼。

「普丁可以做任何他真正想做的事，而無需維持權力」與「擁有更多權力的普丁」有著本質上的不同。我很確定普丁並非本質上熱愛威權體制。他可能並不喜歡那些裝腔作勢、謊言、必須處理試圖推翻他的將軍、需要偽造選舉，以及所有他為了維持權力可能需要做的可怕事情。

他可能確實喜歡他所要求的崇拜和尊重，但這些並不需要（且我的猜測是，甚至會因）崇拜者的痛苦而受到輕微損害。

另一個假設是，人們擔心如果你不小心，你的價值觀可能會意外地讓宇宙佈滿痛苦的子程序（subroutines）。在優化宇宙的副產品中，重現了相當於工廠化養殖的東西。

我認為這些人對價值的「高維度性」理解不足。就任何一套涉及為某種目的創建算法的價值觀而言，我的猜測是，那些算法將會是該目的的極端實例，以至於它們不會具備「自我意識」或「痛苦」等高階特質。

生產肉類的理想牛隻並非有知覺的，它是一堆自行生長的脂肪和肌肉細胞，或者更有可能是一個類似於製造工廠的工業過程。同樣地，用於任何目的的理想算法都不會感到痛苦。痛苦（可能）之所以存在，是因為它填補了進化的目的；為了不同目的從頭構建的心智不會繼承那套電路。

即使痛苦真的出現在某個目標的最優算法中，也只需要極其微小的「對痛苦的關懷」就能繞過它，而要在心智完好的人類身上完全找不到這種關懷，似乎不太可能。

需要明確的是，這並不意味著在 CEV 過程中獲得廣泛代表性不重要。普丁的價值觀被外推，對我來說不如我自己的價值觀被外推來得好。

而且可能更重要的是，為了避免不必要的軍備競賽，且不激勵人們在追求自身神格化的祭壇上威脅人類，我們不應該直接把未來交給跑得最快的人。也許一種博弈論上的承諾——寧可玉石俱焚也不願交給那些最嚴重犧牲公共利益的人——是正確的選擇，但這僅適用於那些在奪取未來時，確實讓毀滅變得更有可能的人。

因此，如果你正看著一個未來，在沒有人特別犯錯的情況下，一些你認為相當壞的人最終可能會掌管它，那麼對此的擔憂應該遠少於對「未來毫無價值」的擔憂。弗拉迪米爾·普丁的 CEV 可能相當不錯，特別是與虛無或非人價值相比。如果另一種選擇是讓光錐（light cone）面臨基本空虛的巨大風險，那麼阻止他塑造光錐將是一個極其愚蠢的選擇。

^(^)我指的是如果讓 Claude 或 ChatGPT 自行其是，在沒有人類監督或可請示對象的情況下會發生的那種外推。目前兩者都具有可修正性（corrigibility），很有可能將未來交還給某些人類（希望我們能保持這種狀態），但那並不是我所指的那種對齊的 CEV。

參與討論

— Lesswrong

其他收藏 · 0

收藏夾

你的個人知識庫

普丁的連貫推斷意志（CEV）可能沒那麼糟