許多個人的連貫推斷意志（CEV）可能相當糟糕

Lesswrong·2 天前

我認為個人的連貫推斷意志（CEV）對於獲取知識與進行自我修正的先後順序極為敏感，這可能導致產生「CEV 怪物」或「CEV 瘋子」的結果，而非最終走向仁慈。

我一直在思考 Habryka 關於普丁 CEV 的文章，但我選擇在這裡發布我的回應，因為原文已經是三週前的了。

我不確定一個人的 CEV（連貫外推意志）究竟是如何定義的。「如果我們知道一切並且可以自我修正」這點，似乎對於「意識到真相」與「自我修正」兩者精確的時間順序非常敏感。

例如，想像希特勒獲得了神一般的知識與自我控制能力。如果他先獲得了關於經濟、社會學和心理學的完美知識，他可能會說：「喔，現在我意識到我歸咎於猶太人的那些事情實際上是由其他原因造成的。真尷尬。不再搞反猶主義了，但我最好先抹除所有人的記憶。」

但也有一種可能，是他先獲得了自我控制能力，並且意識到存在著價值漂移（value drift）這種事，於是心想：「天哪，這可能會意外地讓我變得更像猶太人。我最好立即將納粹理想硬編碼（hardcode）到自己體內，並給自己金髮碧眼。」接著利用卓越的知識，他將納粹價值觀硬編碼在自己身上，使其具有反射穩定性（reflectively stable），並能在所有更新中存活下來。

因此，希特勒的 CEV 似乎取決於技術細節，即他獲得新知識與新技能的順序。他最終可能變成「CEV 友善」或「CEV 怪物」。

「知識優先，自我修正隨後」似乎是較理想的順序，但這在某種程度上假設了初始狀態具備完美的理性。我的意思是，沒有完美理性的完美知識，可能仍會傾向於確認偏誤（confirmation bias）和其他偏見。所以我們可能希望先獲得完美理性（或僅僅是提升理性），但提升自己的理性本身就已經屬於自我修正的範疇了。

其次，在我看來，Habryka 在文章中是在兩種模型之間做選擇：要麼每個人都是 CEV 友善的，要麼幾乎每個人都是 CEV 友善的，只有少數像普丁這樣的人是罕見的 CEV 怪物。接著他得出結論（我認為基於其前提，這個結論是正確的），即普丁看起來並沒有那麼特殊。因此，他可能是 CEV 友善的。

（我所說的「CEV 友善」是指：在賦予神一般的知識與自我修正能力後，他最終會成為一位仁慈的神。過程中可能會有一些暴行，但在某個時刻他會意識到威脅已不復存在，因此沒有戰略理由去惡待他人。而且，在排除了戰略理由後，基本上就沒有其他理由去傷害人了。而我所說的「CEV 怪物」是指那些即使在對自己的神力感到完全安全後，仍會出於非戰略原因而最終傷害他人的人。）

如果這是正確的，那麼我乾脆拒絕這個前提。我認為雖然大多數人可能是「CEV 好人」，但也存在相當多「CEV 怪物」，即那些以（他人的）痛苦為樂的人。我不知道具體有多少，但作為一個非常粗略的估計，假設在 5% 到 50% 之間？在這種前提下，普丁恰好是其中之一似乎就沒那麼不可能了。（或者是川普等等。）我會假設怪物在權力職位中的比例過高，單純是因為在通往頂峰的路上，有許多情況人們必須在傷害他人與失去獲得更多權力的機會之間做出選擇，因此本質上友善的人處於劣勢。

我還想增加第三個類別，我稱之為「CEV 瘋狂」，這種人在獲得神力後會摧毀我們所珍視的一切，甚至包括對他們自己有價值的東西。例如，有人相信死亡賦予生命意義，而智慧是痛苦的根源，於是利用魔力建立一條法則，規定每個人都必須是凡人且智力平庸。或者是一個相信生命即苦、且根本不存在「自我」的佛教徒，決定「全體滅絕」（omnicide）才是正確的道路，從此不再有「苦」（dukkha）。或者是某些生態狂熱分子，決定智人或智慧本身就是個問題，必須被剷除。或者僅僅是一個自我修正出錯的人，摧毀了自己某些本質的人性特質，卻保留了決定宇宙命運的能力。我認為這樣的人也足夠多。

我承認這些是非常陰暗的想法，但環顧四周，我們生活的世界似乎確實相當陰暗。這並不是說人天生就是好或壞（儘管據我所知，例如精神病態在某種程度上是遺傳的），而更像是我們朝向某些「吸引子」（attractors）移動，這些吸引子具有足夠的自我強化能力，即使原始力量消失後也能將我們留在那裡。好人會一直希望自己保持善良，甚至在擁有工具的情況下朝著更善良的方向自我修正。但那些根本不在乎的混蛋，會發現沒有理由將自己修正成在乎的人。（這就是為什麼「群體 CEV」似乎是更安全的選擇，如果群體中有一些好人的話，因為好人可能會為其他人選擇善良，而混蛋可能會決定只要自己不被打擾，他們怎麼選都無所謂。）

參與討論

— Lesswrong

其他收藏 · 0