「對齊很難」的論述為何看似與人類直覺格格不入，反之亦然的六個原因

Lesswrong·5 個月前

這篇文章探討了 AI 對齊悲觀論者與人類直覺之間的脫節，並主張人類的道德與社交性是由一種特定的「認可獎勵」機制所驅動，而未來的 AI 可能缺乏這種機制。我試圖解釋為什麼人類不會像冷酷的效用極大化者那樣行動，以及這種差異如何形塑我們對 AI 安全截然不同的預測。

AI 對齊領域存在著文化衝突。一方面，「技術對齊很難」/「理性代理人」學派認為，我們應該預期未來的強大 AI 會是追求權力的冷酷後果論者。另一方面，人們觀察到人類和大型語言模型（LLM）顯然都有能力表現得——嗯，不像那樣。後者指責前者是脫離現實的空中樓閣式抽象理論，而前者則指責後者盲目地假設未來永遠會和現在一樣，而不是試圖理解事物的本質。「唉，追求權力的冷酷後果論 AI 終究會到來，」前者嘆息道，「走著瞧吧。」

事實上，我基本上屬於那個「唉，走著瞧吧」的陣營，預期未來會出現冷酷的 AI。但我的陣營面臨一個真實的問題：人類大腦^([1]) 究竟有什麼特性，能讓他們不總是表現得像追求權力的冷酷後果論者？我發現目前論述中的解釋——例如「啊，但人類只是不夠聰明和自省」、或演化模組化、或碎片理論（Shard Theory）等——都是錯誤的、含糊其辭的，或在其他方面令人不滿。

因此，在這篇文章中，我提出了自己對於為何「代理人基礎（Agent Foundations）」玩具模型無法描述人類的解釋，核心圍繞著人類大腦中一個特定的非「行為主義」部分的強化學習（RL）獎勵函數，我稱之為認可獎勵（Approval Reward），它在人類的社會性、道德感和自我形象中扮演了極其重要的角色。而上述的 AI 對齊文化衝突，本質上就是兩個陣營對於未來強大的 AI 是否會擁有類似「認可獎勵」的東西（像人類和今天的 LLM 一樣），還是沒有（像效用最大化者一樣），有著截然相反的預測。

（你可以將這篇文章看作是對悲觀主義者的反擊，透過探索一條繞過技術對齊障礙的可能未來路徑來提供希望。或者你也可以將其看作是對樂觀主義者的反擊，透過「解釋掉」那些原本令人安心的觀察——即人類和 LLM 並非 100% 的時間都像瘋子一樣行動。）

最後，在這樣的背景下，我將探討六個更具體的領域。在這些領域中，「對齊很難」的研究者（如我）對未來 AI 的「自然」表現所做的主張，從人類直覺的角度來看顯得相當怪異；反之，人類的直覺從代理人基礎玩具模型的角度來看也相當怪異。我認為，所有這些例子都圍繞著「認可獎勵」。它們是：

1. 人類直覺認為，一個人的目標和價值觀隨著歲月改變是正常且好事
1. 人類直覺認為，自我協調（Ego-syntonic）的「欲望」與「衝動」來自根本不同的地方
1. 人類直覺認為，善良、順從和可修正性（Corrigibility）是自然的
1. 人類直覺認為，非正統的後果論規劃是罕見且可疑的
1. 人類直覺認為，社會規範和制度大多是穩定自我執行的
1. 人類直覺認為，將其他人類視為可以冷酷操縱和剝削的資源（就像汽車引擎或環境中任何其他複雜機制一樣），是一種奇怪的異常，而非理所當然的預設

0. 背景

0.1 人類社會本能與「認可獎勵」

正如我在《人類社會本能的神經科學：草案 (2024)》中討論的，我們應該將大腦視為擁有一個強化學習（RL）獎勵函數，它規定了痛苦是壞的、飢餓時進食是好的，以及其他數十種事物（有時被稱為「先天驅力」或「初級獎勵」）。我認為獎勵函數的一部分是我稱之為「同情/惡意迴路」的東西，其核心是下視丘中少數（假設的）細胞群，並勾勒了它的一些影響。

接著在上個月的《社會驅力 1：「同情獎勵」，從慈悲到去人性化》和《社會驅力 2：「認可獎勵」，從規範執行到地位追求》中，我更系統地深入探討了這個「同情/惡意迴路」的影響。

而現在這篇文章中，我將闡述「認可獎勵」與 AI 技術對齊之間的聯繫。

「認可獎勵」在以下情況觸發最為強烈：當我正與另一個人（稱她為佐伊）互動，我正關注佐伊，而佐伊也正關注我。如果佐伊看起來感覺很好，那會讓我感覺很好；如果佐伊感覺很糟，那會讓我感覺很糟。由於這些大腦獎勵信號，我希望佐伊喜歡我，並喜歡我正在做的事。接著，「認可獎勵」會從這些情境泛化到其他類似情境，包括佐伊不在現場，但我想像她會如何看待我的情況。在這些情況下，它同樣會發送正向或負向的獎勵信號。

正如我在《社會驅力 2》中論證的，這種「認可獎勵」會導致廣泛的影響，包括追求功勞、規避指責和追求地位。它不僅讓人習得並遵守社會規範，還讓人對遵守這些規範 感到自豪（即使沒人在看），並排斥和懲罰違反規範的人。

這不是強化學習獎勵函數通常會發生的情況！例如，你可能會好奇：「假設當我注意到我的機器人遵守規則時，我偷偷地^([2]) 按下獎勵按鈕。這難道不會同樣導致我的機器人產生一種自豪的、自我反思的、自我協調的『遵守規則是好事』的感覺嗎？」我的主張是：不會，這會導致更像是對象層級的 「渴望被注意到在遵守規則」，並帶有一種反社會、欺騙性、冷酷的底色。^([3])

我在《社會驅力 2》中論證，認可獎勵對大多數人的生活和心理極其重要，每天可能觸發數千次獎勵信號，包括當周遭無人時，你仍在思考和採取那些你的朋友和偶像會認可的想法與行動。

認可獎勵在（幾乎）每個人的世界中都是如此核心且無處不在，以至於想像它不存在是困難且反直覺的——我們就像那條寓言中的魚，疑惑著所謂的「水」究竟是什麼。

……與此同時，AI 對齊領域的一個主要學派隱含地假設，未來強大的 AGI / ASI 幾乎肯定會完全缺乏認可獎勵，因此 AGI / ASI 的行為方式在（普通人）看來會顯得相當怪異、反直覺且具有反社會人格。

關於 AGI / ASI 是否會存在認可獎勵的不同隱含假設，（我認為）是許多核心的樂觀-悲觀爭論（關於技術 AGI 對齊有多難）的上游原因。我這篇文章的目標是透過六個在人類看來很自然、但被「對齊很難」的研究者拒絕的直覺例子，來釐清這種分歧的本質。所有這些例子都核心涉及認可獎勵。

0.2 等等，未來強大的 AGI / ASI 「預設」會完全缺乏認可獎勵嗎？

這篇文章主要是在說明一個狹義的觀點：「對齊很難」這個命題與「AGI 將缺乏認可獎勵」這個命題密切相關。但一個顯而易見的後續問題是：這兩個命題都是真的嗎？還是都是假的？

以下是我簡要的看法，分為三種情況：

如果 AGI / ASI 將基於 LLM： 人類擁有認可獎勵（除了某些反社會人格者等）。而 LLM 在很大程度上是由模仿人類所塑造的（見我的文章《Foom & Doom》第 2.3 節）。因此，不意外地，LLM 也表現出認可獎勵的典型行為，至少在某種程度上是如此。許多人認為這是技術對齊可能被解決的希望所在。但隨後「對齊很難」的人會提出各種反駁，大意是這些具備認可獎勵特徵的 LLM 行為是虛假的、脆弱的且/或不穩定的，隨著 LLM 變得更強大，它們肯定會崩潰。謹慎的樂觀主義者通常覺得這些悲觀論點令人困惑（例子）。

誰是對的？我也不知道。這超出了本文的討論範圍，而且我個人覺得無法參與那場辯論，因為我根本不預期 LLM 能擴展到 AGI。^([4])

如果 AGI / ASI 將基於強化學習代理人（或類似機制），正如 David Silver & Rich Sutton、Yann LeCun 以及我自己（「類腦 AGI」）等人所預期的，那麼答案很明確：除非程式設計師明確地將其放入獎勵函數的原始碼中，否則根本不會有認可獎勵。他們會這麼做嗎？我們可能（或可能不）希望他們這樣做，但從現狀來看，這絕對不應該是我們的「預設」預期。例如，我們甚至不知道該如何實現它，而且它與文獻中的任何內容都大不相同。（文獻中的強化學習代理人幾乎普遍擁有「行為主義」獎勵函數。）我們甚至還沒搞清楚人類認可獎勵運作的所有細節。即使搞清楚了，要讓它在 AI 中以類似方式運作也會面臨技術挑戰——例如，AI 並非以人類的速度在人類社會中伴隨人類身體成長。即使在技術上可行且是個好主意，也存在競爭力問題和其他阻礙其實際發生的障礙。更多關於這方面的內容將在未來的文章中討論。

如果 AGI / ASI 最終變得像「理性代理人」、「效用最大化者」或相關形式： 這裡的情況似乎更加清晰：據我所知，在常見的假設下，甚至不可能 將認可獎勵納入這類框架中，使其產生我們從人類經驗中所預期的效果。難怪人類直覺與「代理人基礎」研究者往往雞同鴨講！

0.3 自我反思（元）偏好從何而來？

這個想法在後文中會反覆出現，所以我先在這裡說明：

當我們比較「普通」動機 (a) 與認可獎勵 (b) 時，對象層級欲望與自我反思元層級欲望（紅色箭頭）的主要關係是反轉的。在 (a) 側，我們預期諸如反思一致性和目標穩定化（參見工具性趨同）。在 (b) 側，我們不（一定）如此預期；相反，我們可能會在反思和自我修正時遇到激進的目標改變，以及更廣泛的目標改變意願。

在效用最大化者等語境下，出發點通常是欲望與對象層級的事物相關聯（無論是由於獎勵信號還是效用函數）。從那裡開始，元偏好會自然地與對象層級偏好對齊。

畢竟，考慮一下：『我想要 X』的主要效果是什麼？就是『我得到 X』。所以如果得到 X 是好的，那麼『我想要 X』也是好的。因此，手段-目的推理（或任何功能上等效的機制，例如 RL 反向鏈接）會將對象層級的欲望回響到相應的自我反思元層級欲望中。而這也是那些元層級欲望唯一的來源。

相比之下，在人類身上，自我反思（元）偏好大多（雖然不完全是）來自認可獎勵。總體而言，我們「真實的」、認可的、自我協調的欲望，大約就是那些能讓我們的朋友和偶像留下深刻印象的欲望（見前文第 3.1 節）。

方框：關於自我反思偏好來源的更詳細論證

「我想要 X」的實際效果包括：

(1) 我可能會根據該欲望行動，從而獲得 X（以及與 X 相關的事物）。

(2) 也許存在一個側向通道*，透過它「我想要 X」可以產生影響：

(2A) 也許環境中存在（有效的）讀心者。

(2B) 也許我自己的獎勵函數/效用函數本身就是一個讀心者，意即它涉及可解釋性，因此會根據我的思想和計劃內容觸發。

這三條路徑中的任何一條都可能導致一種元偏好，其中「我想要 X」看起來是好是壞。我的主張是，(2B) 是認可獎勵運作的方式（見前文第 3.2 節），而 (1) 是我在「對齊很難」思維中所稱的「預設」情況。

（那 (2A) 呢？那是另一個有趣的「非預設」情況。就像認可獎勵一樣，這至少在原則上可能規避許多「對齊很難」的論點。但它有自己的問題。總之，我在這篇文章中將擱置 (2A) 的可能性。）

（實際上，人類的認可獎勵在實踐中可能在 (2B) 的基礎上加入了一點 (2A)——大多數人在向他人隱藏真實意圖方面並不完美。）

……好，最後，讓我們進入標題中承諾的「6 個理由」！

1. 人類直覺認為，一個人的目標和價值觀隨著歲月改變是正常且好事

在人類經驗中，欲望隨時間改變是完全正常且好事。並非總是如此，但經常發生。因此有了像情感變位（Emotive Conjugations）這樣的說法：

「我受到了文化薰陶，你被灌輸了思想，他被洗腦了」
「我有了新的體悟，你改變了主意，他沒能貫徹他的計劃和承諾」
「我思想開放，你容易被說服，他立場搖擺不定」

……諸如此類。總之，在正確的語境下，樂於改變是很棒的。事實上，甚至我們關於欲望改變的元偏好本身也是會改變的，而我們通常對此也沒意見。^([5])

然而，如果你考慮的是一個具有遠見、規劃和情境覺知能力的 AI 代理人（無論是效用最大化者，還是基於模型的強化學習代理人^([6]) 等），這種偏好就是一個奇怪的異常，不是正常的預期。預設情況反而是工具性趨同：如果我想治癒癌症，那麼我（順帶地）會希望在癌症治癒之前，一直保持著治癒癌症的願望。

為什麼會有這種差異？這直接源於第 0.3 節中的圖表。對於缺乏認可獎勵的 AGI（我視之為「預設」），其自我反思（元）欲望是服從於其對象層級欲望的。

目標保存隨之而來：如果 AGI 希望下週發生對象層級的事物 X，那麼它現在就想擁有對 X 的欲望，並且它希望明天依然擁有對 X 的欲望。

相比之下，在人類身上，自我反思偏好大多來自認可獎勵。總體而言，我們「真實的」、認可的欲望，大約就是那些如果我們的朋友和偶像能讀懂我們的心，會讓他們留下深刻印象的欲望。（他們實際上讀不了心——但我們自己的獎勵函數可以！）

這條路徑不會產生任何特定的目標保存力量。^([7]) 如果我們的朋友和偶像會對隨時間改變的欲望印象深刻，那麼這通常也是我們對自己的期望。

2. 人類直覺認為，自我協調的「欲望」與「衝動」來自根本不同的地方

在人類經驗中，想要 X（例如糖果）但不想想要 X 是完全正常且預料之中的。同樣地，不喜歡 X（例如作業）但想要喜歡它也是完全正常且預料之中的。

而且，我們有一種深層的直覺，認為自我反思元層級的自我協調「欲望」，與像飢餓時進食這樣的對象層級「衝動」，來自根本不同的地方。例如，在最近的一次對話中，一位高層 AI 安全資助者自信地告訴我，衝動來自人類本性，而欲望來自「理性」。同樣地，傑夫·霍金斯（Jeff Hawkins）部分基於衝動來自腦幹而欲望來自大腦皮層這種（錯誤的）理由，否定了 AGI 滅絕風險（見我的《入門系列》第 3.6 節說明為何他在這一點上是錯誤且不連貫的）。

在非常狹義的意義上，關於人類衝動和欲望來自不同來源的想法確實有一點真實性。如《社會驅力 2》和上文第 0.3 節所述，強化學習獎勵函數的一部分是認可獎勵，它是自我協調欲望的主要（雖然不完全是）來源。獎勵函數中的其他部分大多產生衝動。

但從缺乏認可獎勵的 AI 未來（效用最大化者、「預設」強化學習系統等）的角度來看，這種思考方式是怪異且不適用的。在那裡，如前所述，出發點是對象層級的欲望；自我反思的欲望只是附帶產生的。

一個相關的問題是我們如何看待 AGI 反思其自身的欲望。這如何發展強烈取決於是否存在（類似）認可獎勵的東西。

先從前者開始。人類經常在自我協調的自我反思欲望與自我不協調的對象層級衝動之間產生衝突，而反思允許欲望針對衝動進行策劃，可能導致巨大的行為改變。如果 AGI 擁有認可獎勵（或類似機制），我們應該預期 AGI 在反思時也會經歷同樣巨大的改變。甚至可能更大——畢竟，AGI 通常比人類擁有更多的自我修正手段。

相比之下，我預期 AGI 在預設情況下（缺乏認可獎勵或類似機制時），主要擁有對象層級的、非自我反思的欲望。對於這樣的 AGI，我不預期自我反思會導致太大的欲望改變。事實上，除了更有效地追求其現有欲望之外，它不應該導致任何更有趣的改變。

（當然，這樣的 AGI 可能會在衝突的對象層級欲望之間感到掙扎，但我認為這不會導致我們在人類身上習以為常的那種內心交戰。^([8])）

（要澄清的是，缺乏認可獎勵的 AGI 中的反思可能仍會產生其他種類的「併發症」，例如本體論危機。）

3. 人類直覺認為，善良、順從和可修正性是自然的

這種人類直覺直接來自認可獎勵，它在人類直覺中絕對處於核心地位，並導致我們在意他人是否會認可我們的行為（即使他們沒在看）、為自己的美德感到自豪，以及其他各種區分神經典型人與反社會人格者的特質。

舉個例子，這是保羅·克里斯蒂亞諾（Paul Christiano）所說的：「我認為正常人 [會說]：『如果我們試圖幫助某些生物，但那些生物真的很不喜歡我們提議的「幫助」方式，那麼我們應該嘗試另一種幫助他們策略。』」

他是對的：正常人肯定會這麼說，而我們人類的認可獎勵就是我們為什麼會這麼說的原因。如果 AGI 同樣擁有認可獎勵（或類似的東西），那麼 AGI 大概也會認同這種直覺。

另一方面，如果認可獎勵不是 AGI / ASI 的一部分，那麼我們就進入了 AI 對齊中「可修正性是反自然的」學派。作為該學派的一個例子，請參見《為什麼可修正性既困難又重要》。

4. 人類直覺認為，非正統的後果論規劃是罕見且可疑的

顯然，人類可以制定長期計劃來實現遙遠的目標——例如，一個 18 歲的人可以計劃在 15 年後成為一名醫生，並立即透過明智的後果論行動（如修讀化學課）來推進這個計劃。

即使是年幼的孩子，如果想長大成為醫生，他們也可以且將會採取適當的目標導向行動來推進這個長期計劃，例如練習手術技巧（左）和觀看培訓影片（右）。

這在 18 歲青年的大腦中是如何運作的？顯然不是透過我們今天在 AI 中所熟知和喜愛的任何強化學習技術——例如，它不是透過具有荒謬地接近 1 的折扣因子的情境強化學習來運作的，那種因子允許 15 年的時間跨度。事實上，折扣因子/時間跨度在這裡顯然是無關緊要的！這個 18 歲青年以前從未當過醫生！

相反，必須有某種東西在當下激勵這個 18 歲青年採取適當的行動去成為醫生。而在實踐中，我主張那個「某種東西」幾乎總是即時的認可獎勵信號。

這是另一個例子。考慮某人今天存錢是為了三個月後買車。你可能認為他們現在正在做一件不愉快的事，是為了以後的獎勵。但我認為這不太可能。誠然，存錢有其即時不愉快的方面！但存錢也有更強烈的即時愉快的方面——也就是說，這個人對自己正在做的事情感到自豪。他們可能會定期告訴朋友這個正在進行的偉大計劃，以及他們取得的進展。或者如果沒有，他們可能至少在想像這樣做。

所以存錢不是現在做一件不愉快的事來換取未來的利益。相反，多虧了（通常是）認可獎勵，愉快的感覺立即就開始了。

此外，每個人都已經非常習慣人類本性的這個事實。因此，在沒有即時認可獎勵的情況下執行長期計劃的第一步，是如此罕見，以至於人們通常認為這高度可疑。他們通常假設一定存在某種認可獎勵。如果他們搞不清楚那是什麼，那麼他們會認為你隱瞞了關於情況的重要資訊。……或者他們會假設你是個馬基維利式的反社會人格者。

舉個例子，我喜歡提到有效利他主義（EA）中的「賺錢來捐（Earning To Give, EtG）」，即為了賺錢捐給慈善機構而找一份高薪工作。如果你告訴一個普通的非極客 EtG，他們通常會假設這是一個顯而易見的謊言，而那個人實際上是為了高薪工作的津貼和地位。這就是它有多奇怪——除非那個人是個瘋子，否則大多數人甚至不會想到有人會因為預期的長期後果而執行一個社會不認可的計劃。……嗯，這在現在比十年前要好一些；EtG 變得更普遍了，大概是因為（你猜對了）現在有一個社群認為 EtG 是值得社會讚賞的。

相關地：有一種虛構作品的套路，基本上只有反派才被允許制定跳脫框架的計劃並展現智慧。寫英雄的正常方式是讓他在「做具有強烈即時社會認可的事」與「出於其他原因（例如恐懼、飢餓、邏輯(!)) 做事」之間產生衝突，並讓英雄心中前者戰勝後者。然後英雄以 極大的熱情 追求即時社會認可的選項，從此大家過著幸福快樂的生活。^([9])

這一切都發生在人類世界。與此同時，在 AI 領域，像我這樣認為「對齊很難」的思想家通常預期未來的強大 AI 將缺乏認可獎勵或任何類似的東西。相反，他們通常假設代理人將對未來有偏好，並做出決定以實現這些偏好，這不只是邊際上的決定因素，而是主旋律。因此有了工具性趨同。我認為這正是正確的假設（在缺乏防止這種情況的特定設計機制時），但我認為當我們開始描述這些 AI 代理人的行為時，人們會反應出難以置信，因為這與人類太不一樣了。

……嗯，與大多數人類不同。反社會人格者在某些方面可能更像那樣。同樣地，那些異常「具有代理性（Agentic）」的人也是如此。順便問一下，你如何幫助一個人變得「具有代理性」？你猜對了：一個關鍵要素是將「具有代理性」標註為一種元層級的行為模式，並向這個人暗示遵循這種元層級模式將獲得社會認可！（或者至少，它不會遭到社會反對。）

5. 人類直覺認為，社會規範和制度大多是穩定自我執行的

5.1 繞道談談「安全思維制度設計」

在加密貨幣世界中有一種常見的態度，我們可以稱之為「安全思維（Security-Mindset）制度設計」。你假設每個表面都是攻擊面。你假設每個人都是潛在的小偷和叛徒。你假設任何一群人都可能串通起來對付另一群人。諸如此類。

在「安全思維制度設計」中，要完成任何事情都極其困難，特別是當你需要與現實世界對接時，現實世界豐富的複雜性無法被加密協議和去中心化驗證所限制。例如，加密貨幣的去中心化自治組織（DAO）在存在的十年中似乎沒做出什麼值得注意的事，除了鏈上項目，偶爾還會遭到災難性的駭客攻擊。Polymarket 有一個不錯的鏈上系統，直到預測市場需要結算的那一刻，即使是這一點點與現實世界的接觸，似乎也是一個有問題的漏洞來源。

如果你將這種「安全思維制度設計」的態度擴展到實際的現實世界政府和經濟中，那將是毫無希望的。喔，你家有警報系統？你為什麼相信警報系統公司或其安裝人員不是要害你？喔，這家公司聲譽很好？誰說的？你怎麼知道他們不是一夥的？

……這只是普遍問題的一個微小縮影。誰能接觸到武器？為什麼那些人不串通起來把自己的稅收定為零，並提高其他所有人的稅收？誰制定政府政策，如果那些人串通起來對付其他人怎麼辦？或者即使他們不串通，他們是否容易受到勒索？誰負責計票，他們會不會聯合起來開始索賄？誰編寫了徵稅網站，我們為什麼相信他們不會偷走巨額資金並逃往杜拜？

*來源……好，你明白意思了。這就是「安全思維制度設計」的視角。

5.2 人類社會的承重組件不是安全思維制度設計，而是「夠好」的制度加上幾乎普遍的人類先天認可獎勵

與此同時，普通讀者^([10]) 可能會搖頭說：

「天哪，這段描述的是什麼奇怪的外星世界？具有穩健功能制度的高信任社會顯然是可能的！我就住在其中一個！」

錯誤的答案 是：「安全思維制度設計瘋狂地過頭了；相反，利用權力制衡使制度對背叛者保持穩定，在現實世界中實際上是一個非常可解的問題。」

為什麼這是錯誤的答案？首先，如果你環顧現實世界，即使是運作良好的制度，在那些願意為了自身利益而損害公共利益的、有能力的自私反社會人格者面前，顯然是不穩健的。例如，我恰好有一個很久以前的反社會人格者前老闆。他現在在哪裡？美國一所主要研究型大學的研究負責人，偶爾還會擔任掌握巨大權力的政府任命官員。或者看看唐納·川普如何系統性地努力破壞社會或政府中任何可能反對他的反覆無常或糾正他的謊言的方面。^([11])

其次，豐富的「國家建設」經驗表明，你不能簡單地將一套「好的」政府憲法賜予一個深度腐敗和低信任的社會，並期望該社會立即轉型為瑞士。制度和法律是不夠的。還有一個艱辛且充滿風險的過程，即建立正確的社會規範。這引出了：

正確的答案 是，你猜對了，人類的認可獎勵。其結果是 幾乎所有人類都有內在動力去遵守和執行社會規範。這裡「內在」這個詞很重要。我不是在談論當自私利益大於自私成本時，交易性地遵守規範，同時不斷積極尋找可能改變這種計算的違反規範策略。相反，人們對遵守規範以及懲罰違反規範的人 感到自豪。

顯然，當無論規範是什麼，你都能讓高達 ≈99% 的人口自豪地採納它，然後花費他們自己的資源去剷除、懲罰和羞辱那 1% 破壞規範的人時，任何可能的規範和制度體系都會變得容易穩定得多。

在這樣一個世界裡，要達到一種穩定的狀態是困難但可行的：99% 的警察不腐敗，99% 的法官不腐敗，99% 的軍隊中能接觸武器的人不腐敗，99% 的稅務局官員不腐敗等等。最後那 1% 仍會製造問題，但另外 99% 有機會控制局面。害群之馬可以被發現並剔除。信任鏈可以滲透。

5.3 結論

大約 99% 的人類有內在動力去遵守和執行規範，其餘的是反社會人格者及類似的人。那未來的 AGI 呢？如第 0.2 節所述，我個人的預期是其中 0% 會具有遵守和執行規範的內在動力。當那些反社會的 AGI 在數量和力量上增長時，它將我們從第 5.2 節熟悉的社會帶向第 5.1 節那種偏執瘋狂的世界。

在那個世界裡，我們根本不應該使用「規範」這個詞——它只是誤導性的包袱。我們應該討論的是 對背叛者具有穩定自我執行力的規則，這裡的「背叛者」當然被允許包括那些本應負責執行的人，而且「背叛者」還可能包括為了跳入一個對他們所有人都有帕累托改進的新均衡而進行協調的廣泛聯盟。我們今天沒有這樣的自我執行規則。一點都沒有。從來沒有。而發明這樣的規則只是一個白日夢。^([12])

當然，反過來說，如果我們弄清楚如何確保幾乎所有的 AGI 都具有遵守和執行規範的內在動力，那麼如果悲觀主義者依賴第 5.1 節的直覺，他們就是在援引一個誤導性的心理意象。

6. 人類直覺認為，將其他人類視為可以冷酷操縱和剝削的資源（就像汽車引擎或環境中任何其他複雜機制一樣），是一種奇怪的異常，而非理所當然的預設

請點擊《Foom & Doom》第 2.3.4 節——「極端策劃的自然性：一些直覺」閱讀此部分。

7. 結論

（作業：你能想到更多例子嗎？）

我想重申，我在這篇文章中的主要觀點不是：

對齊很難，我們完蛋了，因為未來的 AI 肯定不會有認可獎勵（或類似的東西）。

而是：

關於對齊是否困難以及我們是否完蛋，這是一個問題，而這個問題的許多關鍵點似乎都源於一個更狹義的問題：未來的 AI 是否會擁有認可獎勵（或類似的東西）（第 0.2 節）。我正在揭示這個潛在的核心關鍵點，以幫助推進討論。

就我而言，我顯然對「我們是否能夠且應該將認可獎勵（和同情獎勵）放入類腦 AGI 中，以及如果我們這樣做，可能會發生什麼好事或壞事」這個問題非常感興趣。更多相關內容（希望）會在未來的文章中出現！

感謝 Seth Herd, Linda Linsefors, Charlie Steiner, Simon Skade, Jeremy Gillen, 和 Justis Mills 對早期草稿提出的批評性意見。

^(^)……以及延伸到今天的 LLM，我認為它們的力量主要來自於模仿人類。
^(^)我說「偷偷地」是因為如果你以機器人能看見的方式 招搖地 按下獎勵按鈕，那麼機器人大概最終會想要獎勵按鈕被按下，這最終會導致機器人搶奪獎勵按鈕等。見《獎勵按鈕對齊》。
^(^)見《過度與不足塑造 AGI 欲望的危險》，特別是第 7.2 節，說明為何「善良」的欲望甚至不會被暫時習得，即使習得了也會很快被忘掉；並見《「行為主義」強化學習獎勵函數導致策劃》獲取一些相關直覺；並見《認可獎勵》文章第 3.2 節說明為何這些不適用於（非行為主義的）認可獎勵。
^(^)我個人的看法（在此不作辯護）是，這整場辯論都是被詛咒的，雙方都很困惑，因為 LLM 無法擴展到 AGI。我認為 AGI 的擔憂確實未解決，我也認為 LLM 技術確實具有潛在安全性，但它們具有潛在安全性 正是因為 它們不會導致 AGI。我認為「LLM AGI」是一個不連貫的矛盾，就像「方圓形」，辯論的一方心目中的意象是「方形的東西（但我猜它不知怎地也是圓形）」，而另一方心目中的意象是「圓形（但我猜它不知怎地也是方形）」，所以難怪他們雞同鴨講。這就是我目前的看法。也許我是錯的！！但總之，這就是為什麼我覺得無法在這場特定的辯論中站隊。我把它留給別人。另見：《Foom & Doom》第 2.9.1 節。
^(^)……只要關於欲望改變的元偏好是以一種在這些元偏好本身看來是好的方式在改變——成長是好的，洗腦是壞的，等等。
^(^)可能的反對意見：「如果強化學習代理人有很多關於其獎勵函數定期改變的過去經驗，它難道不會學到這是好事嗎？」我的回答：不會。至少對於我通常考慮的那種基於模型的強化學習代理人來說，獎勵函數產生欲望，而欲望引導計劃和行動。所以在任何給定時間，欲望仍然存在，如果這些欲望涉及未來世界的狀態，那麼關於目標保存的工具性趨同論點就會像往常一樣成立。我看不到任何過程能讓過去獎勵函數改變的歷史使代理人對未來進一步的獎勵函數改變感到滿意。
（但請注意，工具性趨同論點使基於模型的強化學習代理人想要保存其當前的欲望，而不是其當前的 獎勵函數。例如，如果一個代理人有獲取獎勵的電線腦欲望，它會想要自我修正以保存這個欲望，同時將獎勵函數改變為「回傳 +∞」。）
^(^)……至少在第一近似下是如此。這裡有一些技術細節：(1) 其他路徑也存在，並且可以產生目標保存的力量。(2) 還有一種循環的情況，即認可獎勵影響自我反思欲望，而後者反過來影響認可獎勵，例如透過改變你崇拜的人。（見《認可獎勵》文章第 5 節–第 6 節。）這可以（輕微地）鎖定欲望。(3) 甚至認可獎勵本身不僅導致「對我現在正在做的事感到自豪」（《認可獎勵》文章第 3.2 節），這並不會特別誘發目標保存，而且還 導致「渴望在未來的某個時候實際與一個真實的人類互動並給其留下深刻印象」，這位於第 0.3 節圖表的左側，並且（作為後果論者）確實會誘發目標保存和其他工具性趨同的東西。
^(^)如果一個缺乏認可獎勵的 AGI 想要 X 也想要 Y，那麼它可以透過不再想要 Y 來獲得更多 X，也可以透過不再想要 X 來獲得更多 Y。所以 AGI 的反思有可能導致「全面勝利」，即一個欲望抹除另一個欲望。但我（暫時）認為這不太可能，更可能的結果是 AGI 會繼續同時想要 X 和 Y，並在它們之間分配時間和資源。我的直覺很大一部分在於：理論上你可以有一個後果論效用最大化者，其效用函數為 $U=\log(X)+\log(Y)$，它通常會永遠在 X 和 Y 之間分配時間，而且這個代理人是反思穩定的。（對數確保了 X 和 Y 的收益遞減。或者如果那還不夠遞減，考慮 $U=\log\log X+\log\log Y$ 等。）
^(^)為了證明這有多普遍，我不想刻意挑選，所以我的兩個例子將是我坐下來寫這一段時剛好看過的兩部電影。它們是：《復仇者聯盟：無限之戰》和《蟻人與黃蜂女》。（別評判我，我喜歡在運動時看無腦動作片。）
以下包含 2020 年前漫威電影宇宙系列電影的劇透：
前者有一個絕佳的例子。英雄們絕對可以透過讓他們的朋友幻視犧牲生命來挽救數萬億人的生命，順便說一下，幻視正哀求著要這麼做。他們拒絕了，反而試圖既救幻視又救那數萬億生命。結果，他們失敗了，幻視和數萬億無辜旁觀者都死了。即便如此，這個決定仍被描繪成良好且正確的英雄行為，甚至在失敗後也從未被質疑。（注意，「幫助一個就在眼前的需要幫助的朋友」具有非常強烈的即時社會認可，原因見《社會驅力 1》第 6 節（「同情獎勵強度作為一種性格特徵，以及倫理學的哥本哈根詮釋」））。（別擔心，在續集中，勇敢的英雄們穿越時空，終究救回了那數萬億無辜旁觀者。）
在後一部電影中，沒人做出像那樣離譜的事，但事實仍然是，幾乎每個主要情節點都涉及主角冒著自己、或他們的自由、或看不見或不同情的第三方的生命危險，去幫助他們的朋友或家人——這同樣具有非常強烈的即時社會認可。
^(^)還有 @Matthew Barnett！這整個章節都是基於（並部分複製自）去年他和我之間的一個評論串。
^(^)……這是美國兩黨都參與其中的悠久傳統的一次可怕升級。例如，如果你想要拜登政府魯莽破壞長期制度規範的例子，見 1, 2。（拜託不要在評論區爭論政治。）
^(^)據我所知，超智能體可能能夠在它們之間設計出這樣的規則，儘管這可能涉及與人類不相容的事情，如「合併」（共同創建一個繼任 ASI 然後關閉）。或者我們最初可能只會得到一個單極結果（例如，一個具有相同非索引目標的 ASI 的許多副本），原因見我的文章《Foom & Doom》第 1.8.7 節。

— Lesswrong