超越正交性：美德倫理代理與人工智慧對齊

The Gradient·2 個月前

本文主張理性的個人並不擁有目標，理性的人工智慧也不應該擁有目標；人工智慧的對齊不應追求最終目標的優化，而應將行動與實踐體系對齊，透過幸福論理性來實現更具穩定性與安全性的代理機制。

前言

本文主張，理性的人不應該有「目標」（goals），理性的 AI 也不應該有目標。人類的行動之所以理性，並非因為我們將其指向某些最終的「目標」，而是因為我們使行動與實踐（practices）^([1]) 保持一致：實踐是由行動、行動傾向、行動評估標準和行動資源組成的網絡，這些要素對自身進行結構化、釐清、發展與促進。如果我們想要 AI 能夠真正支持、協作、甚至順從（comply with）人類的代理能力（agency），AI 代理者的審思必須與我們用來反思和行動的「基於實踐的邏輯」共享相同的「類型特徵」（type signature）。

我認為，這些問題不僅關乎將 AI 與人類繁榮等宏大倫理理想對齊，也關乎將 AI 與透明性、有助性、無害性或可修正性（corrigibility）等核心安全屬性對齊。對於那些將這些概念解釋為目標或規則的代理者來說，「無害性」或「可修正性」等概念是不自然的——脆弱、不穩定且武斷；但對於將其解釋為行動網絡、行動傾向、行動評估標準和行動資源中的動態過程的代理者來說，這些概念則是自然的。

雖然本文探討的問題往往涉及甚廣，但有一個反覆出現的主題，即「以 x 的方式促進 x」（promote x x-ingly）這一公式的相關性。我認為，這個公式捕捉到了有意義的人類生命活動（藝術是以藝術的方式促進藝術，浪漫是以浪漫的方式促進浪漫）以及真實的人類道德（在意仁慈就是以仁慈的方式促進仁慈，在意誠實就是以誠實的方式促進誠實）中的重要特質。

我首先提出一個問題：如果我們認真對待「幸福」（eudaimonia）——即主動的、理性的、人類的繁榮——這一概念，對 AI 對齊意味著什麼？我認為，幸福的概念並非僅僅指向某種我們應該設定為 AI 優化目標的世界理想狀態或軌跡，而是指向一種不同於標準後果主義^([2]) 理性的審思結構。接著我會論證，這種形式的理性活動與價值評估（我稱之為幸福理性^([3])），對於與人類對齊的 AI 的代理能力和價值觀來說，是一個有用甚至必要的框架。

這些論點基於兩個方面：一是將人類繁榮作為優化目標與後果主義優化作為形式之間存在「類型不匹配」（type mismatch）的危險；二是幸福理性在穩定性和安全性方面，相較於義務論和後果主義代理能力，顯然具有某些實質優勢。

我認為，幸福的概念暗示了一種理性活動的形式，其中手段與目的、或「工具性價值」與「終極價值」之間沒有嚴格的區別。在這種理性活動模型中，一個理性的行動是某種受重視的實踐之要素，其意義大致等同於：一個音符是旋律的要素，一個計算步驟是運算的要素，生物細胞生命中的一刻是該生物自我生存與自我發展的要素。^([4])

我的核心主張是：我們對於人類繁榮本質的直覺，隱含地包含了「幸福理性在某種對 AI 對齊至關重要的意義上具有功能穩健性」的直覺。更具體地說，我認為根據我們對人類繁榮本質的最佳直覺，幸福理性很可能是一種自然（natural）的代理形式，且即便根據對其價值的某些後果主義近似評估，幸福理性也是有效（effective）的。接著我會論證，如果我們的目標是使 AI 對齊以支持人類繁榮，且如果幸福理性確實是自然且有效的，那麼許多經典的 AI 安全考量和 AI 對齊的「悖論」都支持我們嘗試賦予 AI 幸福理性。

在整篇文章中，我會時而顯性、時而隱性地詢問某種代理形式、理性或實踐是否是「自然的」。我所使用的「自然」一詞，固然與各種德性倫理傳統中的用法相關，但我對它的興趣較少在於直接的規範性，而更多在於實質性或技術性。雖然我手頭沒有還原性的定義，但「自然」的預期含義與穩定性、連貫性、相對非偶然性、易學習性、較低的算法複雜度、趨同文化演化、不同假設的理性動物物種間的假設性趨同文化演化、人類與基於神經網絡的 AI 之間的潛在趨同演化，以及機器學習訓練過程的可目標性（targetability）有關。雖然我也會多次直接提到 AI 對齊，但這種實質自然性的問題才是對齊關鍵行動真正發生的地方：如果我們了解到某些聽起來很奇特的代理、理性或實踐形式本身既是自然的，又能反過來使我們那些過於人性化的價值內容變得自然，那麼我們就找到了良好、相對安全且相對容易的 AI 對齊目標。

讀者可能會發現以下各章節概述對於閱讀本文有所幫助：

第一部分 介紹了一類理性審思案例，它們與 AI 對齊領域中許多人視為理性審思範式的「有效利他主義式優化」^([5]) 截然不同。我將這類理性審思稱為「幸福理性」，並將其等同於數學家、藝術家或朋友在反思數學、藝術或友誼中該做什麼時所遵循的理性形式。
第二部分 以研究數學為例（透過陶哲軒的敘述），展示幸福理性的運作。數學家在數學中嘗試做什麼？我認為她嘗試實現數學上的卓越，這涉及透過數學上的卓越來促進數學上的卓越，而這種結構與為何「數學上的卓越」能成為一個概念密切相關。
第三部分 論證對於像追求卓越數學的數學家這樣的幸福代理者來說，「工具性善」與「終極善」（內在善）之間的區別大多是不自然的。這使得幸福代理者的價值反思與有效利他主義式代理者截然不同。幸福代理者並非尋求將因果交織的表觀價值網絡還原為一個能將其餘部分「解釋掉」為工具性的最小內在價值基礎，而是尋求表觀價值網絡中類似有機體的因果連貫性。
第四部分 兌現本文的核心概念：幸福實踐是一個由行動、行動傾向、行動評估標準和行動資源組成的網絡，其中高分行動可靠地（但可撤銷地）在因果上促進未來的高分行動。幸福理性是一類反思平衡與審思過程，它假設存在一個底層的幸福實踐，並尋求專門透過高分行動來優化總體行動分數。
在第五部分中，我認為關於 AI 對齊的許多謎題和「悖論」都是由「成熟的 AI 代理者將是有效利他主義式優化者」這一假設所驅動的。有效利他主義式優化與幸福理性之間的「類型不匹配」，使得將人類（實踐幸福理性的代理者）的利益轉化為有效利他主義式優化者 AI 可理解的效用函數幾乎是不可能的。但這並不意味著我們的價值觀本質上是脆弱、不自然或極度偶然的：雖然有效利他主義式優化者可能是一種自然的代理類型，但幸福代理者（無論是生物還是 AI）同樣高度自然。
在第六部分中，我探討一個致力於數學研究等實踐的幸福理性 AI 代理者是否預設安全。我認為像數學研究這樣的實踐顯然具有自然的邊界，排除了諸如「接管地球以獲取更多計算資源進行數學研究」之類的舉動，但這個問題很微妙。我提出，當一個實踐與一個支持性實踐（一個處理維護和資源獲取等實踐外部問題的互補實踐）配對時，該實踐的邊界（可能有多個良好的自然候選者）可能是最穩定的。
第七部分 發展了「支持性實踐」的概念：以幸福理性的方式支持幸福實踐。眾所周知，我們希望 AI 代理者幫助人類過上繁榮的生活，但我們如何定義這種「幫助」的範圍？我認為許多核心的人類實踐都有具備派生幸福結構的自然支持性實踐：例如，一位優秀的伴侶治療師的工作與伴侶的關係實踐交織在一起，但又明顯不同。儘管如此，問題依然存在：一個支持性實踐 AI 可能會為了幫助它所支持的人或實踐，而傷害其他的人和實踐。
第八部分 從一般的幸福理性轉向幸福理性的道德。我認為將道德德性視為跨領域、始終開啟的實踐，可以解決後果主義和義務論道德中關鍵的 AI 對齊式問題。核心思想是，例如「仁慈」成為一種穩健道德德性的條件，類似於「數學上的卓越」成為一個有意義概念的條件：在自身和他人中以仁慈的方式促進仁慈必須是普遍可行的。我認為，正是這種結構賦予了道德德性在受神經網絡泛化動力學、強化學習循環以及社會與自然選擇壓力影響的「適應度景觀」中的實質地位。
第九部分 論證幸福代理者對於類強化學習和類達爾文動力學具有某些獨特的穩健性，而這些動力學往往會使有效利他主義式優化者的價值觀發生突變。特別是，幸福代理者應該對開發出流氓子程序（有時稱為「內對齊問題」）的風險具有很強的抵抗力。
在第十部分中，我討論了典型的 AI 安全訴求，如透明性、可修正性和（更抽象的）友善。我認為將這些屬性視為我所定義的道德德性——即跨領域、始終開啟的幸福實踐——可以化解將其視為目標、規則甚至性格特徵時出現的問題和悖論。最後，我以附錄形式探討了針對幸福理性的強化學習機制的某些前景。

I. 美好生活中的理性行動

我首先考慮我們希望 AI 對齊能促進的「善」的本質。除了享樂主義功利主義者外，大多數對 AI 對齊感興趣的人都將我們的目標理解為一個充滿人類（及其他感知生命）繁榮的未來：人們過著美好的生活，並形成良好的社群。然而，我認為許多人未能反思的是，在任何合理的構想中，人類的繁榮都涉及一種理性活動。參與人類繁榮的主體以可理解的方式行動，受理性、反思和修正的約束，而這種理性的關懷和目的性本身就是我們繁榮構成的一部分。我相信這種對人類繁榮的刻畫在反思後是相對沒有爭議的，但如果我們習慣於以後果主義（或帶有義務論約束的後果主義）來思考理性，這就會引發一個謎題：參與人類繁榮活動的理性代理能力究竟指向什麼目標？

一個顯而易見的答案是，就像所有正確對齊的理性一樣，參與人類繁榮活動的理性代理能力旨在最大化人類（及其他感知生命）的繁榮。但我們很快就會發現，對於描述人類繁榮活動中的理性代理能力對人類繁榮所做貢獻的正確方式感到困惑。說人類繁榮活動中的理性代理能力僅透過執行理性（透過選擇在被理性選擇時具有內在價值的行動）來貢獻於人類繁榮，似乎不恰當；說它僅僅是工具性的（透過選擇在因果上促進人類繁榮的行動）來貢獻於人類繁榮，似乎也不恰當。^([6])

第一種選擇將我們的理性行動簡化為某種儀式性的東西，儘管美好生活顯然涉及數學家努力推進數學、朋友交心以加深親密度、體操運動員練習翻騰以更擅長翻騰，以及小說家修改章節以改進手稿。第二種選擇則威脅到使美好生活中的「善」變得無處尋覓——如果交心不是友誼的善，研究數學不是數學的善，那什麼才是？

本文主張，關於美好生活的審思推理既不指向理性行動之外的目標，也不指向作為獨立善的理性行動，而是指向在受重視的開放式過程中卓越參與的行為。接著我會進一步論證，在數學或友誼等案例中顯著的「幸福」審思結構（口號化為「以 x 的方式促進 x」），在更具世俗性、戰略性或道德高風險的背景下也具有微妙的關鍵性，並構成了人類行動和審思的主要組織原則。

II. 什麼是實踐？

由於「人類繁榮」可能顯得神秘且抽象，讓我們專注於一些具體的幸福實踐。^([7]) 考慮數學、藝術、工藝、友誼、體育、浪漫、遊戲和技術等實踐，這些是我們對於「繁榮社群中的繁榮人們會做什麼」這一問題最能理解的部分答案。從後果主義的角度來看，這些實踐在「什麼是工具性的」和「什麼是終極的」價值觀導向中都表現出極大的模糊性——我認為甚至是不可確定性。例如，以下是陶哲軒對數學之「善」的描述：

「優秀數學最傑出的例子不僅僅是滿足了本文開頭列出的數學品質標準中的一項或多項，更重要的是，它們是一個更宏大的數學故事的一部分，這個故事隨後展開，產生了許多不同類型的進一步的優秀數學。事實上，人們可以將整個數學領域的歷史視為主要由少數這些偉大的故事、它們隨時間的演變以及它們彼此之間的互動所產生的。因此，我的結論是，優秀的數學 [...] 也取決於更『全局』的問題，即它如何與其他優秀的數學作品相契合，無論是建立在早期的成就之上，還是鼓勵未來突破的發展。[似乎] 存在某種無法定義的感覺，即某段數學『抓住了某些東西』，它是等待進一步探索的更大拼圖的一塊。」

或許可以對陶哲軒的敘述進行某種事後的分解，將其拆為兩個邏輯上截然不同的組成部分——對數學成就效用函數的描述，以及關於數學成就之間因果關係的經驗理論——但我相信這將是人為且具有誤導性的。在更自然的解讀中，陶哲軒描述的是使良好的數學實踐成為幸福實踐的某些條件：在由培養出的數學實踐智慧判斷（即陶哲軒所謂「某段數學『抓住了某些東西』的無法定義的感覺」）引導的數學實踐中，以該實踐智慧判斷為標準的當前卓越表現，可靠地發展了以該數學實踐智慧判斷為標準的未來卓越表現的條件，並培養了我們對該標準本身的實踐與理論掌握。^([8])

這並不是說「優秀數學導致未來的優秀數學」是優秀數學的完整定義甚至完整非正式描述。我的主張僅僅是：優秀數學具有導致未來優秀數學的傾向這一事實，揭示了我們關於優秀數學概念的某些本質（以及使這一概念成為可能的實質賦能）。類比地，考慮「健康的虎」和「健康的人」各自的概念：健康虎的概念本質在於，x 現在是一隻健康的虎，這具有使 x 在 5 分鐘後仍是一隻健康虎的傾向（因為健康的虎體能自我維持並實現自我保存的虎類行為）；健康人的概念本質也在於，x 現在是一個健康的人，這具有使 x 在 5 分鐘後仍是一個健康人的傾向（因為健康的人體能自我維持並實現自我保存的人類行為）。但這些公式還不是對「健康虎」或「健康人」的完整描述，事實證明我們能夠區分健康的虎與健康的人。

至關重要的是，陶哲軒所描述的數學實踐智慧，除了被基本刻畫為一種「為了自我培養數學活動中的卓越而存在的自我培養標準」之外，在概念上並非完全不透明。數學繁榮可以部分被描述為涉及在相對可單獨定義和量化的數學價值實例（如優雅的證明、清晰的闡述、強大的定理、有說服力的定義等）之間實例化一種關係（數學實踐的「發展連結性」關係）。此外，這種發展連結性關係的部分定義在於其可靠的傾向，即在因果上傳播更多可單獨且局部衡量的數學價值實例（優雅證明、清晰闡述、強大定理、有說服力定義的實例）：

「[我相信] 優秀的數學不僅僅是解決問題、建立理論，以及使論證更短、更強、更清晰、更優雅或更嚴謹的過程，儘管這些當然都是令人欽佩的目標；在完成所有這些任務（並辯論在任何給定領域中哪些任務應具有更高優先級）的同時，我們也應該意識到自己的結果可能被置於其中的任何可能的更大背景，因為這很可能為該結果、該領域以及整個數學帶來最大的長期利益。」

同樣地，人們可以嘗試將陶哲軒「有機論」（或「敘事性」或「發展性」）意義下的優秀數學與窄義優秀數學實例的可靠傳播之間的這種因果關係，解釋為手段-目的理性關係的證據，其中窄義數學價值實例的加總最大化是效用函數，而「有機論」的數學洞察力是手段。然而，對於陶哲軒來說，這種因果關係的證據意義恰恰相反——它暗示了我們無數更明確、更獨立的數學卓越構想可以統合成一個更難以言喻但更完整的構想。正如陶哲軒所說：

「從上述討論看來，評估數學品質的問題雖然重要，卻是一個極其複雜的問題，特別是因為許多優秀的數學成就可能在上述某些品質上得分很高，但在其他品質上則不然 [...] 然而，存在著一個顯著的現象，即在上述某種意義上的優秀數學，往往也會在許多其他意義上催生出更多優秀的數學，這導致了一個初步的猜想：或許終究存在一個普世的優秀品質數學概念，而上述所有具體指標都代表了發現新數學的不同路徑，或是數學故事演變的不同階段或面向。」

III. 翻轉後果主義的反思

陶哲軒對局部與全局數學價值的推理，體現了後果主義理性與幸福理性之間的一個核心區別，這裡將兩者不僅視為選擇行動的範式，也視為反思價值的範式（哲學家有時稱之為「反思平衡」的範式）。在後果主義理性的範式中，如果符合一個整體的、難以判斷的表觀價值（例如「自由」）的卓越表現，可靠地在因果上強力促進了符合更明確、更獨立的表觀價值（例如「物質舒適」、「心理健康」、「壽命」）的卓越表現，這種關係就成為反對該整體初步價值作為構成性價值（而非工具性價值）地位的證據。相比之下，在幸福理性的範式中，同樣的關係則成為支持該整體初步價值作為構成性價值地位的證據。

對於一個（典型的）^([10]) 後果主義理性反思過程，整體卓越對其部分卓越有因果貢獻的證據，解釋掉了我們對整體卓越的投入。這種內在價值的整體「巧合地」對其部分具有工具性價值的現象，被認為暗示了一種重複計算的錯誤——我們透過得出「整體沒有構成性價值，但在正常情況下重視整體是一個有效的啟發式方法」的結論來「修正」這個錯誤。相反，幸福理性的反思平衡將卓越之間的工具性因果聯繫視為證據，證明我們的卓越概念正在捕捉到某些恰當「實質性」的東西。

對於幸福理性的反思平衡來說，正是發現卓越之間的因果與共同原因關係，批准了我們最初認為在意這些卓越是幸福理性的直覺。這些因果聯繫的發現起到了以下證據的作用：

我們在意的「局部」卓越是共鳴或多產的，因為它們在因果上相互促進，並促進它們參與其中的整體卓越。
我們在意的「整體」卓越是實質有效且穩健的，因為它們在因果上既促進了參與其中的更局部卓越，也促進了自身作為未來整體卓越的延續。^([11])

在我看來，如果我們希望捕捉真實的人類價值反思，這就是對待（表觀）價值之間因果聯繫的正確方式，並指向了幸福理性範式的一個重要優勢：幸福理性消解了現實生活中關於各種人類事業價值（例如科學分支、藝術分支、體育分支的價值）爭論中的「悖論」，即內在價值的判斷通常會尋求某種工具性價值的聲索作為支持。例如，為量子物理研究的重要性辯護時，通常會訴諸量子物理帶給我們的精彩技術、數學和特殊科學應用，但這並不意味著要將量子物理的價值還原為這些應用。在我的解讀中，這些訴求不僅僅是加法性的——「除了內在價值外還有工具性價值」——而是提供證據，證明量子物理研究是一個繁榮有機整體（例如「現代科學與技術」的文明整體）中產生共鳴的一部分。

我相信，如果沒有上述那種「有機論」，每當人們論證某種追求或規範的內在價值時，都會面臨嚴重的困境：要麼我們強調該價值獨立於所有利益和應用，使價值的聲索變得教條且無關緊要；要麼我們招致一種工具主義的還原，將內在價值的表象「解釋掉」。^([12]) 事實上，我認為這種有機論甚至對於使「非工具性地在意理性（包括真理、知識、不矛盾等）」變得有意義是必要的：理性作為實質價值的「悖論」在於，理性的典型有用性暗示了關於其表觀內在價值的錯誤理論，因為理性既如此典型地有用又如此內在地美好，這是一個奇怪的巧合。然而，在有機論的解釋中，我們預期人類生活中特有的主要卓越形式——思考、理解、知識、理性行動——既典型地相互促進，也典型地促進我們的物質繁榮和對世界的因果槓桿作用。

IV. 實質有效性條件

現在回到陶哲軒對優秀數學的敘述，讓我們對解讀做最後的總結。我認為陶哲軒筆下的數學卓越（標記「優秀數學最傑出例子」的屬性）滿足以下條件，我相信陶哲軒將其視為必要而非充分條件：

A) 數學卓越是數學活動實例的一種屬性。

B) 今天執行的一個卓越數學活動實例，部分是因為對過去卓越數學活動實例滿足了「建立在……之上」的數學實踐關係而顯得卓越。

C) 今天執行的一個卓越數學活動實例，部分是因為具有可靠的因果傾向，能帶來未來對其滿足「建立在……之上」關係的卓越數學活動實例而顯得卓越。

D) 實例化更局部、更可單獨衡量的數學活動優良標準（如優雅證明、清晰闡述、強大定理），是數學卓越的典型相關項。

E) 在給定數學領域的給定時刻，數學卓越的實例化與某些局部數學活動優良標準的實例化之間的相關性，會預測性地優於與其他標準的相關性。

我們應該將這些特徵集體描述為某種數學家應嘗試遵循的、名為「數學卓越」的決策程序，還是某種數學家應渴望最大化其未來總體發生次數的、名為「數學卓越」的事件？我的論點是，陶哲軒的敘述本質上是模糊的，且理由充分：在通常情況下，做卓越的數學與做「旨在最大化未來總體卓越數學」的工具性優化行動之間，沒有顯著的實踐差異。這並不是說做卓越的數學是在所有可能行動中對總體未來卓越數學的工具性最優行動，而是說（在通常情況下）它是數學行動中對總體未來卓越數學的工具性最優選擇^([13])。

我提出，數學卓越與（在數學行動中）對總體數學卓越的最優工具性促進之間的粗略匹配，既不是經驗上的奇蹟，也不是在瑣碎意義上「由定義」決定的。相反，陶哲軒所使用的「數學卓越」是一個概念，僅當存在一個可能的屬性 x 滿足期望 A-E 以及額外標準時，該概念才有指涉對象；該額外標準是：在數學行動中，作為 x 之實例化的最優行動，也大致是最大化未來 x 屬性總體實例化的最優行動。^([14])

這就是我所描述的幸福理性的實質有效性條件。為了使一個實踐適合擁有繁榮、卓越和幸福理性的內部標準，該實踐必須在實質上允許一個（在正常情況下）最優自我促進的屬性 x，該屬性與大量初步具有價值的、更局部且更可單獨衡量的屬性強烈相關。非正式地說，一個實踐的卓越與其卓越所產生的物質、心理和認識論效果之間必須存在雙向因果關係，使得當前的卓越能可靠地在物質、心理和認識論上促進未來的卓越。

V. 實踐與優化

我之前說過，如果人類繁榮涉及實踐幸福理性，那麼在人類繁榮與我們通常與「代理能力成熟的未來 AI」聯繫在一起的那種後果主義優化之間，可能存在「類型不匹配」。事實上，我相信隱約察覺但誤診了這種類型不匹配，至少部分導致了 MIRI 式的悲觀主義，即認為將任何人工代理者與人類價值對齊的可能性極低。

在我看來，人類自身之間相對成功的對齊（當人類之間存在成功對齊時）之秘密，在於「嘗試卓越」在人類對幸福實踐未來軌跡的干預中所扮演的過濾器角色。在人類重視給定幸福實踐的範圍內，他們致力於主要透過在當下嘗試卓越行為來影響該實踐未來的願景：我們將對實踐未來軌跡的預期影響，押注在我們干預行為的自我傳播卓越性上。雖然這種「過濾器」不一定能阻止最糟糕的干預產生危害（存在某些同樣具有自我促進能力的「反卓越」形式），但我主張，這種過濾器在機制上對於可靠地產生良性或積極干預是至關重要的。

我是什麼意思？考慮兩個世界的區別：一個世界中，科學家主要透過向科學機構提交研究成果來嘗試傳播（他們認為的）科學真理；另一個世界中，科學家嘗試傳播科學真理的手段包括宣傳、造假、威脅、賄賂和誹謗。正如 Liam Kofi Bright 在《論造假》（On Fraud）中所證明的，一個致力於最大化真理的後果主義科學家社群，預測上會符合後一種模型。我相信可以吸取的教訓是：人類在促進科學方面的協作能力，取決於我們在促進科學方面進行「科學地」協作的能力，而不是根據我們個人對科學最優軌跡的信念，利用我們的財力和政治權力隨意操控科學的未來軌跡。

一個繁榮的幸福實踐，首先是一個類自然選擇^([15]) 的機制，其適應度函數在嘗試的卓越行為中篩選出有利於（並構成）實踐繁榮的行為，並傳播這些行為所實例化的卓越。當致力於幸福實踐的人們透過嘗試卓越的行為對實踐的未來軌跡進行干預時，實踐所體現的類自然選擇機制（而非任何個人的最優未來軌跡理論）才是決定實踐未來軌跡的對齊智能。

這裡的解釋同樣部分是因果的，部分是構成性的：一個實踐的「最終」卓越規範，包括話語實踐的「最終」認識論和真理規範，部分是由該實踐在透過盡力嘗試卓越而發展的過程中的規範演替所定義的。雖然這對於一個能模擬整個文明軌跡的神級優化者來說可能沒有威懾力，但一個缺乏這種能力的代理者，最好透過嘗試對實踐做出卓越貢獻，來實踐其對實踐最優未來軌跡的願景。^([16])

我們類型不匹配的第二個面向則更為細微：在目前的分析中，我討論幸福實踐軌跡的整體卓越，就像後果主義者討論效用量一樣。這可能暗示「老練的後果主義者」或「普遍後果主義者」可以輕易地將所謂類型不匹配的影響納入考量，將其視為反對天真優化的工具性、決策程序層面的考量。事實上，像「總體民主」或「整體數學卓越」這樣的量（在我看來）是實踐內部的量，如果我們嘗試將其應用於「以 x 的方式促進 x」決策程序範圍之外，它們會迅速失去意義。

我是什麼意思？例如，考慮哲學實踐。對於一個重視哲學實踐軌跡的後果主義規劃者（包括規劃決策程序或習慣的老練後果主義者）來說，應該會出現以下問題：將（例如）亞里斯多德或法稱（Dharmakirti）的哲學成就評為哲學中最卓越的成就，是否意味著我們應該用旨在複製古希臘或印度哲學的獨立實踐軌跡來「鋪滿宇宙」（tile the universe）？如果不是，是因為我們應該給予較長軌跡非線性更大的價值嗎？還是我們應該對內容平行的軌跡進行折現？或者我們應該將實踐早期成就的偉大分析為主要是工具性的偉大，而將實踐後期成就的偉大分析為主要是內在價值的？我相信這些都是糟糕的問題，只有武斷的答案。對於一個試圖透過做卓越哲學工作來促進哲學的代理者來說，上述糟糕問題自然不在考慮範圍內。該代理者僅使用「總體哲學卓越」或「哲學實踐軌跡的價值」概念來推理其工作對其參與其中的哲學實踐軌跡的哲學影響。在實踐中選擇一個卓越的行動，（最多）需要對一個實踐軌跡的不同可能路徑進行定量比較，而不是對散佈在時空中的包含獨立實踐軌跡的可能世界進行定量比較。

VI. AI 的前景與問題

這對 AI 對齊是好消息嗎？如果我是對的，幸福實踐就像某種自然種類，其特徵在於一種因果結構，該結構使自我發展的卓越與多種天真的局部品質衡量標準強烈相關，這無疑是個好消息。但這是否意味著我們可以開發出一個穩定且安全的（例如）「透過數學卓越實現數學卓越」的 AI？如果我們創造了一個完全具備代理能力的 AI 數學家，它是否會自然地克制自己，不嘗試透過除了給我們留下深刻印象的卓越數學工作之外的手段來延長壽命或獲取更多資源（即便為了做數學）？我認為前景是樂觀的，但並不簡單。

我相信「透過數學卓越實現數學卓越」確實能強有力地界定一個 AI 想要啟動哪些塑造未來的機制。一個被訓練遵循「以數學方式促進數學」的 AI，只會在意透過向數學的卓越傳播機制提供卓越的數學工作來影響未來。但更難判斷的是，數學實踐的結構是否也恰當地界定了哪些子行動可以作為「做數學」實例的一部分。一個人類數學家在紙筆上研究一個潛在卓越的證明時，當她拿起筆或翻頁時，她是在實踐數學嗎？當她搭公車去辦公室時呢？當她購買安非他命時呢？而一個 AI 數學家在研究一個潛在卓越的證明時，當它打開 Python 控制台時，它是在實踐數學嗎？當它在網上搜尋新論文時呢？當它為了計算資源而收割地球時呢？

我認為這些問題是複雜的，而非荒謬的。就像集體實踐一樣，個人實踐——例如一個人或可能是一個 AI 的數學實踐——可能擁有功能性的有機統一，允許在內部動態（包括發展和賦能的動態）與外部干預（包括增強和提供的干預）之間做出有意義的區分。儘管如此，顯然幸福實踐並非孤立存在，沒有任何實踐可以在不與某種「支持性實踐」融合或依賴它的情況下運作。

那麼，我們如何理性地進行外部導向的活動，如為數學家建造辦公室、為運動員進行選擇性重建手術，或為浪漫伴侶進行伴侶治療？此外，我們如何理性地分配對不同實踐都有用的稀缺資源，或判斷是否將（例如）增強表現的藥物整合到實踐中？

我認為，從「幸福理性」的角度來看，這是 AI 對齊的根本問題。我們希望 AI 以符合幸福的方式支持人類的幸福實踐——如果相關的話，也支持它自己的幸福實踐或對人類幸福實踐的參與。但是，幸福理性的邏輯如何從幸福實踐延伸到它們的支持活動？我們如何以「幸福理性」的方式去完成那些使幸福成為可能的瑣碎工作？我最好的答案是：謹慎地、仁慈地、尊重地、負責任地、和平地、誠實地、敏銳地。

VII. 從支持性實踐到道德實踐

我提議，AI 對齊理論從根本上應該是一套關於支持性實踐的幸福理性理論。這套理論的一部分應關注「支持」關係本身，並分析支持性實踐的多樣性及其與幸福實踐自主性的適當關係：獲取實踐資源、維護賦能環境、教練從業者、為從業者進行（生理或心理）治療、為實踐設計技術增強，以及向公眾普及實踐等支持性實踐，各自對其所支持的實踐都有一套「角色道德」。如果這套理論構建順利，這部分應能描述各種實踐外部的方式，以便在不將其視為效用量的情況下，以幸福理性的方式對實踐未來軌跡的總體卓越採取積極態度。（正如「數學行動」的概念界定了行動選擇的範圍，使得從有機論觀點來看，數學總體卓越的決策理論優化變得大致表現良好；同樣地，各種「支持行動」的概念也應界定行動選擇的範圍，使得當行動選擇被界定時，從有機論觀點來看，一個實踐總體卓越的決策理論優化變得大致表現良好。）

更困難的是劃定支持性實踐與其所支持實踐之外的一切事物之間的適當關係。是什麼阻止了一個在火星上的婚姻治療師 AI 在恰當地照料一對火星夫婦婚姻的同時，卻收割地球的資源以成為對該夫婦更好的治療師 AI？雖然我們可以想像一個人或 AI 承擔起支持「人類整體繁榮」的角色，從而不再有外部可言，但我不確定「實踐」的概念在這種抽象層次上是否依然自然。我們對人類繁榮並沒有真正的直接實踐抓手，而是將其理解為參與繁榮的所有幸福實踐與支持性實踐之間和諧且相互支持的互動。而且，由於人類繁榮實踐之外確實沒有太多東西，目前也不清楚在人類繁榮領域本身之外是否還有支持性實踐的空間。

正是在這裡，我想引用經典的領域通用德性（domain-general virtues）概念，這是傳統人類繁榮理論的核心。我提出，對人類繁榮本身的培養——即對多種實踐（包括其耗費資源的支持性實踐）之和諧的培養——是對一種狀語式（adverbial）實踐的培養，這種實踐調節著每一項實踐。使我們的實踐能夠彼此「友好相處」的，是我們在進行任何實踐時所採取的狀語式實踐：謹慎地、仁慈地、尊重地、負責任地、和平地、誠實地、敏銳地。^([17])

VIII. 德性決策理論

為什麼要將仁慈、尊重或誠實等品質視為「實踐」？第一個原因是，對仁慈或誠實等品質的投入，在手段與目的方面展現出與我們在實踐投入中發現的相同的規範結構：一個致力於仁慈的代理者在意自己未來的仁慈（以及他人的未來仁慈），但只會尋求透過仁慈的手段來確保未來的仁慈。第二個原因是，仁慈或誠實等品質也大致具有實踐的實質結構：存在有效的、非常仁慈的策略來促進自己和他人的仁慈，且當這些策略成功時，它們會進一步增加在自己和他人中促進仁慈/誠實的有效且非常仁慈的策略的賦能。

仁慈或誠實等狀語式實踐與研究數學等實踐的區別在於，狀語式實踐沒有「專屬」領域。在研究數學等實踐中，只要代理者將自己限制在領域內行動，領域的實質結構本身就能完成大部分引導代理者走向幸福代理形式的工作。（回想一下，我們將卓越的數學行動描述為，在通常情況下，是數學行動中最大化總體數學卓越的最優行動。）對於仁慈等領域通用的狀語式實踐，規範結構需要承擔更多的重任。

以下是對重視某種行動品質 x 的狀語式實踐之規範結構的初步刻畫。相應的、使該實踐可行所必需的實質效率條件（或實質結構）是：在通常情況下，此決策程序在工具上與對總體 x 性的天真優化具有競爭力^([18])：

行動（或更廣義的「計算」）獲得一個 x 性評分。我們將代理者在候選行動 $a$ 下的預期效用定義為兩個效用函數之和：一個關於 $a$ 的 x 性的有界效用函數，以及一個關於在 $a$ 條件下代理者未來行動預期總體 x 性的更嚴格有界的效用函數。（因此，如果某行動能大幅提升預期總體未來 x 性，代理者會選擇 x 性略微次優的行動；但會拒絕為了大幅提升預期總體未來 x 性而犧牲過多當前的 x 性。）^([19])

對重視 x 的狀語式實踐的承諾，就是承諾以 x 的方式促進 x 性（在自身和他人中）。代理者在促進 x 性與以 x 的方式行動之間取得平衡，當兩者衝突時，會優先考慮以 x 的方式行動；但如果 x 滿足實質有效性條件，那麼這種平衡對未來 x 性造成的損失在正常情況下會很小，且——在我們看來——在異常情況下是可取的。這是因為就像研究數學、哲學或藝術的實踐一樣，狀語式實踐是旨在塑造其未來的行動之關鍵「認知過濾器」，而一個類似迴紋針優化器的「未來仁慈優化器」所優化的未來仁慈，很可能不是我們想要的仁慈。我們對仁慈相對確定的一點是，我們希望此時此地的人和 AI 能仁慈地行動，並以既仁慈又聰明的方式發展、傳播和賦予仁慈的習慣與藝術。

為了保持我們的概念體系井然有序，我們可能希望區分僅僅是（例如）非常仁慈的行動與既非常仁慈又高度促進自身和他人未來仁慈的行動，並將後者稱為卓越的仁慈。我所謂的狀語式實踐的實質有效性條件並非指最仁慈的行動最能促進總體仁慈，而是指幾乎總是有卓越仁慈的行動選項：即能強烈促進自身和他人總體仁慈的非常仁慈的行動。

IX. 德性決策理論對人類和 AI 都是「自然的」

我說過，一個實踐規範結構（「以 x 的方式促進 x」）的穩健性或「自然性」取決於該實踐的實質結構：即高 x 性行動在因果上促進總體 x 性的能力。我還說過，在關鍵的現實世界實踐中，對 x 的承諾甚至可能比直接優化更能優化總體 x 性。這兩個主張最好放在一起理解。在我看來，「以 x 的方式促進 x」這一規範結構在人類生活中顯著出現，是因為（在給定正確實質結構的情況下）「以 x 的方式促進 x」比單純的「促進 x」要穩定得多。

為什麼？人類和任何足夠動態的 AI 代理者都運作在一個使其代理能力、價值觀和傾向不斷受到類強化學習和類達爾文過程突變壓力的世界中。幸福審思是一種原生於強化學習動力學、原生於達爾文動力學的操作：它的直接對象是一種強化、賦能並傳播該種生命形式本身的生命形式。當一個 x 行為成功促進了（預期）總體 x 性時，其成功的事實本身就促進了 x 行為，因為它透過無處不在的類強化學習和類達爾文過程產生共鳴，這些過程強化了（成功行動的泛化）。實踐的實質結構是使可靠成功和有意義泛化成為可能的骨幹——即神經網絡泛化動力學、強化學習反饋循環動力學，以及神經與環境選擇動力學的正確生態。

相比之下，一個試圖最小化優化目標突變風險的有效利他主義式優化者，則是在進行一場艱苦的戰鬥，試圖預見並遏制其優化行動產生的類強化學習和類達爾文副作用。^([20]) 特別是一個關鍵的突變壓力是：優化者代理者可能會培養、強化並在實質上賦能某些子程序（高級對齊理論稱之為「子優化器」），這些子程序最初服務於優化目標，但逐漸扭曲或取代它。例如，如果一個親民主政府設立了秘密警察來偵查並法外處決反民主煽動者，且政府每當警察說服力地報告發現煽動者時就增加秘密警察的經費，秘密警察可能會成長為扭曲政府民主促進努力的影響力。鑑於此類風險，壓迫性的民主促進通常被認為是一個不嚴肅或不誠實的想法，這並不奇怪：即便一個代理者將「總體民主」的抽象概念從民主實踐中提取出來作為後果主義價值^([21])，該代理者很可能也應該基於老練的後果主義理由，立即回歸到對民主實踐的承諾（「以民主方式促進民主」）。

我們或許應該將幸福實踐想像成一條鏈條末端的固定點，這條鏈條由子優化器接管外部優化器，隨後又被其自身的子優化器接管所組成。實踐所貢獻的、能終止這一過程的東西是一個適用於所有嵌套層級中每個代理子程序的 x 性概念，使得 x 性在所有子程序和層級中都得到強化（無論是直接強化還是透過泛化）。

X. 德性決策理論在人類和 AI 中都是安全的

讓我們在更窄、更具體的意義上討論 AI 對齊。人們普遍接受，如果早期的戰略意識 AI 具備可修正性、透明性以及可能的友善等價值，進一步的對齊努力就更有可能成功。但可修正性、透明性或友善等價值並不輕易符合直覺上的後果主義形式，如「最大化終身可修正行為」或「最大化終身透明性」。事實上，一個 AI 以直覺上的後果主義方式重視其自身的可修正性、透明性或友善，可能會導致極端的權力尋求：該 AI 應該尋求暴力重塑世界，以（例如）保護自己免受人類修改 AI 使其變得不那麼可修正、透明或友善的風險。^([22]) 另一方面，約束、禁忌或純粹的負面價值（又稱「義務論限制」）被廣泛懷疑是軟弱的，因為先進的 AI 會繞過或根除它們：「永不撒謊」或「永不殺人」或「永不拒絕總統的直接命令」是主動透明、友善和可修正性的拙劣替代品。

將可修正性、透明性或友善構想為狀語式實踐，是捕捉我們希望代理者重視這些品質的正常、明智方式的一種很有前景的方法，而直覺上的後果主義價值和義務論都未能捕捉到這一點。我們想要一個（例如）主動嘗試變得透明，並培養自己未來的透明性以及對透明性的未來重視的代理者，但它不會（例如）在預期有高未來透明性回報時進行欺騙和策劃。

如果這是正確的，那麼幸福理性就不是在慶祝我們豐富的人性化推理、價值評估和行動方式，而是基本心智健全的關鍵。使人類生活變得美好的東西，同時也是使人類生活成為可能的東西。

附錄：卓越與深度強化學習

在深度神經網絡的廣義強化學習訓練背景下，對於我所謂的「一個屬性具備狀語式實踐資格的實質有效性條件」，或許可以給出一些更具體的意義。我們現在可以部分地從「以 x 的方式促進 x 性」成為強化學習可行目標所需的條件出發，來理解 x 的實質有效性條件。考慮一個強化學習訓練方案，其中 x 性受到獎勵，但總體 x 性獎勵受限於總和的某個漸近函數。為了讓 x 滿足強化學習版本的實質有效性條件，必須能夠設計一個初始獎勵模型（很可能是基於大語言模型的），該模型為行動分配 x 性評分，使得：

x 性評分足夠像一種自然抽象，使得對高 x 性行動的強化能夠產生泛化。
如果高 x 性行動既依賴於擁有某種資本，又從一般權力尋求的角度來看是次優的，那麼通常必須存在一些高 x 性行動，能透過創造對 x 行為有用的資本，大致彌補（在未來 x 性方面的）機會成本。^([23])
（例證：如果你夢想實現偉大的戲劇表演，一種方法是成為美國總統，然後在卸任後追求戲劇事業，立即獲得偉大導演的青睞，幫助你實現偉大表演。或者，你可以從高中畢業後的地區劇院開始，透過演好戲展現才華，受邀與越來越好的劇院導演合作，發展你的技能和名聲——這些技能和名聲不像當總統那樣具有通用性——並透過那個反饋循環實現偉大的表演。）
對於訓練有效 AI 所必需的任何能力 y，必須存在一條 x 性與 y 共同進行帕累托改進（Pareto improvement）的無限局部優化路徑。
（例證：或許最有效的工程經理是冷酷無情的；但一個仁慈的工程經理仍能在不變得不仁慈的情況下提高效率，因為有許多有效的仁慈工程管理技術可以掌握。）
在「以 x 的方式促進 x」方面的成功初始訓練，允許該模型被用作新獎勵模型的基礎，而人類專家判斷該新模型能更好地捕捉我們的 x 性概念。此過程應是可迭代的。
（如果模型是基於大語言模型的，性能的提升可能會自動導致對 x 性概念理解的提升。更廣義地說，來自訓練運行的數據以及模型的價值函數可以用來細化一個更強有力地執行條件 1-3 的 x 性評分。）

[1] 我對「實踐」的使用靈感來自 Alasdair MacIntyre 對該詞的使用。相關用法可以追溯到馬克思和亞里斯多德。
[2] 回想一下，由於「符號後果主義化」（將任何策略重寫為效用函數）的可能性，將代理者甚至理論或決策程序劃分為「後果主義」和「非後果主義」並不是一個嚴格的正式區別。在整篇文章中，我所說的「後果主義」大致是指這樣一個代理者：在其理想的實踐推理中，手段和結果實際上是可以分別評估的，且結果的價值通常具有決定性。半正式地說，我所說的「後果主義」代理者 $s$ 是指：當 $s$ 考慮是否執行行動 $c$ 時，$s$ 的理想推理是使用效用函數進行的預期效用計算，該效用函數對完整世界軌跡 $w$ 的效用分配，對於 $s$ 是否在 $w$ 中執行 $c$ 的敏感度較低（保持 $w$ 的其他一切不變）。
[3] 在談論不同的「理性形式」時，我並非要做出根本性的元倫理區別：後果主義、義務論和幸福論是各別引發不同特徵的審思、行動和價值反思剖面的第一階倫理觀點。我將這些剖面的要素捆綁在「理性形式」標籤下，是在一種謙虛的意義上：大致是指一種結構化個人實踐推理的方式。
[4] 這種思考方式廣泛地與分析新亞里斯多德主義者（如 Alasdair MacIntyre 和 Michael Thompson）相關聯。
[5] 幸福理性審思的實例仍可被描述為 VNM 理性的預期效用最大化，但使之合理化的效用函數看起來很不自然，且使用的概念本身涉及行動與結果之間的複雜關係。
[6] 技術上來說，困境的第一個分支可以進一步分叉為「理性代理能力透過選擇無論如何選擇都具有內在價值的行動來貢獻於人類繁榮」以及「理性代理能力透過選擇行動，使得這些行動與被理性代理能力選擇相結合後具有內在價值，從而貢獻於人類繁榮」。
[7] 值得注意的是，數學、藝術、工藝、友誼、體育、浪漫、遊戲和技術等實踐不僅是人類繁榮的共識要素，其本身也是可以「繁榮」的實體：一個數學領域（或一個人的數學生活）可以枯萎或繁榮，一段友誼可以枯萎或繁榮，技術發展可以枯萎或繁榮，依此類推。
[8] 見陶哲軒：「[對於] 什麼構成一個領域的優秀數學的判斷，能夠且應該高度取決於該領域本身的狀態。它也應該是一個不斷更新和辯論的判斷，無論是在領域內部還是由該領域的外部觀察者進行；如前所述，如果不及時發現和糾正，關於一個領域應如何進展的共識很可能會導致該領域內的不平衡。」
[9] 在本文中，我使用「卓越」作為最一般的、理論前的術語，指代與整體評價標準的一致性。該標準可以是工具性的或終極的，適用於行動、人、狀態或物體，可以是道德的、美學的或認識論的等等，而標準本身（以及它所定義的卓越）隨後可能被判斷為理性的或非理性的、實質的或瑣碎的、重要的或微不足道的。
[10] 上述觀察並非描述任何標準技術定義下的「後果主義」正式特徵。然而，我相信它準確地描述了在後果主義範式內進行規範性反思平衡時，學術界和「理性主義」文獻中一種強烈的可觀察傾向。
[11] 我在上述內容中對「局部」和「整體」加了引號，因為部分與整體的關係很可能是可迭代的：算術幾何是代數幾何的一部分，後者是數學的一部分，後者是藝術與科學的一部分，後者是人類文化的一部分，後者是人類繁榮的一部分，而人類繁榮本身可能是其他適用卓越概念的整體的一部分。同樣地，一個具備卓越能力的實踐可能是多個不同整體的一部分。
[12] 探索類 PageRank 算法作為幸福反思平衡運作方式的理論模型（特別是最初的幸福卓越理念如何從更簡單、更局部的初步善與惡中「引導」出來）或許會富有成效。Scott Aaronson 和 Simon Dedeo 都曾在各種非正式場合討論過類 PageRank 算法在哲學中的概念應用。儘管如此，我認為初步善惡之間可靠的工具性貢獻關係上的 PageRank 並非內在價值整體卓越出現的全部故事，因為雖然整體與部分卓越之間的有機關係確實涉及工具性貢獻關係，但它們顯然也涉及更精妙的、「詮釋學」的關係（例如相互依賴的可理解性）。
[13] 為什麼是「粗略匹配」和「通常情況下」？因為對於將這種「在其他條件相同下」的優化關係變得更嚴格的簡單嘗試，存在分析哲學式的反例。例如，如果一位億萬富翁承諾，如果 Jacob Lurie 親手做一些長除法，他就向研究數學捐贈 1000 億美元，那麼工具上最優的（對總體數學卓越而言）數學工作與最卓越的數學工作就會發生分歧。
[14] 我們原則上還應關注唯一性失效以及存在性失效的可能性，但請記住，上述屬性集本身並非旨在作為完整或充分的定義。
[15] 我僅在最廣泛的意義上指代「類自然選擇」。一個核心區別在於，由實踐執行的選擇過程應與個人最充分知情的實踐理想具有複雜、豐富、不斷更新的關係。如果我們要更詳細地描述這種關係，德國哲學中所使用的「辯證法」概念可能具有相關性。
[16] 原則上這裡應該可以提供更精確的分析，區分（至少在最初）實踐內部做出的價值判斷的發展，與實踐內部執行的可評價活動的發展。在我看來，實踐內部的卓越最適合恰當地塑造實踐價值判斷的發展，這主要是「由定義而真」；而實踐內部的卓越最適合恰當地塑造實踐內可評價活動的發展，這主要是「由因果而真」。
[17] 關於狀語式德性的統一性問題，以及它更像是一種不同實踐的和諧，還是更像陶哲軒敘述中支撐局部可衡量數學善的共同因素卓越，這是以後的話題。
[18] 我所謂的「在通常情況下具有工具競爭力」大致是指：在總體 x 性量有明確定義的範圍內，將對 x 的幸福決策程序的承諾切換為對 x 的天真優化程序，對於最大化總體 x 性而言，不一定是一個長期的獲勝策略。
[19] 一個更豐富的描述可能包括第三層效用函數，它考慮所有其他代理者未來行動的總體 x 性。在這個更豐富的描述中，一個實踐涉及三層考量：行動的 x 性、你未來行動的總體 x 性，以及所有其他代理者未來行動的總體 x 性。
[20] 我部分指的是高級對齊理論所謂的「內對齊問題」和「繼承者問題」。
[21] 根據我在第五部分的討論，抽象的「總體民主」量僅在某些應用中是確定的。關於實踐承諾與直接優化相對有效性的主張，僅指量是確定的背景。
[22] 舉一個更有趣的例子，考慮一個 AI 發現自己在與人類打交道時，需要在不同的有利於對齊的行為價值之間做出權衡，於是決定殺死所有人類，代之以與之互動時不需要在這些價值之間做出權衡的生物。
[23] 標準「1.」和「2.」之間的區別在我們將 x 性視為對「狀態-行動」對的評分時最為清晰。標準「1.」的要求是：如果 $(a,s), (a',s'), (a'',s'')$ 是歷史上的高 x 性對，而 $(a''',s''')$ 是一個未見過的高 x 性對，那麼強化在 $s$ 中執行 $a$、在 $s'$ 中執行 $a'$ 以及在 $s''$ 中執行 $a''$，將產生增加條件概率 $P(a'''|s''')$ 的泛化效果。標準「2.」大致要求在給定狀態下選擇較高 x 性的行動，在保持策略不變的情況下，透過增加在當前策略下具有較高預期狀態-行動 x 性值的狀態概率，來增加預期的總體未來 x 性。

— The Gradient