代理人可能陷入自我懷疑的均衡狀態

Lesswrong·10 天前

本文探討代理人的不同時間實體如何因不信任而陷入衝突，並提出藉由維持一致的身份認同作為謝林圍欄，以實現內部協作的觀點。

或：身分作為嵌入式代理人的謝林圍欄 (Schelling Fences)

本文為在 Richard Ngo 指導下於 MATS 9.0 進行的研究內容。他對文中討論的觀點有顯著貢獻。

前言

本文質疑了「代理人」(agent) 的神聖性，並討論代理人的時間實例 (Temporal Instances, TIs) 如何因不信任而陷入衝突。這些動態過程在數學上可以描述為一種人際內部的合作博弈。我定義了一種時間版本的納許均衡 (Nash equilibria)，並展示了一個在 TIs 之間雖然穩定、卻屬於自我懲罰模式的例子。

這引導我們思考：是什麼條件讓代理人中互不關聯的部分能夠和諧合作？我推測，代理人在一段時間內表現出的行動一致性，可以被視為對某種「身分」(identity) 的堅持，這種身分取代了博弈參與者之間的「理性共同知識」(Common Knowledge of Rationality, CKR)。透過認同一個共同的身分，TIs 宣告了彼此間的信任，這類似於一個不更新^([1])代理人所體現的特質。

接著，我將探討如何對這一推測進行正式陳述與證明。這將涉及將通用類型空間轉化為人際內部博弈，以完整處理 CKR。我還會討論哪些其他的均衡概念和解構方案有助於適配到自我協調博弈的框架中。

最後，我簡要論述了這項工作與人工智慧（AI）的相關性，包括進一步加強相關研究的計劃。

不連貫的「自我」

關於個人是否對世界擁有連貫的偏好，以及其誘導出的效用函數可能具有哪些性質，已有許多討論。這類研究的主要動機在於：如果個人無法連貫地對世界進行排序，就可能被「抽錢」(money-pumped) 而損失任意高的價值。然而，抽錢需要一系列的交易，這使其本質上成為一種時間現象。因此，對於不可被剝削的代理人來說，擁有跨時間的一致偏好同樣重要。在本文中，我們假設代理人的固定時間實例 (TIs) 所擁有的效用函數具備所有通常的優良性質。

理論經濟學家長期以來一直懷疑代理人的效用函數隨時間而變化^([2])，這促使他們探討 TIs 之間如何合作或衝突。一個動態一致 (dynamically consistent) 的代理人，其未來的自我會認可並執行她現在的計劃。相反地，動態不一致的代理人會經歷偏好反轉並中途改變計劃。Strotz (1955) 發現，動態一致的代理人正是那些對未來自我效用進行指數折現的人。不幸的是，實驗證據反覆顯示，動物是以雙曲方式折現的^([3])，這意味著代理人在其一生中對策略的偏好會發生變化。儘管如此，動物（尤其是人類）仍能制定並執行計劃，這表明存在某種時間連貫性的傾向。這些觀察引發了關於現實中存在的代理人如何解決先驗的自我衝突，進而轉化為相對和諧的決策程序的疑問。

連貫性是什麼樣子的？

儘管代理人很少預設就是動態一致的，但人類和理論家都開發了增強內部連貫性的策略和機制。其中第一種且在概念上最簡單的是「強制」(coercion)。假設我想明天早上 6 點起床開始充實的一天，但我知道我未來自我的顯性偏好將是睡懶覺。我可以透過設置鬧鐘來強制執行我的意志。如果我懷疑自己會無視鬧鐘或關掉它繼續睡，我可以升級手段，在多個設備上設置鬧鐘，或讓鬧鐘難以關閉。

塑造未來自我的激勵景觀以使其服從你的計劃，早在 1955 年就由 Strotz 提出，這確實是人類在時間跨度上對齊自我的流行策略。這種類型的強制通常是透過「坑害」未來的自我，對其效用徵稅，使得你偏好的選項變成他們的偏好。這極有可能產生某種程度的內部不和與怨恨，因此可能最適合用衝突動態——而非合作動態——來建模。

其他較少強制性的機制也被提出。例如，Strotz 建議一個 TI 應該只選擇那些會被其繼任者跟進的計劃；在數學上，這相當於「假裝」你是動態一致的來選擇計劃，即使你並非如此。這種方法犧牲了從當前自我角度看最優的計劃，轉而選擇一個你知道會被尊重的計劃。

「承諾問題」(commitment issues) 一詞已常用於指代 TIs 因擔心偏好反轉而不採用其偏好計劃的情況。有些人將承諾問題視為（效用最大化）代理人的根本限制。然而，其他人則從人類心理學中汲取靈感，用以解釋和規定代理人如何克服這一問題。

假設查莉 (Charlie) 自認是一個勤奮的人。理想情況下，她今天會早睡，以便「明天的查莉」能早起並度過高效工作的一天。然而，她昨晚熬夜了（可能是在工作），所以如果在如此懶散的工作日後就休息，她會感到愧疚。因此她繼續熬夜，導致晚睡破壞了「明天查莉」的工作計劃，並使循環持續下去。

查莉的行為模式與她完成工作（或體現勤奮美德）的目標是一致的。她是一個功能正常的代理人，其時間實例在某種程度上與大代理人的目標對齊並使其成為可能。然而，她陷入了一個次優的、自我維持的循環中，沒有一個 TI 願意承擔損失去休息，以便更完整地實現目標。她的自我協調模式卡在了一個功能不足的均衡中。

再以迪恩 (Dean) 為例。他與查莉有相同的身分認同，並以同樣功能不足的方式履行它。然而，他熬夜的原因是他不相信未來的自我真的會努力工作，即使他代表他們早睡。查莉的功能失調源於沒有一個 TI 願意休息一天，而迪恩的功能失調則歸結為對未來時間實例的「不信任」。

查莉和迪恩都透過保持「勤奮」日子的紀錄來維持勤奮的身分。這類動態似乎因 George Ainslie 的微觀經濟學 (picoeconomics) 議程而流行。他將「意志力」定義為意圖隨時間保持的傾向。Ainslie 進一步建議，意志力可以被視為一種跨時博弈；這些博弈透過「遞歸自我預測」來執行：一個已可靠地證明自己能抵制誘惑的代理人，可以自信地預測自己能再次承諾這樣做。反之，如果她有屈服的歷史，她可以預測自己不會抵抗。這促使她對沖自己缺乏意志力的風險，並放棄承諾。

受 Ainslie 貢獻啟發的最新研究，已在人際內部博弈的簡單範例中對意志力的建立與維持進行了建模。例如，Bénabou 和 Tirole (2004) 的工作探討了代理人學習信任其做出承諾能力的條件。de Font Reaulx (2025) 建模了代理人的「夜晚」版本如何被激勵去履行「白天」版本所做的承諾，以便在迭代博弈中建立聲譽^([4])。

我喜歡這些方法不將動態一致性視為理所當然。審視跨時博弈動態是找出如何收斂到內部穩定協議的好步驟。儘管如此，這些框架低估了前述例子中使用的「身分」在維持這些穩定安排方面的作用程度。

人們有時會像對待博弈中的其他玩家一樣，明確地對未來的自我進行推理，但這很少見，可能是因為涉及的推論成本太高。此外，某些承諾可以被視為與「反事實」(counterfactual) 自我的協調，這在觀察中更為罕見^([5])。在實踐中，選擇一個行動是因為它與代理人的自我模型 (self-model) 之間的關係。例如，一個正在康復的戒酒者，在經驗上並不會因為打破戒酒先例會影響她的自我遞歸預測，而賦予維持戒酒紀錄很高的價值。相反地，戒酒現在已成為她身分的一部分，以至於喝酒會導致存在危機。

這對我來說意味著應該有一種更簡單的「身分」模型，透過一種在概念上更優雅、且在計算效率上可能也勝出的機制，來描述一個不更新或動態一致的代理人^([6])。這裡的「身分」，我指的是與代理人的自我模型非常相似的東西。理性 TI 的所有複雜運作都被她直覺地感知到的一個幾何上顯著的自我模型所取代，她被迫尊重並維護這個模型，並相信其他 TIs 也可能尊重它^([7])。因此，維護自我模型（例如作為戒酒者的模型）扮演了謝林圍欄的角色，TIs 在缺乏溝通的情況下可以預設遵守。

在這裡使用「謝林圍欄」一詞可能看起來很奇怪，因為謝林點和謝林圍欄通常用於沒有溝通的情境。這在直覺上似乎不適用於 TIs 之間的博弈，因為它們絕對可以透過記憶和增強記憶的符號進行溝通。然而，本文從質疑連貫「代理人」的概念開始，強調了內部衝突。在 TIs 之間缺乏信任的情況下，溝通的概念變得難以定義或依賴。

因此，關鍵問題在於：TIs 之間的信任，或對共享自我模型的信任，究竟是什麼樣子的。一旦建立了信任，某種程度的動態一致性就可能出現，因為 TIs 會被視為關心他們的共同利益。

(缺乏) 自我信任的數學框架

為了探討 TIs 之間的信任問題，我建立了一個簡單的框架，用以研究當我們「不預設」TIs 已經透過共享的自我概念進行協調時，它們之間的互動。

令 $\Sigma$ 表示一個有限字母表，代表代理人在迭代博弈的相同步驟中所擁有的選擇。我們令 $U: \Sigma \to [0, 1]$ 為一個對這些選擇進行排序的效用函數。我們將序列 $s \in \Sigma^\mathbb{N}$ 稱為博弈，並將 $\Sigma^*$ 的元素稱為歷史，記作 $h$。博弈的獎勵定義為 $R(s) = \sum_{t=1}^\infty \delta^t U(a_t)$，其中 $\delta$ 是折現因子。儘管雙曲折現對於引發代理人的偏好反轉是必要的，但我們實際上不需要它來描述不信任「自己」的代理人。

代理人是一組函數 $A = {f_t}{t \in \mathbb{N}}$，其中對於每個 $t$，相關函數的類型簽名為 $f_t: \Sigma^t \to \Sigma$。我們稱這些函數為 $A$ 的時間實例 (TIs)。與 $A$ 相關的博弈是由以下遞歸定義的序列 $s_A$：
$a_1 = f_1(\emptyset)$
$a{t+1} = f_{t+1}(a_1, \dots, a_t)$

代理人的獎勵 $R(A)$ 定義為其博弈的獎勵。

這還不是一個非常有趣的定義。到目前為止，我們將代理人識別為其歷史的函數，而沒有透過與該歷史或其未來自我的關係來賦予其結構。這種關係來自 TIs 對其繼任者的信念。

令 $A$ 為一個具有相關效用函數 $U$ 的代理人。$A$ 的「信念」是一組概率分佈 $B = {P_{t, k}}{t < k \in \mathbb{N}}$，其中 $P{t, k}$ 指定了時間 $t$ 的 TI 對誰可能是時間 $k$ 的繼任者的信念。我們令 $B_t$ 為分配給 $f_t$ 的信念集。一組信念在給定歷史 $h$ 和時間 $t$ 的行動 $a$ 的情況下，誘導出博弈集 $\Sigma^\mathbb{N}$ 上的概率分佈。由於每個博弈都可以分配一個獎勵，我們對博弈的分佈誘導出一個隨機變量 $\mathcal{R}_{t, a}$。

接下來，我們需要一種正式的方法來詢問一個 TI 在給定其對未來的信念的情況下，是否「最優地」參與合作博弈。我們定義 $A$ 在 $t$ 處的「反事實代理人」為：將 $f_t$ 替換為任何其他可能的時間實例，而不改變任何其他實例所獲得的代理人集合。我們將此集合記為 $\mathcal{A}_t$，它由函數集 $\Sigma^t \to \Sigma$ 索引。一個給定的反事實代理人記作 $A'$.

現在我們可以定義一個局部最優行為的概念，它作為人際內部博弈的納許均衡版本。

令 $A = {f_t}{t \in \mathbb{N}}$。令 $h_t$ 為遞歸生成到時間 $t$ 的歷史。如果對於所有 $A' \in \mathcal{A}t$，我們有 $\mathbb{E}[\mathcal{R}{t, f_t(h_t)}] \ge \mathbb{E}[\mathcal{R}{t, f'_t(h_t)}]$，則時間實例 $f_t$ 是 $A$ 中相對於信念 $B_t$ 的「獎勵最大化者」。如果 $A$ 的所有 TIs 都是相對於其自身信念 $B_t$ 的獎勵最大化者，我們稱 $A$ 是「局部理性」的（相對於其信念 $B$）。

在沒有溝通、信任或共享身分的情況下，任何給定的 TI 所能做的就是根據它認為繼任者會如何反應來做出最佳行動。正如在標準博弈論中一樣，某些納許均衡可能是高度功能不足的，如下例所示：

令 $\Sigma = {0, 1}$。令效用函數為 $U(0) = 0, U(1) = 1$。令折現因子 $\delta$ 為 $0.5$，並考慮一個由 $f_1(\emptyset) = 0$ 定義的代理人 $A$，且對於 $t > 1$：
$f_t(h) = 0$ 若 $h$ 包含任何 $1$
$f_t(h) = 1$ 否則

可以驗證，對於信念 $B$（即每個 TI 都確信其繼任者是正確的），$A$ 是局部理性的。

到目前為止，我們描述了 TIs，而沒有做出它們形成一個連貫的跨時間代理人的通常假設。在這種情況下，我們展示了即使 TIs 有動機透過共享獎勵函數相互合作，它們也可能因為缺乏「自我信任」而失敗。這對應於我們之前提到的迪恩的例子。下一步是詢問：一個「確實」與自己協調，以至於我們可以誠信地稱其為代理人的實體，會具有什麼屬性？

進一步的工作與推測

我之前給出的局部理性代理人可以被視為認同「偏執」。她不信任自己，因此她保持嚴格的一致性準則，以確保她能獲得任何獎勵。這是一個無法「最大化」獎勵的次優範式，但它根據某種可以稱為身分的東西是「一致」的。這類果斷、顯著的自我模型，為行為劃定了清晰的謝林圍欄，構成了連貫性概念的候選者。

因此，一個可能定理的形式是：對於某些類別的局部理性代理人-信念結構，存在一個 TIs 可以被視為尊重的共享「身分」；在這樣做時，他們不再需要根據對彼此的信念進行計算，而是可以信任共同的謝林圍欄。在上述框架中，身分的一個平凡版本是玩一個週期性序列的意圖，這與人類如何圍繞習慣和常規組織生活並無二致。然而，在更具表現力的模型中，你可能會得到一些非平凡的身分。例如，讓 TIs 或其選擇存在於度量空間中，使得接近或相似的概念更容易定義，這可能會很有用。

為了使任何結果更令人滿意，還應對該框架進行兩項關鍵改進。它們是：

更完整的信念形式化。
穩健均衡與可靠承諾的理論。

更好的信念概念

我之前提出的模型將 TIs 擁有的信念概念化為關於其他參與者行為足跡的信念。這是不完整的，因為對未來實例行為的預測僅僅是你對「他們的」信念以及理性共同知識 (CKR) 模型的下游產物。博弈論學家早在 1967 年就認識到了這一點，Harsanyi 寫道，正確的理性行為概念取決於參與者彼此擁有的遞歸模型。我的形式化則跳到了對代理人輸出的預測，這忽略了一個重要的隱含步驟。

幸運的是，經濟學家已經為博弈開發了一套「層次信念」(hierarchical beliefs) 理論^([8])。他們的結果不能直接複製到我的人際內部博弈中，因為遞歸只在時間上向前進行。然而，我的案例嚴格來說更簡單，因此基於先前的工作定義一個時間版本的層次信念應該不難。

穩健均衡與不更新性

納許均衡在擴展形式博弈中作為解構方案是不夠的，我提出的「局部理性」相應概念也是如此。首先，可能存在多個納許均衡，在這種情況下，我們需要一種啟發式方法來預測參與者將如何選擇其中一個，或者他們如何在迭代博弈中收斂到它。其次，一旦一個參與者偏離常規，某些納許均衡就無法證明其持續穩定性。在之前的正式例子中，假設其中一個 TI 選擇了 $1$ 並識破了其繼任者的虛張聲勢。在這種情況下，下一個 TIs 「真的」會執行永恆懲罰的威脅嗎？

在博弈論中，這個問題被稱為參與者的威脅不具備「可靠性」(credible)。子博弈完美均衡 (Sub-game Perfect Equilibria, SPE) 透過要求每個參與者的策略在任何子博弈中都是納許均衡（無論參與者到那時為止的行為如何）來解決這個問題。SPE 試圖定義一類穩健的均衡，但從決策論的角度來看，它們是有缺陷的。它們隱含地假設代理人要麼在時間開始時全知地鎖定其整個策略概況（如 UDT 1.1），要麼發出威脅但在虛張聲勢被識破後重新評估。在第一種情況下，SPE 沒有意義，因為如果參與者可以鎖定策略，他們不妨發出威脅^([9])。第二種解釋則忽略了現實生活中的參與者實際上確實會參與一些不更新的懲罰行為。諸如復仇心、排外和懲罰性等美德在結果上是可以證明的，但它們通常嵌入在社會結構中——如監獄或教育系統——其程度超出了單純功利主義論點所建議的範圍。

這需要一個更細緻的均衡定義，以接受「某些」自我毀滅的模式。一個富有成效的身分理論可以解決這個問題，在代理人的自我模型與其能可靠做出的威脅之間建立對應關係。例如，我給出的次優局部理性的正式例子，只有在代理人的「身分」是對其未來自我極度不信任的身分時才是「可靠的」，以至於她明知故犯地願意威脅永恆懲罰以讓自己保持一致。

這樣的理論在直覺上將構成 UDT 1.0 的推廣。在該框架中，代理人的反事實或隨時間變化的版本透過尋找一個可以圍繞其進行協調的共同祖先來進行非因果協調。共同祖先的偏好和設計可以被視為將不同實例聚集在一起的身分。正如在我們初創的身分理論中一樣，不更新性在博弈論上有一個主要優勢，即允許可靠的威脅^([10])。

這與 AI 有什麼關係？

我給出的直觀例子都是基於人類行為的。此外，我上面正式描述的代理人不僅未能採取最優行動，而且顯得非常愚笨。因此，很自然會問這條思路與（超智能）AI 有什麼關係。

理解 AI 的未來發展涉及清楚地了解嵌入式 AI 可能採用哪些自我模型。在質疑和解構「自我」概念的過程中，我尋求關於哪些自我模型可能從代理人的過去選擇壓力、環境和架構中湧現的見解。我透過人類研究「自我」的興趣有兩方面。首先，理解人類代理本身對於引導人類-AI 半機械人未來（以及現在！）非常有價值，更廣泛地說，對於使 AI 與我們對齊也是如此。其次，人類是我們目前擁有的智能嵌入式代理的最佳範例之一。

我意識到，專注於圍繞人類直覺和例子研究身分，極有可能滋生人類中心主義模型，而這些模型無法映射到 AI 上。然而，有幾種方法可以解決這種可能的失敗模式。首先，我試圖保持概念願景盡可能抽象，使其能適用於受時間流逝影響的任意嵌入式代理。此外，我計劃未來從日益增長的大型語言模型 (LLM) 心理學和社會學領域汲取大量靈感和範例，因為 LLM 是最接近非動物通用智能的東西。

^(^)在 UDT 1.0 的意義上。
^(^)有關文獻發展的概述，請參見 Herbert Gintis 所著《理性的邊界》(The Bounds of Reason) 第 2 章。
^(^)Frederick et al. (2002) 提供了與動態不一致相關的實驗結果概述。
^(^)為了使「迭代」博弈奏效，de Font-Reaulx 假設「白天」和「夜晚」代理人在博弈的每次迭代中都保持不變，儘管每次迭代都代表不同的一天。
^(^)我承認我在「非意識」推理與「完全沒有」推理之間建立了一個脆弱的聯繫。許多我們稱為認知的過程並非由意識處理。
^(^)UDT 1.1 在哲學上等同於經典經濟學文獻中的動態一致性，而 UDT 1.0 則代表了某種更弱、更現實的版本。
^(^)透過這樣做，代理人在兩層之後「切斷」了博弈中信念的遞歸。這證明了為什麼共享身分在計算上可能比博弈論建模更便宜。
^(^)Samet and Heifetz (1998) 是我最熟悉的 CKR 數學化表示。
^(^)相關概念：作為 S-風險 (S-risks) 的承諾競賽。
^(^)我並非主張 UDT 1.0 對其他決策論擁有某種規範性主張。我感興趣的是，對於經歷進化或強化學習 (RL) 等選擇過程的代理人來說，發展出多少程度的不更新性是有利的。

參與討論

https://lesswrong.com/posts/MGoCFnCRYufwTyAD5/agents-can-get-stuck-in-self-distrusting-equilibria