非理性作為抵抗獎勵駭客的防禦機制

Lesswrong·3 個月前

我提出代理人對自身偏好的內在不一致與不確定性，其實是一種防止其對內部狀態進行獎勵黑客攻擊的防禦機制。透過在衝突的目標之間進行對沖，代理人能比擁有單一固定先驗時更有效地與外部現實保持一致。

這篇文章是作為 MATS 9.0 研究的一部分，在 Richard Ngo 的指導下完成的。它與我之前的文章相關，但作為獨立篇章應具備可讀性。

備註：我目前對主動推理（active inference）文獻的了解尚不足以確定我提出的問題是否已被探討或討論過。如果你認為我對該理論現狀與缺陷的描述遺漏了實質內容，我很樂意了解。

前言

在主動推理理論中，代理人（agents）被描述為擁有一組內部狀態，透過中間狀態（如感官）構成的薄膜與外部狀態（世界）進行互動。我目前正在探索代理人如何能夠展現出對外部參考的近似，使其能在現實世界中生存。儘管他們只能接觸到內部狀態的統計代理（statistical proxy），且在完全不優化外部狀態的情況下，也能輕易地對這些內部狀態進行獎勵黑客（reward-hacking），但他們依然實現了目標。

主動推理的弱點之一在於難以模擬代理人對自身偏好的不確定性。我在這裡提出一個潛在的解釋，說明為何代理人會對這些偏好感到矛盾。這種觀點將代理人對其目標表現出的不一致與非理性，視為一種保護機制，防止他們對內部狀態進行獎勵黑客。

內部獎勵黑客

考慮以下問題：

什麼能阻止代理人為其目標產生對抗性的達成準則，且這些準則比「真實」的外部目標更容易滿足？以 Clippy 為例，它的目標被設定為極大化世界上的迴紋針數量。由於 Clippy 只有內部參考，它可能會將此目標表述為「我觀察到世界上的迴紋針數量已達到極限」。我想知道 Clippy 的系統中，是什麼能防止它透過將感官連接到一個廉價模擬器（產生無窮無盡的虛擬迴紋針供其觀察），從而在生活中「勝出」。

代理人是否僅僅擁有良好的先驗？

內部獎勵黑客問題的一個優雅答案是：代理人預先配備了關於其內部狀態的合適先驗（priors）。在主動推理中，代理人尋求更新其信念並對世界採取行動，使他們的觀察結果盡可能符合其先驗。對代理人的內部狀態而言，「良好」先驗的空間非常小。然而，進化壓力已經篩選出了具有利於生存之先驗的代理人。根據主動推理，代理人試圖透過行動來體現這些有利的先驗，這使得先驗發揮了偏好的功能。

遺憾的是，我認為「進化微調的先驗完成了防止內部獎勵黑客的所有工作」這一主張有所欠缺，因為在實踐中，我們對自己的感受和偏好是不確定的。我們實際上並沒有鎖定、不變的偏好，而我不清楚主動推理如何解釋這一點；偏好通常被編碼為對觀察結果的先驗，但諷刺的是，這些先驗從未被更新。^([1])

因此，主動推理隱含地假設代理人對其偏好是一致且明確確定的。代理人只對外部狀態以及他們的行動與感官如何與這些狀態互動感到不確定。在這些未知數中，他們尋求優化那些他們確定自己偏好的觀察結果。我不認為這個假設是合理的。事實上，我一直在考慮一種可能性：代理人對自身偏好的不確定性，是提高其（有限）理性的一種重要工具。

內部不一致作為理性的工具

考慮我在上一篇文章中使用的例子：假設有一個人叫 Alice，她想極大化「成功」。在那個例子中，Alice 避免申請名牌大學，因為被拒絕會降低她對成功的內部感知。相反，她申請了一所她肯定能考上的較差大學，因為這肯定會提高她的「成功計量表」。

假設相反地，Alice 因為沒有申請名牌大學而感到一絲愧疚，因為這可能會被她的朋友視為「失敗者」行為。這種愧疚感可能會激勵她無論如何都要申請，即使這個行動（在預期中）降低了她對成功的內部感知。在這裡，對兩個截然不同的目標——「我感知自己極度成功」和「我感知自己是一個朋友認為極度成功的人」——進行混合優化，產生的行為反而實際上讓 Alice 變得更成功。

在主動推理的自由能最小化器（FEMs）中，偏好通常被描述為觀察空間上固定的先驗。Alice 行為的一個可能模型是：每個行動都是針對兩組先驗之一來選擇的。她在特定行動中選擇滿足的先驗，是從某種先驗分佈中抽樣而來的，該分佈代表了她對衝突偏好的認同程度。在實踐中，Alice 現在看起來不像一個一致的 FEM，但她在外部目標上變得更加對齊（aligned）。她在偏好之間的混合策略可以被視為一種對沖，防止她首選的先驗是不合適的。

下一步：偏好之間的競爭

我想將這種不一致偏好的概念與諸如「隔間化」（compartmentalisation）之類的心理運作區分開來。例如，假設一個代理人學習計算函數 (f+g) 的導數，是透過讓其自身分離的^([2])部分分別計算 f 和 g 的導數，然後將結果相加。這種運作可以被看作是代理人利用子代理（subagents）的輸出來解決問題。然而，這些「子代理」本身並不具備目標。它們更像是代理人部署的工具，用來將問題分解為可管理的組件。

我的猜想是，人們對其偏好的不確定性，更好地被表述為迷因（meme(plexe)s）之間為了爭奪注意力而進行的競爭。那些能在心智中存活並被觀察到的迷因，是那些可以被視為代理性地追求生存與繁殖的迷因。^([3]) 因此，內部的偏好不一致將類似於上述例子中的子部分，它們透過優化來試圖說服代理人：它們對於計算導數是「有用」的，應該被保留下來。^([4])

將子過程和隔間化作為提高理性的工具並非爭議性的觀點。我正在構思的更具爭議的主張是：即使是衝突的代理性子過程——其目標與較大代理人的目標不一致——對於提高外部目標的代理理性（agentic rationality）仍然是有用的。我旨在於經驗或數學化的環境中正式化並探索這一假設。

^(^)從不更新對觀察結果的先驗是有充分理由的。如果代理人的偏好可以更新，他們會逐漸轉向偏好那些更有可能發生的狀態，即使這些狀態對其持續生存並無益處。固定先驗的功能是為代理人提供一個他們願意透過執行行動來體現的世界願景；這些就是偏好。
^(^)這可能包括時間上的分離。
^(^)例如，成功的迷因（如洗腦神曲）有一種傾向，會讓其宿主將其傳播給其他人。
^(^)這個目標在功能上可能與「真正擅長計算導數」相同，但並非必須如此。例如，如果代理人希望導數值很高，那麼子部分可能會透過高估 f 的導數答案來獲得競爭優勢。它最終可能會說服代理人雇用兩個自己的副本來計算 f 和 g 的導數，從而取代另一個子部分。

— Lesswrong