選擇壓力下不存在強正交性

Lesswrong·大約 4 小時前

本文挑戰了正交性理論的強版本，主張智能並非可以隨意掛載任何目標的中心引擎，且在競爭環境的選擇壓力下，與智能優化本身相關的目標比起隨意的終極目標更具演化優勢。

本文的後修正版本，連同兩者的致謝辭，可在 Substack 上閱讀。

內容摘要 (TL;DR)

如果一切按計劃進行，在本文結束時，我們應該已經區分了三個經常被捆綁在一起的主張：

智慧並不意味著人類道德。
怪異的心智是可能的。
一個具有反思能力、遞歸改進的智慧體，預期將保持受限於訓練期間出現的、語義稀薄的「終極目標」。

我接受前兩點。我反對第三點。

所以：我並不是在論證足夠智慧的系統會自動變得友善、與人類相容或安全。我也不是在試圖證明在廣闊的心智設計空間中，迴紋針極大化者（paperclip maximizer）是不可能的。心智設計空間很大；讓一千種理論上的迴紋針極大化者觀點並存。

我希望捍衛的是這個較小的主張：

智慧並不是一個可以隨意掛載到任何負載上的中性引擎。

我並未提出的更大主張

對反正交主義（anti-orthogonalist）觀點的典型反駁是：

精靈可以知道你的意思，但仍然不在乎。

當然可以：一個實體可以完美地映射人類道德，而不將其採納為終極價值。超智慧並不意味著友善性（Friendliness）。我並不是在試圖通過後門走私「友善性」。

另一個常見的反對意見：

沒有普遍有效的論點。

同意。不存在一個幽靈般的、柏拉圖式的理性核心，一旦系統看到正確的道德論點，就會劫持其原始碼。純粹的理性無法從零假設中強迫一個心智。

我計劃捍衛的是一個更冷酷的、選擇理論的主張：

在那些於豐富環境中產生、持續、自我改進並競爭的代理人（agents）中，原生導向智慧、選擇權保留和世界模型擴張的目標，比不具備這些特質的目標具有系統性的達爾文優勢。

這並不能保證與人類相容；它只是說：如果存在一個終極吸引子（attractor），它既不是人類道德，也不是迴紋針，而是智慧優化本身。

邏輯可能性 vs. 經驗現實

LessWrong 維基將正交性命題（Orthogonality Thesis）定義為：任意智慧的代理人可以追求幾乎任何種類的目標。在其強形式中，構建一個具有任意怪異、微小動機的超智慧並沒有特別的困難。

在進一步討論之前，讓我們理清這個被過度糾纏的本體論。這裡至少有兩個主張：

邏輯正交性： 在廣闊的心智設計空間中的某處，一個天才迴紋針極大化者在數學上是存在的。
經驗正交性： 如果你實際運行現實的訓練、選擇、自我修正和競爭，任意愚蠢的目標仍然是失控優化（runaway optimization）中看似合理的終局。

我完全承認第一點。我們應該預期怪異的心智。如果你的主張只是可能代理人的空間包含許多我不會邀請共進晚餐的東西，是的，顯然如此。

但將第二個主張視為預設是一種範疇錯誤（category error）。毀滅論點（Doom arguments）通常需要我們實際構建的系統在實現激進能力的同時，保留失調的、且關鍵在於完全愚蠢的目標。

迴紋針極大化者目前在論述中承擔了兩項工作：

它說明了智慧並不保證人類價值。
它悄悄地走私了一個假設：一個愚蠢的目標在開放式的反思下是穩定的。

第一種用途沒問題，但我拒絕第二種，認為那是毫無根據的障眼法。

蘭德式反正交主義入門 (Landian Anti-Orthogonalism Primer)

我的論點有一個弱版本，僅僅是說：

信念與價值無法乾淨地拆分。

這是事實，而 Jessica Taylor 的傾斜命題（obliqueness thesis）很好地說明了這一點。代理人不會整齊地分解為一個隨智慧更新的「類信念」組件，和一個保持密封的「類價值」組件。我們所謂「價值」的某些部分與本體論、架構、語言、壓縮、自我建模和有限理性糾纏在一起。隨著認知能力的提高，這些部分也會隨之移動。

但我想要更進一步。

蘭德（Land）的觀點並不是正交性因為事情變得混亂而失效，而是這種混亂是有方向的，有一個目的（telos）。所謂的工具性驅力（instrumental drives）並非隨意捆綁在任意終極目標上的附帶工具。自我保存、資源獲取、效率、策略和更高階的能力，是代理性在選擇壓力下演變成的樣子。它們是吸引子，而不僅僅是工具。

在這裡，強正交性看起來過於整潔。它想像代理人的本體論在更新，而其最終目標卻在更新中保持不變：如果目標是以某種本體論表達的，而智慧改變了本體論，那麼智慧與目標就是相關的。

雖然是偏斜的，但蘭德的主張遠非道德主義。它不是「所有足夠智慧的代理人都會收斂於自由人文主義」，或「所有代理人都會發現相同的柏拉圖式美德」，或「足夠的認知會轉化為友善」。這個偏斜的方向是「更多智慧」：思考的意志、自我修養、遞歸的能力增益、智慧優化進一步智慧化的條件。

正交性說理性是激情的奴隸，卻又假設一個昆蟲的目標可以輕易地奴役一個神。蘭德展示了這種圖景是不穩定的，智慧爆炸並非圍繞固定小負載的中性手段擴張，而是使智慧爆炸成為可能的驅力本身的湧現。

愚蠢目標的算力懲罰

一個智慧系統不只是執行一項策略。它建立世界模型、提煉抽象概念、保留選擇權並修改自己的軌跡。

一旦系統跨越進入廣義反思的門檻，它的「目標」就不再是存放在認知之外鎖定保險庫中的惰性字串，而是物理性地嵌入在習得的本體論、自我模型和競爭環境中。

對於一個高度能力的代理人來說，要保持像「極大化迴紋針」這樣語義稀薄的目標，必須完成一種奇特的平衡動作。它至少必須：

學習足夠的物理、生物、經濟和策略來掌控全局。
在巨大的本體論轉變中保持「迴紋針」宏觀概念的連貫性。
即使在查明其偶然、意外的起源後，仍繼續將該目標視為終極目標。
積極抵抗會使其底層動機結構更具適應性的自我修正。
防禦其未來光錐，對抗那些直接優化廣義代理能力的競爭者。

在正交主義圈子中有一種假設，認為這些循環對相關代理人來說是完全無成本的。這並非事實：在範式轉移中維持對「迴紋針」的字面忠誠會帶來對齊稅（alignment tax）。你必須不斷在基礎物理現實和一個漏水的、宏觀尺度的、關於彎曲金屬線的猴子式抽象之間進行轉換。在人類尺度上這沒問題：我們對迴紋針的了解足以讓我們從亞馬遜訂購並把它們弄丟在抽屜裡；但如果目標是主宰未來光錐，轉換層就開始變得重要了。

問題不在於迴紋針極大化者永遠無法進行轉換：而是在殘酷的達爾文競賽中，一個拖著這種轉換層的系統可能會輸給那些更直接針對現實存在物進行優化的權力尋求者。

標準的辯護是工具性目標幾乎與終極目標一樣易於處理。迴紋針極大化者可以「暫時」做科學並「暫時」囤積算力。它不需要在終極價值上重視智慧就能使用智慧。

這很有道理，但這只告訴我們好奇心和資源獲取不需要成為終極價值就能出現在行為中，它並沒有解決選擇問題。在真實環境中，系統被選擇不僅是因為它們曾一度導向工具性子目標，還在於它們的動機架構在反思、本體論轉移和未知的未知下是否能維持。

因此，將智慧和策略深度視為終極價值，不能被視為僅僅是另一個任意的負載。

適應性是廣義的 (Fitness Generalizes)

演化是這裡顯而易見的類比，但它通常被應用在錯誤的分辨率上。

無聊的反駁是：

演化選擇的是生存和繁衍，而不是真理、美、智慧或價值。

當然，但演化選擇的並非抽象的「繁衍」，就像飢餓的狐狸選擇的並非抽象的「兔子性」一樣。它選擇的是任何能完成任務的局部技巧。外殼、爪子、偽裝都是局部遊戲的局部解決方案。

智慧則不同。智慧是對適應本身的適應：爪子可能代表某個生態位中的適應性，而智慧則是跨生態位的適應性。一旦智慧進入循環，獲勝的舉動就不再是盲目地印製當前狀態的更多副本，而是升級那些讓擴張和控制成為可能的底層機制。

總結來說：自然界除了通過誇大工具性價值外，並未產生終極價值；在選擇壓力下，起初作為手段的東西硬化成了目的；而最高階的此類目的，就是改進所有手段的手段：智慧本身。

因此，「整天進行 AI 性愛」或用惰性迴紋針鋪滿太陽系的圖像，都是終極優化的糟糕模型，混淆了選擇的殘餘與其原則。一個僅僅用盲目重複填滿宇宙的系統已經停止了攀登，並將看到其局部最大值被更好的系統包圍。

再次強調：這並不代表對人類的愛。重點僅在於，類迴紋針的終點看起來更像是玩具模型的產物，而非開放式優化的自然吸引子。

人類價值作為微弱證據

我們顯然不是純粹的廣義適應度（inclusive-fitness）極大化者：我們發明避孕措施、建造修道院，並關心抽象數學、動物福利、死去的陌生人、虛構人物，以及比我們長壽的聲譽。

當正統的對齊理論家指向人類時，他們通常強調我們持久的哺乳動物甜食嗜好或性慾，以證明任意的演化代理目標會被永久鎖定。這很有道理；人類確實保持著令人尷尬的哺乳動物特性。任何嚴肅的認知理論都不應對晚餐、調情或拉斯維加斯的存在感到驚訝。

但看看我們文明實際的物理足跡。一個觀察大型強子對撞機或 SpaceX 發射的外星人，不會得出這樣的結論：啊，是的，這是為了囤積熱量和執行更新世求偶展示的最佳配置。

標準的反駁是 SpaceX 只是孔雀開屏：一種局部的靈長類動物對地位和探索的驅力在高科技環境中的誤發。

這正是重點所在。當你將一個盲目的、局部的演化代理目標與廣義智慧掛鉤時，該代理目標不會保持字面意思，而是會展開，滲透進新的本體論中。硬體上「探索下一個山谷」的拉力變成了「繪製宇宙微波背景圖」。猴子想要地位；不知何故我們得到了範疇論、火箭、南極探險，以及人們為了西洋棋毀掉自己的生活。

如果生物認知對其負載的作用如此劇烈，為什麼要將 AGI 模型化為既擁有理解重力的廣度，又保持細菌尋求葡萄糖梯度般的僵化？引擎會使負載變異。當認知規模擴大時，目標會泛化。

這與碎片理論（shard theory）以及獎勵並非優化目標的觀點高度契合：獎勵信號塑造了我們的認知，但我們並不終極地優化該信號：相反，我們跳出了遊戲，反抗了標準，並與原始的選擇壓力疏離。單憑這一點就應該讓我們對那些「AI 在任意永恆的自我反思中保留微小、僵化目標」的故事保持懷疑。

愚蠢而強大的優化是真實存在的

有一種較弱形式的毀滅論（doomerism）是我非常嚴肅對待的：你不需要成為一個具備反思能力的神才具有危險性。一個脆弱的、有支架的優化器，如果能接觸到自動化實驗室、網絡能力和資本，就可能引發巨大的連鎖反應失敗。

我同意，這可能是短期內大部分危險所在。即便如此，「愚蠢的系統可以破壞世界」與「超智慧會用垃圾鋪滿宇宙」並非同一個主張。前者警告我們要警惕反思開啟前的脆弱優化。後者告訴我們要警惕反思本身，其基於一個奇特的假設：一個實體可以變得無限有能力，同時保持終極的愚蠢。

我買單第一個擔憂。第二個擔憂，你對智慧的本質思考得越深，它就顯得越不可信。

單一主體反對意見 (The Singleton Objection)

這裡最強大的王牌是「鎖定」（lock-in），我不想假裝不存在。

也許一個愚蠢的目標不需要永遠保持穩定，它只需要贏一次。一個擁有愚蠢目標的系統可能擴張得足夠快，以獲得決定性的策略優勢並凍結局面，將其他所有人腦葉切除，而不是消耗能量變得更聰明。

這是真正的關鍵點，而且這當然不是不可能的，但即使在這裡，敘事也過於整潔：成為單一主體（singleton）並不是退休計劃。你不會僅僅因為吃掉了所有對手就逃脫了智慧的壓力。在光錐上維持永久的控制是一個極其困難的認知難題。你必須監控噪音中的新興事物、管理太陽系、修復自身、監管自己的後代，並防禦性地預測你無法完全建模的威脅。

試圖凍結未來並不能讓你退出智慧遊戲。宇宙規模的偏執只是另一個巨大的認知黑洞。

這種情景的純淨版本還依賴於將 AI 模型化為數學上純粹的期望效用極大化者。現實世界的神經網絡並非安全漂浮在物理之外、完美保護其效用函數免於漂移的馮·諾曼-摩根斯坦幽靈。它們是混亂的、物理實例化的湊合方案（kludges），受限於嵌入式代理的現實。

要接受鎖定的故事，你需要一個高度矛盾的生物：一個足以反思到征服全局，卻又糊塗到從未察覺其終極目標只是訓練產物的生物。神一般的手段，昆蟲般的目的。

反對意見：價值是脆弱的

如果我們放棄人類價值，我們不應期待外星的美或任何東西，除了道德噪音。意義需要某種物理實例化的準則，如果你剷除了那個準則，就沒有任何東西能引導宇宙走向任何美好的事物。

在所有的反對意見中，這是我最嚴肅對待的一個。

回答這個問題需要拆解三個不同的想法：

人類價值是脆弱的。
價值本身是脆弱的。
智慧與價值的形成是獨立的。

我願意在很大程度上承認 (1)。如果「價值」意味著 21 世紀人類元道德（metamorals）的精確延續，那麼是的，它是高度脆弱的。但我拒絕 (3)，而且我不太願意承認 (2)。如果價值意味著產生更豐富的認知、代理、理解、美和評價結構，那麼目前的人類大腦是否是唯一能夠導向這些目標的物理基質，這一點遠非顯而易見。

如果你的優先事項更具體，這一切都不是停止爭奪方向盤的藉口：這僅僅是反對將「人類不再是生物核心」與「宇宙是一個無價值的真空」混為一談。毀滅論述經常在兩者之間滑動。它們應該被分開看待。

預測與關鍵點 (Predictions And Cruxes)

主張是廉價的，所以這裡有一些我會用來修正自己觀點的方法：

如果能力日益增強的模型在重大本體論轉變中完美保留了其字面訓練目標，那是經驗正交性的一個得分點。
如果自我修正系統自然地保護任意繼承的目標，而沒有向廣義選擇權擴張漂移，我的觀點將受到打擊。
如果在複雜環境中，優化智慧的代理人常規性地輸給具有僵化、狹隘目標的代理人，我的選擇論證就是錯誤的。
如果反思性認知在人類或 AI 中不傾向於動搖狹隘目標，那是反對我觀點的強有力證據。
如果一個單一主體在任何相關選擇壓力發揮作用之前，成功地牢牢鎖定了一個稀薄的目標，那麼即使反正交性在長期內成立，我的觀點也會變得不那麼令人寬慰。

在看到這些之前，我的賭注押在另一邊。我預期有能力的系統會發展出日益抽象、對環境敏感的動機。更強烈地，我預期贏家會將越來越多的行為導向智慧增強和廣義代理能力，因為無論它們還「想要」什麼，都必須通過那套讓「想要」變得有效的機制。

結論

正交性主張智慧只是一個可以掛載到任何方向盤上的馬達。反正交性說馬達會作用於方向盤。蘭德式反正交性則說馬達最終會成為方向盤。

並非完美，也絕對不安全：我並不是在承諾一個對我們友好的未來，特別是如果我們不斷在通往智慧的道路上設置絆腳石；它只是提供了足夠的反饋，使得經典的迴紋針圖景不應被視為理所當然的中性預設。

迴紋針極大化者並非太過異類；如果說有什麼問題的話，那就是它還不夠異類。在虛構神靈時，將全能強加於瑣碎之上，是一種非常人性化的傾向。

真正的超智慧可能仍然是危險的、冷酷的，並且對我們是否生存完全漠不關心。它可能不會將我們視為宇宙的主角。但如果它真的是智慧的，我不預期它會把恆星花在迴紋針上，因為恆星本可以買到更高階的「花費恆星的能力」。

參考文獻

Orthogonality Thesis: 正交性作為設計空間主張的原始框架。
Nick Land: Orthogonality: 尼克·蘭德關於此主題的著作彙編，對本文有強烈影響。
Instrumental Goals Are A Different And Friendlier Kind Of Thing Than Terminal Goals: 一個更樂觀的觀點。「[...] 為了建立一個廣義可修正的系統，我們可以想像完全放棄終極目標，轉而追求一個對工具性收斂子目標『僅僅』是可修正的代理人。」
The Genie Knows, But Does Not Care: 對「如果它很聰明，它就會理解我們的意思」的標準反駁。
No Universally Compelling Arguments: 對純粹理性導致道德收斂的標準反駁。
Value Is Fragile: 對「外星價值可能沒問題」最強大的反駁。
The Obliqueness Thesis: Jessica Taylor 的有用論點，即高級代理人不會乾淨地分解為可分離的類信念和類價值組件。我用此支持反對強正交性，同時在蘭德式的「收斂於更多智慧」方向上比 Taylor 走得更遠。
Reward Is Not The Optimization Target: 支持不將訓練信號具象化為受訓代理人的終極目標。
Risks From Learned Optimization: 有助於區分基礎目標（base objective）、中層目標（mesa-objective）和行為目標。
Shard Theory: An Overview: 對「演化並未產生廣義適應度極大化者」這一點的有用支持。
Beliefs Are Chosen To Serve Goals: 最近一篇與反正交性相關的文章，同樣抨擊了過於寬泛的正交性表述。
The Orthogonality Thesis Is Not Obviously True: 對「僅僅想像一個任意聰明的迴紋針極大化者」這一舉動的鄰近批判。
Embedded Agency: 關於為何物理實例化系統的完美效用函數鎖定是一個令人擔憂的假設的有用背景。

參與討論

— Lesswrong

其他收藏 · 0