AI論述中的「堡壘與護城河」

Lesswrong·6 個月前

我認為人工智慧安全論述中經常出現「護城河與貝利」（motte-and-bailey）的謬誤，利用易於辯護的生存風險主張來夾帶激進的政策目標或特定的意識形態框架。我們必須更加警惕這種「對沖漂移」現象，以防止合理的擔憂被轉化為不透明的監管俘虜或智識上的不誠實。

這篇文章在某種程度上必然會同時觸及多個政治議題。請各位**保持謹慎**。如果看起來你沒有閱讀過 LessWrong 政治前提序列，我比平時更有可能刪除你的評論。

我認為有些人（理所當然地）擔心在 IABIED（If Anyone Builds It Everyone Dies）的討論中，以及最近在超智能聲明中，出現了幾種「堡壘與外城」（Motte and Bailey）謬誤的變體。

關於 If Anyone Builds It：

「當然，其『堡壘』（motte，易守難攻的立場）是：『如果地球上任何地方的任何公司或團體，利用與目前技術遠遠相似的任何手段，基於與目前對 AI 的理解遠遠相似的任何基礎，開發出人工超智能，那麼地球上每個地方的每個人都會死。』」但我感覺我正被誘導向某些「外城」（bailey，具攻擊性且難守的立場），例如：

「而且……Eliezer 思考這個問題的框架是完全正確的」 ^([1])

或者，從長遠來看，不一定來自 MIRI 的人：

「讓我們建立一個龐大的監管機構，這不僅會扼殺技術進步，而且過於不透明和官僚化，甚至無法真正解決它聲稱要解決的問題。」

我在 IABIED 討論期間開始寫這篇文章，但在討論基本轉移、顯得有些過時之前沒來得及發布。但今天，我讀到了 Dean W. Ball 關於超智能聲明的推文：

沒錯，但既然你我都清楚這份聲明是「我們應該讓全球治理機構對該技術擁有排他性壟斷」的前奏，而這絕對沒有達成共識，那麼正如我所說，製造一種對事實上激進且危險的政策目標達成共識的假象，是「適得其反」的。

對我來說，這些似乎是完全合理的擔憂。值得討論。

問題：多階段的堡壘與外城

對沖漂移與進階堡壘與外城是針對這些擔憂的一個相當好的參考：

堡壘與外城是一種技術，藉由將一個有趣但難以辯護的觀點（外城），變得與一個較不有趣但更容易辯護的立場（堡壘）相似來保護它。每當更有趣的立場——外城——受到攻擊時，人們就退回到更容易辯護的立場——堡壘；但當攻擊者離開後，人們又再次擴張到外城。

在那種情況下，是同一個人在原始主張的兩種解釋之間切換。在這裡，我更想關注不同的人對原始主張做出不同解釋的情況。主張的發起者在他們的主張中加入了許多限制條件和對沖表述（hedges），這使得主張更容易辯護，但沒那麼驚人，有時也沒那麼有趣。當其他人引用相同的主張時，限制條件和對沖表述會逐漸消失，使其變得越來越像「外城」。

一個顯著的例子是科學主張（特別是在心理學和經濟學等混亂的領域），通常帶有許多限制和對沖，但在轉述時往往會丟失。當媒體報導這些主張時尤其如此，但甚至其他科學家也經常未能正確傳遞隨之而來的所有對沖和限制。

由於這種情況反覆發生，人們可能確實預料到他們的對沖會在某種程度上發生漂移。事實上，如果有些人實際上希望發生對沖漂移，我也不會感到驚訝。這種策略實際上構成了一種更有效、因為更不易察覺的堡壘與外城策略。你不是在堡壘和外城之間來回切換（這至少是中度可觀察的，而且通常依賴於某種不理想的模糊性），而是讓其他人傳播你主張的「外城」版本，而你自己則安全地待在「堡壘」中。這樣，你就能以更安全的方式得到你想要的——外城版本的傳播。

即使人們不是故意使用這種策略，你也可以爭辯說他們應該預料到對沖漂移，而忽略採取行動防止它，即使不是徹頭徹尾的智識不誠實，也至少接近那種程度。這個論點建立在結果主義的觀念上：如果你有充分的理由相信某些負面事件將會發生，且你可以通過相當簡單的手段防止它發生，那麼你就有義務這樣做。我確實認為科學家應該做更多工作，防止他們的觀點因對沖漂移而被歪曲。我認為，在狀態好的時候，MIRI 等人在措辭上是相當謹慎的。但是，並非每天都是狀態好的日子。人們會變得匆忙或被激怒。

此外，還有一大群「毀滅論」（doomer-ish）傾向的人，他們大部分時間都表現得一點也不謹慎。最重要的是，還有一種新興的弓形蟲式集體潛意識（egregore），由包括深思熟慮的毀滅論者、深思熟慮的樂觀主義者、不假思索的毀滅論者、不假思索的樂觀主義者，以及在附近徘徊、甚至對該話題沒有特定立場的 Twitter 用戶組成的生態系統構建而成。

我實際上對任何人沒有具體的要求。但是，我知道我自己網上爭論時，很多時候也不夠謹慎，我支持人們在看起來我正在助長本文中提到的那種糟糕動態時提醒我。

一些背景範例

「特權」與「智識自由」

另外兩個例子：

特權 (Privilege)

在 2000 年代初期，人們會談論「特權」，指出社會的建立方式恰好使某些人比其他人受益更多。某些階層的人受到系統性的受益，或受到系統性的傷害。

注意到以下兩點是有用的：a) 個體/情境中有人正以你難以察覺或共情的方式受到傷害；b) 注意到存在一種二階效應，即「社會不斷否認你的問題是真實的問題」，如果你沒有經歷過，這種痛苦會以一種更不明顯的特定方式存在。

這就是特權的「堡壘」。而「外城」——至少有相當一部分人似乎明確地、反思性地支持它（更不用說隱含地、偶然地支持了）——則是：「而且擁有特權的人應該感到內疚，並採取一系列代價高昂的行動，如果說錯了話，甚至可能被解僱。」

智識自由 (Intellectual Freedom)

另一面：隨著社會正義在大學中獲得巨大權力，許多傾向保守派的知識分子感到沮喪，並為言論自由進行了大量辯論，認為你應該能夠討論 IQ 的種族差異或典型能力的性別差異。

這部分是因為我們只想對世界進行客觀建模，了解生物學和社會學等是如何運作的；部分是因為一旦你將一個話題設為禁忌，智識禁忌就會具有傳染性——如果你冒著意外說錯某個特定禁忌詞的風險，那麼討論 IQ 本身就會變得更加困難。而且禁忌的範圍普遍在擴張。

這就是「堡壘」。而「外城」——至少有相當一部分人似乎明確地、反思性地支持它——則是：「而且，黑人/女性在某些方面應該成為二等公民。」

沒有簡單的答案

我觀察了過去二十年自由派和保守派迷因複合體（memeplexes）的演變。我對那些我曾希望他們能堅持原則的人感到相當失望，他們似乎結果大多只是想改變規則以利於自己，並在社會轉向對他們有利時利用規則。

我認為「特權」在我的個人關係和社區組織中是一個非常真實、有用的概念。我認為，試圖將某些智識觀點設為禁忌會產生不良後果，這是一個重要且真實的事實。

但在人類目前的集體智慧水平下，似乎很難在不讓這些概念頻繁演變成更廣泛的政治議程的情況下，按其字面意思去接受它們。而且，無論你認為這些議程是好是壞，這裡的重點是：事實上它們目前並非孤立存在。

我們該怎麼辦？唉，我不知道。在更廣泛的社會層面上這尤其困難，那裡一切都是滲透性的，幾乎不可能達成共識，而且這麼多人的認識論（epistemics）都很糟糕。

在 LessWrong 上，我們至少可以說：「聽著，你需要內化『政治前提』序列。你被期望嘗試脫鉤（decouple），並追蹤政策辯論不應顯得片面，以及避免不必要的政治例子等等。」（並且，當我們搞砸時，嘗試互相監督）。

但這並沒有給我們留下一個「當話題必然帶有政治色彩，且後果超出 LessWrong 討論論壇時，究竟該做什麼」的答案。

有效利他主義（EA）、「害你」與「奉獻全部」

很久以前，Zvi 寫了《害你》（Out to Get You），指出有些系統和迷因複合體並不符合你的最佳利益，並想盡可能地剝削你。

一個重要的例子是政治。政治事業想要你每一分鐘的空閒時間和每一分錢。它們想要選擇你的朋友、言論和思想。如果被賦予權力，它們會為了自己的目的奪取國家資源。然後它們會進一步推進這些目的。一個人不能簡單地給予任何政治運動它想要的東西。那條路通向毀滅和瘋狂。

是的，這也意味著你的事業。

在評論中，我提到了 Zvi 擔心的一個模式，即有效利他主義作為一個迷因複合體，似乎想鼓勵人們以不健康的方式「奉獻全部」。

我指出：問題在於，世界確實危在旦夕，需要所有能得到的幫助。有一種參與方式是，你內心接受這個事實，同時也追蹤你的其他各種目標、需求和價值觀。目標是成為一個連貫的人，在力所能及的地方熱情地提供幫助，但也真正追求其他興趣，這樣你就不會拋棄你的思想，並且即使某些事情感覺像「緊急情況」，也要保持緩衝（slack），並真正堅持其他事情。

我認為這就是許多 EA 領導層明確相信的。而且，我認為這是合理的，基本上也是正確的。

儘管如此，還是存在問題：

達到你認同 A 點（即對你的目標進行理智、健康的整合，包括「世界危在旦夕」）的程度，達到 A 點的健康版本通常需要經歷一些尷尬且不健康的階段，在這些階段你還沒有完全整合好一切。這可能意味著你相信一些錯誤的事情，甚至可能在傷害自己。

即使你在採取任何行動之前閱讀了一系列長篇文章，即使「奉獻我們所能」（Giving What We Can）的誓言以「我們真的認為你應該在承諾之前閱讀一些關於這方面心理學的詳細博客文章」開頭（這可能是個好主意），閱讀博客文章實際上也不足以真正理解一切。

因此，那些仍在努力應對一切的人最終會在 EA 論壇、EA Facebook 和 EA Tumblr 上說出諸如「如果你一年的生活費超過 2 萬美元，那基本上就是謀殺」之類的話。（而且，你還會在 Dank EA Memes 上看到人們反諷地說這些，除了可能不是反諷，除了可能沒關係，誰知道呢？）

而阻止這一切發生將會非常耗時。

世界事實上危在旦夕，人們對於優先事項應該是什麼、為了減少這種情況哪些是可以接受的行為存在分歧。雖然官方說法類似於 A 點，但周圍仍有相當多傑出的人認真地傾向於「隱瞞成本是可以的，不像 Zvi、Ben Hoffman 或 Sarah Constantin 那樣致力於追求真相是可以的，因為這值得」。

而且，如果 EA 正在成長，那麼你應該預料到在任何特定時刻，周圍的大多數人都是處於尷尬過渡階段的人（或者甚至沒有意識到他們應該經歷尷尬過渡階段的人），所以他們是你聽到的大多數人。

這意味著他們在產生的生態系統中是一股相當主導的力量，即使領導層擁有 100% 完美的細微差別。

這種擔憂是我認為 LessWrong 特別不應該嘗試傳播理性主義的部分原因。這是一個具有細微差別的群體認識論的社區，湧入大量不理解這一點的人會毀了它。我認為 EA 在本質上更需要至少在某種程度上具有傳播性，但他們應該高度優先考慮信息的保真度，而不是嘗試以超過其穩定承受能力的的速度增長。

IABIED 本質上不需要傳播——假設只要正確的人讀了這本書並被說服認真對待這些論點就足夠了。但是，人們（包括特別是政治家）很難相信社會認為瘋狂的事情。

因此，它是那種確實積極想要具有足夠傳播性的迷因複合體，以達到一個點，使之成為一個常見、聽起來合理的立場，即：「如果地球上任何地方的任何公司或團體，利用與目前技術遠遠相似的任何手段，基於與目前對 AI 的理解遠遠相似的任何基礎，開發出人工超智能，那麼地球上每個地方的每個人都會死。」

好了，回到我所構想的「問題」

從我的角度來看，情況是這樣的：

世界處於危險之中。
距離脫離危險還很遠。（即使我對起飛的友好/平滑程度做出非常樂觀的假設，對人類來說似乎仍然非常糟糕^([2])）
可能可以通過爭取利用較弱的 AGI 來讓我們脫離危險，但是，擁有算力的人似乎並沒有在問正確的問題，而且看起來許多喜歡這個計劃的人一直在滑出一些關鍵概念。^([3])
目前在奧弗頓之窗（Overton Window）內的政治/協調行動空間，並不能真正讓我們脫離危險。（充其量，如果我們運氣好，它們能讓我們勉強過關）

這一切並不能證明任何特定的絕望行動是正當的。但這確實意味著，如果那些計劃是積極有益的，我對那些通過「實際上嘗試以非常實質性的方式移動奧弗頓之窗」路徑的計劃最感興趣。

在我的世界觀中，「改變奧弗頓之窗」計劃的一個重要方面是，人類將需要做一些相當細微的事情。僅僅讓人類採取一個你通過消耗認識論公地（epistemic commons）來實現的離散行動是不夠的。我們需要一個在幾十個世界/公司領導人層面上穩定的認識論清晰度的勝利。

我認為 MIRI 的人大致同意上述觀點。我不確定生命未來研究所（Future of Life Institute）的人是否同意最後一點。無論如何，這裡的標準非常難以達到，即使是出於好意的人在狀態不好的時候也無法達到。而且還有各種各樣根本不打算達到那個標準的人，他們會拿走你的想法並隨之起舞。

如果你不同意「除非政治局勢發生巨大變化，否則我們很可能會死」這個前提，那麼你擔心我在此倡導的那類事情的負面風險是有道理的。我們有時可能是政治敵人，對此我很抱歉。就我而言，我確實意識到許多潛在解決方案的重大弊端。

我沒有具體的解決方案，但我認為：

任由「堡壘與外城」像往常一樣上演
避免做任何有引發多階段堡壘與外城風險的事情

……這兩者都有點令人無法接受地糟糕。

與此同時，看起來不錯的事情是：

我想我想要的主要是「推動就簡單陳述達成一致的人，承認這是一個需要警惕的問題，並至少投入一些精力去抵制它。」而且，那些同意簡單陳述但對其在政治上螺旋式演變成你不同意的糟糕事物保持警惕的人，對第一組人多一些包容。（但，不是無限的包容）

我能想到的主要事情是「當你提出一個簡單陳述時，要清楚『外城』是什麼。」我認為 MIRI 一直在堅持這樣做，例如「是的，你應該願意為了非法數據中心而開戰。」但其他團體並不總是如此。

而且，希望這是顯而易見的，盡量尋找負面影響最小的「外城」。

^(^)當 Eliezer、Nate 或 MIRI 等人處於最佳狀態時，我認為他們會避免這樣做（主要是通過非常公開地聲明「外城」對他們來說也很重要），但我不知道他們是否總是處於最佳狀態，無論是否如此，從外部看來，對此感到擔憂是合理的。
^(^)我正在醞釀一篇更詳細論證這一點的文章。
^(^)順便說一句，如果你認為我在這一點上明確錯了，我有興趣聽聽關於這個分歧的細節。這似乎是最重要的分歧之一。
^(^)有一個惱人的問題：即使寫出我的擔憂，也會在某種程度上強化「存在部落衝突」的事實，而不是嘗試「成為我想看到的改變」——即不通過部落衝突的鏡頭來看待它。但是，部落衝突似乎是真實存在的，不會消失，我們必須找出一個更好的平衡點，而我不知道除了明確討論它之外還有什麼方法。

除了「提出政治例子」這個冒險的舉動外，我還需要對多個問題的多方人士進行一些心理分析。這更是如此，因為我並不是在對某個特定的人進行心理分析。

— Lesswrong