AI安全領域的柏克萊泡泡與我們未曾嘗試招募的盟友

Lesswrong·6 個月前

AI 安全社群已漂移到一個以柏克萊為中心的同溫層中，比起接觸關鍵政治與制度盟友所需的策略多樣性，我們更優先考慮社交舒適度。

認知狀態：基於公開論述、部分總部/選址討論以及些許親身經歷的外部視角評論。我知道存在例外與反例；我論證的是灣區/有效利他主義（EA）/AI 安全圈的重心與展現出的激勵機制，而非聲稱對每個個體都瞭若指掌。

在《哈利波特與理性之道》（HPMOR）接近結尾處有一個場景，一直在我腦海中揮之不去。

佛地魔在墓地裡完全掌控了哈利：哈利被剝光衣服、被食死人包圍、被新的禁制鎖死。在推進針對哈利的計畫及其防護措施之前，佛地魔停了下來。他看著他的追隨者，詢問是否有人能在他安排的事情中看出破綻，是否遺漏了任何重要細節。

而食死人們只是站在那裡。

沒有人建議修改，沒有人指出缺陷。並非因為無話可說，而是因為他們處於一個同溫層中：太過相似、太過恭順、太過害怕反駁黑魔王。佛地魔因此咒罵他們。這被描繪成一種核心失敗模式：一位聰明的領導者身邊圍繞著一群過於相似且過於恭順的人，以至於在最關鍵的時刻無法察覺他的盲點。

我們都讀過這段。我們中的許多人都點頭稱是。有些人甚至圍繞著「不成為那種人」建立了自我認同。

我寫這篇文章是因為，從我的角度來看，AI 安全/理性主義/MIRI 圈子已經令人不安地滑向了那個寓言：是在社交層面上，而非數學層面上。

我說這話是作為一個認真對待核心擔憂的人。我不是來嘲諷這個事業的。我認為 Yudkowsky、MIRI 和安全圈的人誠然是站在光明的一方。但我是在說：你們寫了關於同溫層的故事，然後你們自己蓋了一個。

為了明確範圍：我並非聲稱 AI 安全領域或灣區的每個人都符合這種描述。我談論的是如果你按社交影響力、資金和總部所在地加權後所得到的「重心」。有很多個體在好的方面是部分反例；我的主張是，結構和展現出的激勵機制並非圍繞著他們組織起來的。

泡沫的輪廓

讓我勾勒一下我所看到的輪廓。

如果你觀察該運動社交圖譜的重心——那些靠近資金、組織總部和社交樞紐的人——其特徵大約是：

灣區 / 柏克萊 / 舊金山
年輕化、高學歷、高度活躍於網路
在美國政治中壓倒性地屬於「藍色部落」（見 LessWrong 的人口統計調查和阿拉米達郡的選舉結果）

重心最終落在這裡有顯而易見的原因：人才聚集、靠近實驗室、社交證明，以及第一批大捐贈者和組織本就身處此地。我不認為有人坐下來說「讓我們把單一文化最大化」。我想說的是：考慮到我們現在所處的位置和已知的事實，這種均衡狀態的持續看起來更像是追求舒適，而非追求使命。

幾年前關於總部選址的討論並非「哪裡是推進我們使命的最佳地點？」，而是：

自然、安靜、適合散步
有 Uber / UberEats
能否與「已經住在當地的人相處融洽」？
不是「極端保守」的地方
避開壁虱和蚊子

這些是合情合理的人類偏好。但在那篇長篇詳細的報告和評論串中，幾乎沒有明確討論過：

政治多樣性作為一種價值本身
靠近法院、國會幕僚、金融市場、乏味的公務員成年人
與生活方式和先驗信念完全不像灣區科技/EA 圈的人保持定期接觸

衡量這種優化有多偏頗的一個方法是看最終的選擇集。我們不知為何最終在辯論柏克萊 vs. 貝靈厄姆（柏克萊本部 vs. 基本上是柏克萊二號），而不是，比如說，柏克萊 vs. 波士頓附近（或奧斯汀/紐約，正如 Zvi 和其他人已經基於認識論理由建議的那樣）。

我不是要求任何人搬到休士頓或某個隨機的紅州郊區。波士頓很難說是右翼的幻想：它滿足了大部分「適合步行、高學歷、對 LGBTQ 友好、有很多宅男」的願望，但它同時也是一個被中間派和右翼思想家認真對待的城市，與大學、法院、金融和政策緊密相連。如果你最後一輪的對比是柏克萊或一個更小、更偏遠的柏克萊，而不是柏克萊或一個能開啟真正不同聯盟的地方，這就是一個信號，表明搜尋目標指向的是舒適，而非覆蓋面。

在公共訊息傳遞上，多年來的預設模式一直是：

功利主義
非常強調「可能心智的空間」
「未對齊的優化器」、「迴紋針極大化者」、「失去光錐」
加上大量的「其他人都低估了毀滅機率（p(doom)）」

同樣，這些框架並非錯誤。但它們非常本土化於某一個部落，而那個部落並非真正掌握關鍵憲法和制度槓桿的部落。

從這個世界內部看，這一切都很正常：我們住在朋友所在的地方，我們用我們的方式說話，我們優化與其他「懂行」的人相處的環境。

從外部看，這看起來令人不安地像 HPMOR 裡的墓地場景：一個非常聰明的人，加上一屋子與他非常相似、共享他的先驗信念、且不擅長說「主公，您漏掉了一些巨大的東西」的人。

我必須明確我的主張。我不是說每個社群都有某種封閉性，而我們的只是略高於平均水平。我是說，考慮到這個社群為自己聲稱的使命和利害關係，將重心錨定在柏克萊/舊金山會產生一種異常糟糕的單一文化：

它系統性地邊緣化或過濾掉了那些我們需要的直覺（古典自由主義者、法治保守派、乏味的制度主義者、有東西可以失去的父母），並且
其周邊政治環境使得在社交上，將這些人視為同儕而非敵人需要付出高昂代價。

缺失的問題 #1：誰不在房間裡？

在那個總部/選址討論串中，人們對很多事情進行了深思熟慮：

這裡是一個能安靜思考的地方嗎？
人們會想住在這嗎？
這裡適合步行嗎？
對 LGBTQ 友好嗎？
生活成本、天氣、蚊子、壁虱如何？

不知為何，在 160 條評論中，幾乎沒人問：

如果我們這樣做，誰會不在這裡？
我們在超市、學校接送或晚餐時，幾乎永遠不會遇到哪類人？
我們是否能接受一個政治上屬於單一部落、非常富裕，且在種族、階級和世界觀上高度同質化的地點？

如果你觀察討論實際進行的方式，決策中心的展現目標函數似乎是：在符合內部人員文化品味的地方，最大化他們的認知自由，同時最小化不適感和衝突。

這是一個完全可以理解的人類目標。

但如果你的故事是「我們正試圖引導全人類的未來」，這顯然不是正確的目標。

在普通的知識社群中，柏克萊式的單一文化大多只會讓你損失一些穩健性和創造力。但如果你真的試圖在大規模上影響國家能力、憲法規範和市場，它會特別將你與那些掌握否決權的人隔離開來：法院、監管機構、政治家、嚴肅的金融保守派。這些正是能在現實世界中做出改變的人。

缺失的問題 #2：誰是我們的天然盟友？（以及為什麼 EconTalk 應該被視為一場測試）

讓我從一個具體案例開始。

當 Eliezer 參加 EconTalk（Russ Roberts 長期主持的經濟學播客）時，他走進了一個充滿以下人士的房間：

古典自由主義和右傾的經濟宅
那些整個知識信仰就是「不要中央計畫者、不要不受約束的主權者、法治與市場高於技術官僚」的人

如果你將 AI 風險翻譯成他們的語言，故事看起來是這樣的：

「我們正走在建造一個系統的軌道上，該系統實際上將成為一個高於選民、法院和市場的主權者或中央計畫者，然後將其與國家和少數幾家公司糾纏在一起。一旦發生這種情況，我們可能永遠無法解套。」

這正是古典自由主義者和法治保守派幾世紀以來訓練自己去憎恨的情境：

未經同意，不得產生新主權。
不得有不受約束的中央計畫者主宰價格、言論或結社。
不得將核心政府判斷權委託給不透明的機制。

你可能在很多方面不同意他們，但在「不要 AI 主權者/不要新中央計畫者」的框架下，古典自由主義者和法治保守派是你們的天然盟友之一。

古典自由主義者會反對廣泛的技術官僚擴權，但當替代方案是創造一個會永久破壞他們所關心的市場、財產權和法治的實質主權者時，他們會接受狹窄、目標明確的約束。

因此，當你獲得 EconTalk 的席位，卻仍然主要套用那套「未對齊優化器/迴紋針/宇宙級利害關係」的劇本時，錯失的機會不僅僅是我們失去了一些聽眾。而是我們甚至沒有嘗試向那些職業身份就是「阻止新主權者」的人推銷故事中「不要新主權者」的部分。我不是在事後批評 Yudkowsky 說話的內容；核心技術擔憂在我看來基本正確。我是說，考慮到這些擔憂，將 EconTalk 僅僅視為另一個發表慣常言論的場所，而不是一次招募天然盟友部落的刻意嘗試，這有力地證明了我們根本沒有進入聯盟建立模式。

這不僅僅是一次性的溝通錯誤；它證明了整個生態系統的指向：傾向於用自己的方言對自己說話，即使受眾已經不同。

缺失的問題 #3：要與他們合作需要付出什麼？

立足於柏克萊不僅無法幫助跨黨派對話，反而會主動破壞它。從那個視角看，任何古典自由主義/法治右翼的人通常只會以抽象概念或敵方戰鬥員的形象出現。他們是你飛過去進行一次性會面的對象，而不是你在派對上偶遇或在董事會中並肩而坐的人。

問題不僅在於人數劣勢，還在於被視為社交上的「放射性物質」。在許多與柏克萊相鄰的空間裡，古典自由主義者或法治保守派不僅僅是「我不同意的人」，而是「如果我把他們當作同儕對待，我會失去朋友的人」。如果你試圖建立這個聯盟，這正是錯誤的激勵梯度。

而且這種不對稱是雙向的。從他們那邊看，大多數古典自由主義/法治派人士接觸到的 AI 毀滅論，要麼是科幻隱喻，要麼是文化戰爭的噪音。他們的本能反應是假設你只是想在一個聽起來很嚇人的新藉口下，通過監管奪走他們的自由市場。因為你住在柏克萊、說話像柏克萊、從柏克萊招人，無論你是否大聲說出來，你都會立即被標記為「柏克萊自由派」。

他們沒有時間或背景去翻閱《序列》（Sequences）、LessWrong 和毀滅論播客，只為了弄清楚背後是否真的存在一個真實的「不要新主權者」問題。像 EconTalk 這樣的場合之所以罕見，正是因為那裡的受眾已經在仔細聆聽，並準備好將你視為一個嚴肅的思想者而非迷因。如果我們在這些少數地方沒有正確瞄準我們的訊息，我們就不該對跨黨派參與在其他地方基本失敗感到驚訝。

我目前看到的保守派外展工作並沒有真正讓我放心。我還沒有進行全面審查，也不想點名特定個人。雖然有一些光榮的例外，包括 Soares 自己嘗試認真對待像 J.D. Vance 這樣的人，儘管他的朋友們並不信任他們。但作為一個群體，我們大多時候說話的方式，聽起來仍像是我們在向一個刻板印象中的保守派解釋自己。這感覺像是那種我們真正需要的「齒輪級建模」與互動的早期、拙劣的草稿。如果有人能向我展示做得更好的例子，我會非常高興。

我認為更深層的問題在於，這個世界裡幾乎沒有人擁有「模擬右翼最佳狀態」並將右翼思想家視為平等的許可結構。這樣做意味著要像一個嚴肅的保守派那樣說話，時間長到足以在社交上被重新編碼為「他們的一員」，承認他們在某些深刻的事情上基本正確（例如權力集中且不受約束的危險），並可能在那些聞起來像「新主權者」的計畫上給予他們真正的否決權。在許多與柏克萊相鄰的空間裡，這是失去朋友、資助和地位的好方法。在實踐中，這意味著保守派只是作為訊息傳遞的目標或刻板印象出現，而不是作為其直覺能真正改變計畫的合作夥伴。

從外部看，情況是這樣的：我們需要其直覺的部落之一，卻因為他們處於柏克萊的奧弗頓之窗（Overton window）之外，而明顯地未被充分對待。

「但我們不能全部搬到華盛頓/波士頓/隨便哪裡……」

我已經能聽到一些合理的反駁：

我們不能直接把每個人連根拔起。
我討厭冬天。
我們沒有能力在華盛頓從零開始重建一個社群。
我不擅長和那些人打交道；應該由別人來做。

全都是事實。全都是人之常情。而且這聽起來完全就像是那種讓墓地保持舒適，同時哈利正在策劃逃跑的自我辯解。

我不是說每個人都必須搬到華盛頓，或者你現在不住在波士頓就是個壞人。

我是說，考慮到利害關係，如果房間裡沒有人明確負責詢問以下問題，那是不可接受的：

如果我們調整框架，誰是我們的天然盟友？
那些人住在哪裡、在哪裡工作？
我們如何用他們的語言，而不是我們的語言與他們對話？

如果每一次高槓桿的機會（EconTalk、聯邦黨人學會式的受眾、華爾街日報式的受眾）都被僅僅視為另一個發表慣常言論的場所，而不是「這是一個擁有不同方言的不同免疫系統；為此進行優化」，那也是不可接受的。

如果我們真的相信我們所寫的利害關係，那麼我們在哪裡以及我們靠近誰，就不是一個中立的美學選擇。它是問題陳述的一部分。

寓言，指向我們自己

回到 HPMOR。

那個場景中的問題不在於佛地魔傲慢。而在於他身邊沒有人會說：「主公，這是您站在那裡看不見的破綻。」

我不期望 MIRI、LessWrong 或更廣泛的安全圈裡的每個人都同意我的政治觀點或我的聯盟策略。

但我確實期望，考慮到我們所描述的利害關係，房間裡應該有人能夠說出：

我們危險地過度索引於一個城市、一個階級、一個部落。
我們沒有認真地與那些可能將 AI 風險視為對個人自主權威脅的人對話。
我們正在優化舒適度，而非聯盟。

如果這種對話正在發生，那也是進行得非常安靜。從外部看，這個生態系統的重心看起來仍然是：

柏克萊/灣區作為不容置疑的中心
在古典自由主義受眾面前一再錯失機會
以及一場對萊姆病的關注遠多於「我們是否會定期見到或與那些特質與我們不同的人合作」的選址搜尋

我不認為我們愚蠢或邪惡。我認為我們正坐在一間變得比我們任何人願意承認的都更像那個墓地的房間裡。

這篇文章是我試圖不成為另一個沉默的食死人。

我真正想要的是什麼

這不是在要求純潔性或自我犧牲。這是要求在「什麼算作顯然重要的事情」上做出具體的、乏味的改變：

改變 1：將「不要 AI 主權者/不要新中央計畫者」作為第一級框架。

在與古典自由主義和法治受眾對話時，這應該是標題，而不是腳註。強調個人自主權潛在的喪失。

改變 2：指派專人明確負責跨部落聯盟。

不是那種「看感覺」的外展，而是：

哪些機構和人憎恨不受約束的主權者？
誰負責定期用他們的語言與他們對話？
誰負責傾聽他們的約束條件？

改變 3：將柏克萊泡沫視為一種負債，而非中立的背景。

這並不意味著明天就燒掉一切搬家。它的意思是：

承認這種特殊的單一文化特別不適合我們需要的聯盟。
尋找那些先驗信念與該單一文化格格不入的人，並給予他們真正的發言權。
警惕那些在方便地最大化某一部落舒適度的同時，最小化與其他人接觸的決定（如總部搜尋）。

改變 4：獎勵那些說「你漏掉了某些東西」的人，而不僅僅是獎勵那些做更多毀滅數學的人。

如果有人走進房間說「你根本沒有在和這些人對話」，這不應該是一個奇怪的社交舉動。它應該被視為一種公認的貢獻。

如果你要在存在風險的對話中承擔實質上的領導角色，那麼說「我不擅長那種社交認知」不能成為故事的終點。你不需要粉飾太平，但你確實需要足夠了解其他心智運作的方式以打動他們，或者，如果你做不到，那就授權給能做到的人。

如果有人認同核心的生存風險故事並誠心想幫忙，「他們是共和黨人/不是我們部落的人/沒通過這項社交試金石測試」不能成為將他們視為放射性物質的有效理由。只有當他們想「幫忙」的方式會真正損害使命時，你才有權疏遠誠心的助手。

我認為這一切之所以困難，有一個非常人性化的原因。對於這個世界裡的許多人來說，童年和早期職業生涯都伴隨著一個穩定、隱含或明確的信息：他們身上的某些東西是錯誤的，必須改變。當他們終於找到一個讓他們的怪異變得正常、讓他們的熱情受到重視的文化時，他們當然會緊緊抓住它，並對「你需要改變」產生抗體。我不是在要求任何人輕易放棄這些。我是說，如果我們認真對待這個社群為自己聲稱的工作，那麼有些改變也必須發生在我們這邊：在我們居住的地方、我們僱用的人、我們視為同儕的人，以及我們分享權力的對象。

最後：如果那個 HPMOR 場景不僅僅是一個有趣的性格刻畫，那麼現實世界版本的那個問題（「我漏掉了什麼」）必須包括「誰不在這個房間裡？」以及「我甚至沒有嘗試爭取誰？」

現在，誠實的答案看起來太像是：古典自由主義者、法治保守派、生活方式截然不同的人，以及任何不住在柏克萊輕鬆車程範圍內的人。

我們寫了這個寓言。請讓我們不要活在其中。

—— 法律顧問先生（Mr. Counsel）

又及：為了極其明確起見，我不認為 Eliezer 是佛地魔，也不認為 MIRI 是食死人。Eliezer 站在光明的一方；這正是這篇評論之所以重要的唯一原因。我之所以能使用這個寓言，唯一的原因是他在一開始就寫出了 HPMOR，而且寫得足夠好，以至於它成為了思考這些失敗模式的共同語言。所有的功勞都歸於 Yudkowsky 給了我們這個故事；我的主張是，在這一軸線上，那些學得最好的人在自己的生活中還沒有把它推得足夠遠。這篇文章只是我非常遲緩地試圖詢問：「主公，您為何要把魔杖留給哈利？」

又又及：我特別感興趣對我論點的反駁，特別是我是否高估了「柏克萊泡沫」效應相對於其他瓶頸的影響，以及是否有人在古典自由主義受眾中使用了「不要新主權者」的框架（以及他們是否取得了成功）。

— Lesswrong

你的個人知識庫

AI安全領域的柏克萊泡泡與我們未曾嘗試招募的盟友