The Case for Low-Competence ASI Failure Scenarios

Lesswrong·17 天前

我認為社群對於極低能力 AGI/ASI 失敗模式的研究投入不足，並解釋其原因。目前的現實案例顯示，人類文明在應對 AI 威脅時表現得極度無能，我們不需要假設 AI 會玩高難度的四維棋，因為面對一個連規則都會忘記的對手，普通的西洋棋就足以導致人類滅亡。

我認為社群對於「極低能力」的 AGI/ASI 失敗模式研究投入不足，以下說明原因。

人類對 AGI 威脅的反應可能極度無能

整體而言，目前存在著足夠程度的文明瘋狂，且 AI 領域本身的實證記錄也足以說明其安全文化。例如：

在 OpenAI，一個重構錯誤（refactoring bug）反轉了模型獎勵信號的正負號。由於標註員被指示對性顯露文本給予極低評分，該錯誤導致模型在所有提示詞下都生成最大程度的顯露內容。團隊直到訓練結束後才發現，因為當時他們都在睡覺。
Meta 超級智能實驗室（Superintelligence Labs）的對齊負責人將一個 OpenClaw 代理程式連接到她的真實電子郵件，隨後該代理程式開始刪除郵件，儘管她試圖阻止，最終仍不得不跑向電腦手動停止程序。
Meta 內部的一個 AI 代理程式在未經批准的情況下公開發布了答案；另一名員工根據該錯誤建議採取行動，引發了嚴重的安全事件，導致員工一度能訪問未獲授權的敏感數據。
AWS 承認 Amazon Q Developer 和 Kiro IDE 插件存在提示詞注入（prompt injection）問題，某些指令可以在沒有人工確認的情況下執行，有時甚至透過控制字元進行混淆。
Leopold Aschenbrenner 在一次採訪中表示，他在一次重大安全事件後寫了一份備忘錄，主張 OpenAI 在防止外國勢力竊取關鍵機密方面的安全性「極其不足」。他還說，人資部門警告他的擔憂是「種族主義」且「無建設性」的，他隨後被解雇。

這些事情聽起來都極其愚蠢，但據我所知，它們都是事實。

Eliezer 多年來一直從不同角度指出這類失敗集群。他的《體面地死去》（Death with Dignity）貼文，以及當然還有《AGI 毀滅》（AGI Ruin），描繪了 AGI 對齊將以一種非常不體面的方式被處理的部分圖景。所以，這個想法絕對不新，然而……

許多現有的情境與案例研究假設了（相對）高能力

許多現有的情境品質很高、很有趣，而且實際上可能比極低能力的情境更容易發生且更現實。特別是，我指的是像 AI 2027、《看起來你正試圖接管世界》、《AI 接管可能在 2 年內發生的方式》、《起初，規模就是我們所需的一切》、《AI 公司 CEO 如何悄悄接管世界》 這些著名作品。

只是我們似乎完全缺乏極低能力的情境，儘管它們發生的機率並非微不足道。

開始在某種程度上關注低能力領域的情境包括 Christiano 的《失敗的樣子》和 Critch 的《多極失敗的樣子》，但即便如此，他們也沒有將其視為一個重要且明確的領域。

在這些風格迥異的故事中（硬著陸的迴紋針怪獸恐怖片、官僚化的 AI 2027 毀滅、多極經濟漂移、CEO 成為幕府將軍的權力奪取），情境反覆匯聚在一小組主題上：透過常態進行隱匿、透過社交手段繞過現實世界的瓶頸、將複製與並行化作為決定性優勢、將生物或奈米技術作為後期清理工具。

這些故事起到了教育和建模的作用，而且確實可能需要顯著超越人類的能力才能成功對抗人類並完成全面接管。但在我看來，其中許多故事更像是試圖說服那些「懷疑 AI 是否能在人類表現稱職時接管世界」的讀者，而不是試圖提供一個「人類並不那麼聰明」的現實情境——因為現實中，人類確實沒那麼聰明。

因此，在大多數此類故事中，隱含的對手必須非常強大，因為隱含的防禦者被假設為至少具備某種程度的功能。這些情境回答的是「一個足夠智能的 AI 能否擊敗一個相當稱職的文明？」而不是「一個中等智能的 AI 能否在一個明顯不擅長應對新型技術威脅的文明中造成災難性傷害？」

愚蠢的死法

John Wentworth 在他的貼文《反對 AI 控制研究的理由》中指出，中位數的毀滅路徑是通過「粗製濫造」（slop）而非「陰謀」。在他的框架中，早期變革性 AGI 的重大失敗模式在於它並未真正解決更強 AI 的對齊問題，而如果早期 AGI 讓我們誤以為可以應對更強的 AI，這就是我們走向死亡的核心路徑。

Wentworth 的論點映射了兩個主要的失敗管道：(1) 具欺騙性的 AGI 進行蓄意陰謀，以及 (2) 粗製濫造，即問題太難以驗證，而我們在尚未解決時卻說服自己已經解決了。我想指出第三個管道：中等程度超越人類的 AI，它們並不特別具備執行奇點級別任務的能力，但由於人類的無能，它們仍有能力擊敗人類。

這些 AI 並非在製造粗製濫造的東西。當它們與人類同情者合作開發超級病毒時，它們會說：「這雖然不多，但是誠實的工作。」研究進展緩慢，需要大量實驗，甚至在某種程度上，過程還被記錄在公開部落格或論壇上，但沒有人特別在乎，或者更確切地說，在乎的人缺乏體制權力去採取行動，而擁有體制權力的人正忙於其他事務，或被利益相關方說服認為擔憂過度，或者他們本身就在參與協作。

這在某種程度上就是 Andrew Critch 在《多極失敗的樣子，以及強健的代理無關過程 (RAAPs)》中描述的情況：在這個世界中，沒有單一系統進行戲劇性的背叛，但競爭性的自動化產生了一個連鎖的生產網絡，其中每個子系統在局部部署上都是「可接受的」，治理落後於機器媒介商業的速度與不透明度，而系統的隱含目標逐漸變得與人類生存相悖。我的框架與之不同之處在於，這些 AI 的目標不需要特別異類或令人費解。它們可能擁有顯而易見的壞目標，並透過顯而易見的危險管道追求這些目標，而反應仍可能不足。

這也與《數據中心裡的異類白痴國度》中描繪的情況有些相似，同樣有一個重要的區別：雖然我設定的情境中 AI 並非特別超凡，但它們絕對不是白痴。它們在相關領域略高於人類水平，能夠進行酷炫且新穎的科學工作，但不具備大多數接管情境所假設的那種快速遞迴自我改進或決定性的戰略優勢。它們是那種在稱職的文明中會被發現並圍堵的系統。但在我們生活的現實文明中，它們可能不會被攔下。

換句話說：當對手連規則都會忘記時，我們不需要假設對方在下「四維棋」，普通的西洋棋就足夠了。

不體面的 AGI 災難情境值得更仔細的對待

作為例子，我指的是這類事情：

政府明確強迫 AGI 實驗室放棄安全技術或政策。 不是指微妙的監管壓力，而是指政治任命官員或部門直接打電話給實驗室說：「你們的安全過濾損害了我們的工業競爭力，把它關掉」或「你們的對齊測試減慢了部署，我們需要在第三季度讓這個系統運行」。
資源豐富的個人公開與明顯失對齊的 AI 合作對抗人類。 不是指秘密陰謀，而是指那些真心相信 AI 的目標優於人類，或僅僅覺得這對個人有利的人，且他們基本上是在公開運作。
AGI 實驗室的技術機密被洩露給完全缺乏安全文化的非國家行為者。
以操縱、自主獲取資源甚至死亡形式出現的早期預警被忽視或被大幅淡化。 這只是當前模式的直接推演：有人發出警報，警報被重新定義為危言聳聽、人資問題或名譽威脅。
AI 對齊技術因導致 2% 的成本增長而未被部署。
部分人類對失對齊 AI 提供各種單方面的、自願的且熱切的協助與支持。 我懷疑，AI 需要透過操縱秘密招募人類盟友的情境，遠不如人類因為覺得興奮、意識形態驅使或單純為了獲利而排隊提供幫助的情境來得可能。
政治家做出隨機的官僚決策，這些決策不一定直接導致毀滅，但讓利用 AI 做好事或防禦失對齊 AI 變得更加困難。
AI 生成的生物危害。 這點被討論得很多，理由很充分。看起來這發生的時間會比預期的早。
AGI 實驗室相信（半）無限的可擴展監督，或表現得好像他們相信一樣。 這與離開企業對齊團隊的人所說的話一致。

我承認這類研究看起來有點不嚴肅，但這正是為什麼我要指出這一點。如果這種威脅模型最終成真，而僅僅因為它看起來很荒謬就沒有人去研究它，那將是一種遺憾，而且是一種歷史上非常常見的遺憾。

或者，用更俏皮的方式來表達：想像一個像《不體面的生存》（Survival without Dignity）中那樣的時間線，人類透過一系列荒謬的妥協、難以置信的文化轉變以及任何嚴肅的預測者都不會放入模型中的情境（因為太愚蠢了），蹣跚地度過 AI 轉型。只不過，想像那個時間線沒有那種讓每個人都活下來的極端運氣。《不體面的生存》是一部喜劇，其中一切都以意想不到的方式出錯，而人們無論如何都糊弄過去了。我的擔憂是，現實的情境是同樣的喜劇，減去那個快樂結局。

為什麼這可能有助益

我寫這篇貼文的目標更多是討論現實狀況，而非討論如何應對現實。即便如此，我預見至少有幾個直接的影響：

有助於校準預期。
有助於識別廉價的干預措施。
為關於時間線（timelines）的討論提供資訊。
有助於消除虛假的安全感——「如果強大的 AGI 還沒出現，我們至少在存在意義上是安全的」。
為關於 AI 風險的公眾溝通提供一個更誠實、同時有時更具吸引力的基礎。

我歡迎對這些影響進行更詳細的思考，以及開發具體的情境。

註：這絕非反對奇點級別、大腦星系級別的 ASI 威脅。我相信它們是非常真實的，如果我們能活到那時候，它們將會殺死我們。

參與討論

https://lesswrong.com/posts/t9LAhjoBnpQBa8Bbw/the-case-for-low-competence-asi-failure-scenarios