我們是否已經失敗了？第二部分：走向毀滅的原因

Lesswrong·大約 3 小時前

我反思了 2026 年初人工智慧安全的現狀，並列舉了企業承諾失效、技術進步加速以及美國政府對人工智慧安全持敵對態度等原因，解釋了我對 2024 年計畫感到更加悲觀的理由。

這篇文章是為 Inkhaven Residency 快速撰寫的。

當我花時間反思 2026 年初人工智慧安全（AI Safety）的現狀時，一個問題似乎無法迴避：作為 AI 安全社群，我們是否已經輸了？也就是說，我們是否已經過了臨界點，在此之後，AI 毀滅（AI doom）既變得很有可能，且實際上已超出我們的控制範圍？

劇透：正如你可能從貝特里奇標題定律（Betteridge’s Law）中猜到的，我對標題問題的回答是「否」。但儘管如此，這個問題的顯著性對我來說仍非常值得注意，並反映出對未來更為負面的看法。

昨天，我闡述了我在 2024 年所理解的「計畫」。

今天，我將解釋為何我對 2024 年的計畫變得更加悲觀。（而明天，我將討論為什麼我認為答案仍然是「否」。）

更多毀滅理由

公司的（單方面）自願承諾似乎難以維持

在我們最初的 RSP 部落格文章中，我們勾勒了 RSP（負責任擴展政策）的願景，即公司「承諾將擴展規模掛鉤於具體的評估和經驗觀察」，其中「在我們確實看到危險能力的情況下，我們應該預期停止 AI 開發；而在對危險能力的擔憂被證明是過度擔憂的情況下，則繼續開發。」我認為從經驗上看，這種 RSP 的願景似乎不太可能奏效。

首先，繼 Anthropic 之後的許多前沿安全政策在嚴格程度或規範明確度上都大幅降低。DeepMind 和 OpenAI 的政策可能是次好的，但在繼續部署的可接受條件方面，它們比 Anthropic 寬鬆得多。（此外，OpenAI 的 Preparedness 團隊似乎也經歷了不少常見的 OpenAI 安全人員離職潮。）許多公司的 RSP 完全沒有提到實際終止部署，而 XAI 的政策在 2026 年初可能就已經被違反了。

甚至連 2024 年與 METR 合作開創 RSP 先河的 Anthropic，也更新了其 RSP，使其比當初概述的內容寬鬆了許多。

AI 進展似乎與更快的時間線一致

在 2024 年，人們感覺 AI 進展很快，但對於究竟有多快並沒有很好的概念。我認為到 2026 年，情況已經相當清楚：AI 的進展速度之快，使我們無法排除到 2028 年實現「接近全自動化編碼」的可能性，更不用說 2030 年或 2035 年了。

首先，最初於 2025 年 3 月發布的 METR 圖表發現，AI 能夠完成的任務長度呈現一致的指數趨勢，而這一趨勢在隨後的一年中得以維持（甚至加速）：

我們還看到了 AI 編碼助手的海量使用，以及領先實驗室投資規模的大幅擴張，這僅僅是進展神速的另外兩個跡象。

就我們的計畫需要更多時間而言，更快的時間線絕對是個壞消息。

雄心勃勃的技術研究（很大程度上）尚未取得回報

在 2024 年，（雄心勃勃的）機械解釋性（mechanistic interpretability）雖有爭議，但仍是主要的投資領域。當時還有許多其他雄心勃勃的 AI 安全研究議程，旨在嚴謹地解決 AI 對齊問題的重要部分，例如 ARC 的 ELK/啟發式論證議程（Heuristic Arguments Agenda）、奇異學習理論（Singular Learning Theory）或非代理型 AI 科學家。雖然這些議程中的每一項工作都在持續進行，但沒有一個議程真正產生了巨大的回報。

社群的投資很大程度上集中在 Anthropic

在 2024 年，Anthropic 可能是全球所有組織中，技能加權後的 AI 安全人才最大消耗者。然而，當時它還只是佔據相對多數，而非絕對多數。

我認為在 2026 年，Anthropic 顯然消耗了技能加權後 AI 安全人才的絕大部分。這本身並不一定是件壞事：就「讓 Anthropic 獲勝」計畫是擁有餘裕去投資競爭力較弱但更安全的方法的主要途徑而言，這幾乎是必然發生的。但就 Anthropic 作為一個組織存在問題而言——例如，在 AI 安全的關鍵問題上出錯，或受利潤或地位動機驅動而產生動機性思維，或無法有效利用邊際人才——那麼從社群的角度來看，這顯然是一件壞事。

無論這在淨效應上是好是壞，我認為由於 Anthropic 的商業成功（以及 OpenAI 的幾波人才流失），AI 安全社群在 Anthropic 之外幾乎沒有獨立的存在，這仍然令人感到遺憾。

現任美國政府從 AI 安全的角度來看有許多惡劣特質，並明確反對「AI 安全」

11 月 5 日，當我看到初步選舉結果出來時，我心想，就 AI 治理而言，我們現在進入了「困難模式」。考慮到之後發生的一切，我認為我的評估相當準確。

許多我認為對國內 AI 治理有積極意義的進展，都被現任美國政府明確反對或撤銷。現任美國政府還採取了許多行動，使 AI 安全方面的國際合作變得更不可能，包括與美國許多現有盟友對抗。此外，政府的關鍵成員明確反對 AI 安全（有些人甚至散布瘋狂的陰謀論，聲稱所有的 AI 安全都是 Anthropic 企圖進行監管俘虜的手段）。

總體而言，這屆政府一直表現得極其愚蠢、腐敗且混亂。（最近的一個例子是，將 Anthropic 指定為供應鏈風險，以此作為一種（失敗的）談判策略。）

參與討論

https://lesswrong.com/posts/hefTFru3bCw2NkpKS/have-we-already-lost-part-2-reasons-for-doom