我們是否已經輸了？第一部分：2024 年的計畫

Lesswrong·大約 4 小時前

我從 2026 年初的角度反思人工智慧安全的現狀，概述了我在 2024 年所理解的勝利計畫，包含爭取緩衝時間、開發強大 AI 並提取有用認知勞動力，以及將 AI 協助轉化為技術與政策解決方案。

當我花時間反思 2026 年初人工智慧安全（AI Safety）的現狀時，一個問題似乎無法迴避：作為 AI 安全社群，我們是否已經輸了？也就是說，我們是否已經過了那個臨界點，在那之後，災難變得既有可能發生，且實際上超出了我們的控制範圍？

劇透：正如你可能從貝里奇標題定律（Betteridge’s Law）中猜到的，我對標題問題的回答是「否」。但儘管如此，這個問題的顯著性對我來說仍然非常值得注意，並反映出對未來更為負面的看法。

今天，我將首先解釋我在 2024 年所理解的「計畫」。

明天，我將解釋為什麼這個問題對我來說顯得如此突出，以及為什麼情況看起來比兩年前（2024 年）我反思這個問題時要糟糕得多。這些原因包括：我們的許多治理和政策計畫都失敗了（其方式反映出我在 2024 年的幼稚）、AI 的進展正沿著更激進的時間表進行、社群基本上已經「全押」在 Anthropic 並失去了獨立性、一些更具野心的技術研究計畫未能取得回報，以及美國國內和國際的政治局勢都相當惡劣。

接著，在後天，我將寫下為什麼我認為答案是「否」。首先，與我 2024 年的觀點相比，有一些樂觀的理由，包括：在「邊做邊試」（wing-it）式的經驗對齊（empirical alignment）方面的情況比預期好得多、Anthropic 似乎更有可能取得並維持領先地位，而且我認為非美國政府更有可能在 AI 發展過程中擁有影響力。2024 年的許多希望理由仍然適用，包括幾乎沒有人想死於失控的 AI，以及美國公眾對 AI 和大型科技公司普遍持極度懷疑態度。我也認為在許多負面更新中存在不少一線生機（正如俏皮話所說，「有時壞事就是好事」）。最後，我將簡要概述我認為像我這樣的人仍能發揮作用的一些方式，我希望在不久的將來將其擴展成一篇更長的文章。

2024 年的計畫

這是我在 2024 年中期所理解的「勝利」計畫簡述：

爭取時間。 領先的方法是使用自願性條件承諾（RSP）和紅線式的治理干預。一個遙遠且非首選的替代方案是單純在 AI 競賽中「贏」得足夠徹底，從而擁有數個月的領先時間可以消耗。
開發強大的 AI 並從中提取有用的認知勞動力。 這涉及：1. 製造強大（但不過於強大）的研究型 AI，以及更重要的 2. 開發對齊或控制 AI 的技術。即使這些技術是權宜之計且尚未被證明具有擴展性（例如：可擴展監督，但不是那麼具擴展性）也沒關係，它們只需要能擴展到足以將研究生產力提高 2 到 3 倍的模型即可。
尋找將 AI 輔助轉化為技術和政策解決方案的方法。 假設你無法長期停止 AI 的開發，你就必須在爭取到的時間內利用 AI 的認知勞動力，來真正讓通用人工智慧（ASI）進展順利。我認為在這三個步驟中，投入最少心力的是弄清楚計畫的這一部分——例如，許多人希望我們可以直接「邊做邊試」一路走到底。

該計畫背後的一些關鍵假設包括：

在不久的將來停止 AI 的開發是不切實際的，但我們或許能夠獲得政治意願來達成條件性安全承諾，從而在情況變得「真正」危險時允許暫停。
我們既沒有時間也沒有能力靠自己解決對齊的技術或問題；我們需要利用 AI 輔助來完成。
我們可以開發出技術，從相對較弱的 AI 系統中提取大量有用的勞動力，即使這些技術無法推廣到更強大的系統。
我們可以足夠精確地定義技術問題，以便將 AI 系統導向這些問題，即使這些 AI 系統僅在易於定義或易於檢查的任務上「真正」有效。

這建議了以下方法：

大力投資 Anthropic，將其作為進行技術研究的場所、開創自願承諾的場所，以及獲得投資「發言權」的方式。
推動將評估（evals）作為人才投資的領域。這主要屬於計畫中「爭取時間」的部分，既是聚集政治意願的一種方式，也是實施自願性條件承諾的必要條件。
開發適用於當前系統的經驗對齊/控制技術。
投資於探索目前尚不可行的方法，例如機械解釋性（mechanistic interpretability），我們未來可能會將 AI 的力量投入其中。

在很大程度上，社群確實執行了這個計畫；社群在上述每種方法中都投入了巨大的努力。

但遺憾的是，正如我明天將寫到的，並非一切都按計畫進行。

參與討論

https://lesswrong.com/posts/tjZWbmuCE9tjYQsrf/have-we-already-lost-part-1-the-plan-in-2024