我們是否已經輸了?第一部分:2024 年的計畫
我從 2026 年初的角度反思人工智慧安全的現狀,概述了我在 2024 年所理解的勝利計畫,包含爭取緩衝時間、開發強大 AI 並提取有用認知勞動力,以及將 AI 協助轉化為技術與政策解決方案。
為 Inkhaven Residency 快速撰寫。
當我花時間反思 2026 年初人工智慧安全(AI Safety)的現狀時,一個問題似乎無法迴避:作為 AI 安全社群,我們是否已經輸了?也就是說,我們是否已經過了那個臨界點,在那之後,災難變得既有可能發生,且實際上超出了我們的控制範圍?
劇透:正如你可能從 貝里奇標題定律(Betteridge’s Law) 中猜到的,我對標題問題的回答是「否」。但儘管如此,這個問題的顯著性對我來說仍然非常值得注意,並反映出對未來更為負面的看法。
今天,我將首先解釋我在 2024 年所理解的「計畫」。
明天,我將解釋為什麼這個問題對我來說顯得如此突出,以及為什麼情況看起來比兩年前(2024 年)我反思這個問題時要糟糕得多。這些原因包括:我們的許多治理和政策計畫都失敗了(其方式反映出我在 2024 年的幼稚)、AI 的進展正沿著更激進的時間表進行、社群基本上已經「全押」在 Anthropic 並失去了獨立性、一些更具野心的技術研究計畫未能取得回報,以及美國國內和國際的政治局勢都相當惡劣。
接著,在後天,我將寫下為什麼我認為答案是「否」。首先,與我 2024 年的觀點相比,有一些樂觀的理由,包括:在「邊做邊試」(wing-it)式的經驗對齊(empirical alignment)方面的情況比預期好得多、Anthropic 似乎更有可能取得並維持領先地位,而且我認為非美國政府更有可能在 AI 發展過程中擁有影響力。2024 年的許多希望理由仍然適用,包括幾乎沒有人想死於失控的 AI,以及美國公眾對 AI 和大型科技公司普遍持極度懷疑態度。我也認為在許多負面更新中存在不少一線生機(正如俏皮話所說,「有時壞事就是好事」)。最後,我將簡要概述我認為像我這樣的人仍能發揮作用的一些方式,我希望在不久的將來將其擴展成一篇更長的文章。
2024 年的計畫
這是我在 2024 年中期所理解的「勝利」計畫簡述:
- 爭取時間。 領先的方法是使用自願性條件承諾(RSP)和紅線式的治理干預。一個遙遠且非首選的替代方案是單純在 AI 競賽中「贏」得足夠徹底,從而擁有數個月的領先時間可以消耗。
- 開發強大的 AI 並從中提取有用的認知勞動力。 這涉及:1. 製造強大(但不過於強大)的研究型 AI,以及更重要的 2. 開發對齊或控制 AI 的技術。即使這些技術是權宜之計且尚未被證明具有擴展性(例如:可擴展監督,但不是那麼具擴展性)也沒關係,它們只需要能擴展到足以將研究生產力提高 2 到 3 倍的模型即可。
- 尋找將 AI 輔助轉化為技術和政策解決方案的方法。 假設你無法長期停止 AI 的開發,你就必須在爭取到的時間內利用 AI 的認知勞動力,來真正讓通用人工智慧(ASI)進展順利。我認為在這三個步驟中,投入最少心力的是弄清楚計畫的這一部分——例如,許多人希望我們可以直接「邊做邊試」一路走到底。
該計畫背後的一些關鍵假設包括:
- 在不久的將來停止 AI 的開發是不切實際的,但我們或許能夠獲得政治意願來達成條件性安全承諾,從而在情況變得「真正」危險時允許暫停。
- 我們既沒有時間也沒有能力靠自己解決對齊的技術或問題;我們需要利用 AI 輔助來完成。
- 我們可以開發出技術,從相對較弱的 AI 系統中提取大量有用的勞動力,即使這些技術無法推廣到更強大的系統。
- 我們可以足夠精確地定義技術問題,以便將 AI 系統導向這些問題,即使這些 AI 系統僅在易於定義或易於檢查的任務上「真正」有效。
這建議了以下方法:
- 大力投資 Anthropic,將其作為進行技術研究的場所、開創自願承諾的場所,以及獲得投資「發言權」的方式。
- 推動將評估(evals)作為人才投資的領域。這主要屬於計畫中「爭取時間」的部分,既是聚集政治意願的一種方式,也是實施自願性條件承諾的必要條件。
- 開發適用於當前系統的經驗對齊/控制技術。
- 投資於探索目前尚不可行的方法,例如機械解釋性(mechanistic interpretability),我們未來可能會將 AI 的力量投入其中。
在很大程度上,社群確實執行了這個計畫;社群在上述每種方法中都投入了巨大的努力。
但遺憾的是,正如我明天將寫到的,並非一切都按計畫進行。