中等強國如何阻止超級人工智能的發展

Lesswrong·

我們提出一項國際協議,讓中等大國能透過貿易限制、反應性威懾及預警性自衛權,共同遏止人工超智慧的開發。藉由組成代表全球 20% 國內生產總值與人口的聯盟,中等大國可以迫使大國加入驗證框架,以防止滅絕風險及贏家全拿的戰略優勢。

在本論文中,我們針對中等強國(middle powers)如何透過具約束力的國際協議聯合起來,並在不假設大國(superpowers)初步合作的情況下,達成防止人工超智慧(ASI)開發的目標提出了建議。

您可以在此閱讀論文:asi-prevention.com

在我們先前的著作《模擬人工智慧地緣政治》(Modelling the Geopolitics of AI)中,我們指出中等強國在 ASI 競賽中面臨著危險的困境。由於缺乏在競賽中實質競爭或單方面影響大國停止開發的手段,它們可能需要訴諸一種我們稱為「附庸的賭注」(Vassal’s Wager)的策略:與某個大國結盟,並希望在該大國獲得決定性戰略優勢(DSA)後,其主權仍能受到尊重。

當然,這要求大國必須避開強大 AI 系統所帶來的滅絕風險,而中等強國對此幾乎沒有控制權。因此,我們認為集體威懾並防止任何行為者(包括大國)開發 ASI,符合大多數中等強國的利益。

在本論文中,我們設計了一項國際協議,旨在使中等強國能夠形成一個有能力達成此目標的聯盟。我們提議的協議是對「驗證框架」的補充,若該框架能獲得廣泛採用(例如 MIRI 最新提案 的第四至第九條),即可防止 ASI 的開發。

我們的提案試圖回答以下問題:在不假設初步有廣泛參與的情況下,一個行為者聯盟該如何施壓他人加入此類驗證框架?

關鍵機制

貿易限制。 該協議對 AI 相關的硬體和軟體實施全面的出口管制,並對非成員國的 AI 服務實施進口限制,其先例涵蓋從《化學武器公約》到《不擴散核武器條約》。

反應式威懾。 當行為者在驗證框架之外進行日益危險的 AI 研發時,將觸發升級的懲罰——從加強出口管制到定向制裁、廣泛禁運,最終達到完全的經濟孤立。

先發制人的自衛權。 聯盟承認極其危險的 AI 研發構成等同於武裝襲擊的迫在眉睫威脅,允許成員國在極端情況下主張自衛權。

同步升級。 該協議將建立 AI 研發紅線以及與每次違規掛鉤的反制措施。這些措施旨在確保威懾手段由協議的所有參與者以可預測的方式同步觸發。這向協議外的行為者明確了哪些門檻不可跨越,同時確保受罰行為者的任何報復行動都由聯盟所有成員共同分擔。

儘管這些措施代表了對既有慣例的重大背離,但 AI 的獨特特性證明了其合理性。核武器可以透過「相互保證毀滅」(MAD)實現穩定平衡,但 AI 研發可能導致「贏家通吃」的結果。任何將自動化 AI 研發中所有關鍵瓶頸自動化的行為者,都將獲得不可逾越的 AI 能力優勢:其對其他行為者的領先地位只會隨著時間推移而擴大,最終導致決定性的戰略優勢。

採納路徑

我們建議,一旦簽署國代表了全球至少 20% 的 GDP 和至少 20% 的人口,該協議即告啟動。這一門檻足以對大國施加有意義的壓力;同時,在不假設任何大國在初期階段支持該倡議的情況下,這也是可以達成的。

這一門檻使中等強國能夠建立參與該安排意願的共同認知,而不會立即與違反紅線的行為者對抗,也不會在聯盟影響力不足的階段支付過高的代價。

隨著聯盟的壯大,網絡效應可能會加速採納。貿易限制使得加入成員國變得越來越有吸引力,而不加入的代價則越來越高。

最終,競爭大國之間的平衡可能會從競賽轉向合作:每個大國都可以透過加入聯盟來嚴重削弱其他大國,使最後的堅持者面臨與世界其他地區完全的經濟和戰略孤立。如果能及早達成這一點,所有其他相關行為者很可能會效仿並加入驗證框架。

緊迫性

該協議的有效性關鍵取決於時機。較早採納可能僅透過外交和經濟壓力就能達成。隨著 AI 研發走向自動化,大國可能會確信自己能藉此獲得決定性戰略優勢。若真如此,則可能需要採取更極端的措施。

一旦大國相信 ASI 已觸手可及,並願意承受驚人的暫時代價以換取全面勝利的機會,屆時即使是全面的經濟孤立也可能不足以勸阻它們,可能需要更極端的措施。

其利害關係——包括潛在的人類滅絕、單一行為者的永久全球統治,或毀滅性的大國戰爭——證明了以歷史上對待核擴散的緊迫感來處理這一挑戰是合理的。我們必須認識到,AI 研發可能需要比人類以往實現的更全面的國際協調。

Lesswrong

相關文章

  1. 新報告:防止人工超級智能過早誕生的國際協議

    5 個月前

  2. 人工智慧發展的地緣政治模型

    6 個月前

  3. 防止協議國家的隱蔽性超人工智能發展

    5 個月前

  4. 每年投入五千萬美元,爭取一成機會禁止人工超智慧

    1 天前

  5. 以每年五千萬美元預算防止人工超智慧導致的人類滅絕

    1 天前