長期風險中心:2025年年度回顧與2026年募款

Lesswrong·

長期風險中心(CLR)回顧了我們在 2025 年的領導層過渡以及在 AI 模型人格與安全帕累托改進方面的研究成果,並為 2026 年發起 40 萬美元的募款計畫。

這是一份關於 長期風險中心 (Center on Long-Term Risk, CLR) 2025 年活動回顧及 2026 年計畫的簡要概述。我們希望籌集 400,000 美元,以達成 2026 年的目標預算。

關於我們

CLR 致力於應對先進人工智慧(AI)系統開發與部署中可能出現的最差情況風險,以減少 s-risks(苦難風險)。我們的研究主要涉及如何減少衝突,並在涉及強大 AI 系統的互動中促進合作。除了研究之外,我們還開展一系列活動,旨在建立一個對減少 s-risk 感興趣的社群,並透過 CLR 基金 (CLR Fund) 支持有助於減少 s-risk 的努力。

2025 年是 CLR 重大轉型的一年。Jesse Clifton 於 1 月卸任執行長,由 Tristan Cook 接任常務董事,Mia Taylor 接任研究總監。隨著 Mia 隨後於 8 月離職,Tristan 繼續擔任常務董事,並由 Niels Warncke 領導實證研究。

在此期間,我們明確了實證與概念研究議程的重點:分別是研究大型語言模型(LLM)中不良人格(personas)的出現,以及開發干預措施以引導 AI 使用「安全帕累托改進 (safe Pareto improvements, SPIs)」,從而防止災難性衝突。我們舉辦了另一屆年度夏季研究獎助計畫(Summer Research Fellowship),並從該計畫中聘請了 Daniel Tan 加入我們的實證團隊。

2025 年回顧

研究

我們 2025 年的研究涵蓋以下議程:

實證研究:AI 模型人格。 我們今年工作的一個主題是「湧現失調(Emergent Misalignment)」,即模型在針對狹隘失調的演示進行微調時,往往會泛化出惡意人格的現象。CLR 的貢獻包括參與 原始湧現失調論文 的合作、發表一篇 展示湧現失調可能源於對獎勵黑客行為(reward hacking)演示進行微調的論文,以及一項 案例研究,顯示湧現失調並不需要訓練數據集顯示任何失調行為。我們很高興看到 AI 安全社群對此展現出極大興趣,OpenAIAnthropic 及許多其他機構隨後也發表了相關工作。

我們對 AI 人格的興趣源於一種信念:惡意人格代表了一種從 s-risk 角度來看特別令人擔憂的對齊失敗,且人格提供了一個有用的抽象概念來推論泛化行為。我們領導了關於 接種提示(inoculation prompting) 的工作,這是一種引導泛化朝向更理想結果(如防止湧現失調)的簡單技術。Anthropic 的 同期 及後續研究發現,接種提示能有效 防止獎勵黑客行為 以及 由此產生的湧現失調

我們還進行了尚未發表的研究,重點關注可能誘發惡意(spitefulness)的訓練條件。作為其中的一部分,我們首先考慮了早期訓練中的目標表示如何影響後期的泛化行為,然後調查了在常數和賽局(constant-sum games)上的強化學習(RL)訓練是否會泛化為惡意。這項工作得到了 CAIFForesight Institute 的資助支持。

非因果安全(Acausal safety)與安全帕累托改進 (SPIs)。 我們為非因果安全社群的合作夥伴編寫了先前內部工作的精簡版,即一份旨在防止非因果貿易中高風險錯誤的 「監督者手冊」。這包括一篇 文章,概述了我們可能希望 AI 變得更「明智」以避免這些高風險錯誤的方式。

無論是針對非因果安全,還是廣泛減輕 AI 衝突帶來的負面影響,我們都對將 SPI 作為一種談判方法感到興奮。(據我們了解,其他深入思考過 s-risk 的人也廣泛認同這一點。)我們已開始起草向 AI 公司提議的政策,以增加轉型 AI 使用 SPI 的可能性。與此同時,我們完善了對於 SPI 為何/何時不會被預設使用^([1]),以及促進 SPI 的干預措施何時可能反而破壞 SPI 的理解。

戰略準備。 我們開發了用於確定何時以及如何穩健地干預 s-risk 的框架^([2])。請參閱這份 備忘錄,它總結了先前關於釐清什麼使干預措施具備「穩健性」的內部研究。這項研究的大部分內容尚未公開,主要用於支持我們的兩個以干預為重點的議程。

社群建設

社群建設工作在 2024-2025 年間受到員工離職的顯著影響。我們在領導層過渡期間維持了基本職能,但放低了更廣泛社群建設活動的優先級。在 2025 年,我們:

2026 年計畫

研究

實證工作。 2026 年實證研究流的主要目標是推進人格議程,並增加與更廣泛 AI 安全社群的合作。為此,我們計畫增加 1-3 名實證研究員,並與對理解和引導 AI 人格感興趣的外部研究人員合作,包括參與導師計畫。

SPI。 我們計畫將目前關於向 AI 公司提出 SPI 建議的工作轉化為具體、實用且詳盡的要求。我們的目標是從 s-risk 和非因果安全社群的其他成員以及 AI 公司的聯繫人那裡獲取大量反饋。同時,我們也可能將 SPI 提案與其他互補的干預措施相結合,例如引導 AI 思考 開放心態 (open-minded) 的決策理論。

戰略準備。 我們將繼續開發穩健干預 s-risk 的框架,特別關注識別在何種條件下可以安全地實施我們的人格和 SPI 工作。這包括分析潛在的反效果機制,並監測哪些現實世界的發展將預示干預時機已成熟。我們目標招聘 1 名研究員以確保該領域的連續性。

社群建設

我們計畫在 2026 年聘請一名社群協調員來領導這項工作。他們的重點將是與具備 AI 實驗室背景的社群成員交流、協調非因果安全研究社群,並為我們的計畫和潛在職位識別有前途的研究人員。

我們將繼續現有的計畫:

捐款

我們正在尋求 400,000 美元的資金,以支持 2026 年的擴張計畫,並維持 12 個月儲備金的目標。這筆資金將支持:

  • 聘請 1-3 名實證研究員以擴大 AI 模型人格的工作規模
  • 聘請 1 名概念研究員進行戰略準備研究
  • 聘請一名社群協調員
  • 計算密集型的實證研究

如欲捐款給 CLR,請前往我們網站上的 募款頁面。有關捐款給 CLR 的常見問題,請參閱 此處

立即捐款

參與其中


  • ^([1]) 基於我們在 2024 年發表的 這篇文章
  • ^([2]) 由於許多直覺的方法可能會產生意想不到的後果,這項工作提供了決策工具,用於評估干預措施(如我們的人格和 SPI 工作)是否真的能減少 s-risk,或者是否可能使情況變得更糟。

Lesswrong

相關文章

其他收藏 · 0