長期風險中心：2025年年度回顧與2026年募款

Lesswrong·5 個月前

長期風險中心（CLR）回顧了我們在 2025 年的領導層過渡以及在 AI 模型人格與安全帕累托改進方面的研究成果，並為 2026 年發起 40 萬美元的募款計畫。

這是一份關於長期風險中心 (Center on Long-Term Risk, CLR) 2025 年活動回顧及 2026 年計畫的簡要概述。我們希望籌集 400,000 美元，以達成 2026 年的目標預算。

關於我們

CLR 致力於應對先進人工智慧（AI）系統開發與部署中可能出現的最差情況風險，以減少 s-risks（苦難風險）。我們的研究主要涉及如何減少衝突，並在涉及強大 AI 系統的互動中促進合作。除了研究之外，我們還開展一系列活動，旨在建立一個對減少 s-risk 感興趣的社群，並透過 CLR 基金 (CLR Fund) 支持有助於減少 s-risk 的努力。

2025 年是 CLR 重大轉型的一年。Jesse Clifton 於 1 月卸任執行長，由 Tristan Cook 接任常務董事，Mia Taylor 接任研究總監。隨著 Mia 隨後於 8 月離職，Tristan 繼續擔任常務董事，並由 Niels Warncke 領導實證研究。

在此期間，我們明確了實證與概念研究議程的重點：分別是研究大型語言模型（LLM）中不良人格（personas）的出現，以及開發干預措施以引導 AI 使用「安全帕累托改進 (safe Pareto improvements, SPIs)」，從而防止災難性衝突。我們舉辦了另一屆年度夏季研究獎助計畫（Summer Research Fellowship），並從該計畫中聘請了 Daniel Tan 加入我們的實證團隊。

2025 年回顧

研究

我們 2025 年的研究涵蓋以下議程：

實證研究：AI 模型人格。 我們今年工作的一個主題是「湧現失調（Emergent Misalignment）」，即模型在針對狹隘失調的演示進行微調時，往往會泛化出惡意人格的現象。CLR 的貢獻包括參與原始湧現失調論文的合作、發表一篇展示湧現失調可能源於對獎勵黑客行為（reward hacking）演示進行微調的論文，以及一項案例研究，顯示湧現失調並不需要訓練數據集顯示任何失調行為。我們很高興看到 AI 安全社群對此展現出極大興趣，OpenAI、Anthropic 及許多其他機構隨後也發表了相關工作。

我們對 AI 人格的興趣源於一種信念：惡意人格代表了一種從 s-risk 角度來看特別令人擔憂的對齊失敗，且人格提供了一個有用的抽象概念來推論泛化行為。我們領導了關於接種提示（inoculation prompting）的工作，這是一種引導泛化朝向更理想結果（如防止湧現失調）的簡單技術。Anthropic 的同期及後續研究發現，接種提示能有效防止獎勵黑客行為以及由此產生的湧現失調。

我們還進行了尚未發表的研究，重點關注可能誘發惡意（spitefulness）的訓練條件。作為其中的一部分，我們首先考慮了早期訓練中的目標表示如何影響後期的泛化行為，然後調查了在常數和賽局（constant-sum games）上的強化學習（RL）訓練是否會泛化為惡意。這項工作得到了 CAIF 和 Foresight Institute 的資助支持。

非因果安全（Acausal safety）與安全帕累托改進 (SPIs)。 我們為非因果安全社群的合作夥伴編寫了先前內部工作的精簡版，即一份旨在防止非因果貿易中高風險錯誤的「監督者手冊」。這包括一篇文章，概述了我們可能希望 AI 變得更「明智」以避免這些高風險錯誤的方式。

無論是針對非因果安全，還是廣泛減輕 AI 衝突帶來的負面影響，我們都對將 SPI 作為一種談判方法感到興奮。（據我們了解，其他深入思考過 s-risk 的人也廣泛認同這一點。）我們已開始起草向 AI 公司提議的政策，以增加轉型 AI 使用 SPI 的可能性。與此同時，我們完善了對於 SPI 為何/何時不會被預設使用^([1])，以及促進 SPI 的干預措施何時可能反而破壞 SPI 的理解。

戰略準備。 我們開發了用於確定何時以及如何穩健地干預 s-risk 的框架^([2])。請參閱這份備忘錄，它總結了先前關於釐清什麼使干預措施具備「穩健性」的內部研究。這項研究的大部分內容尚未公開，主要用於支持我們的兩個以干預為重點的議程。

社群建設

社群建設工作在 2024-2025 年間受到員工離職的顯著影響。我們在領導層過渡期間維持了基本職能，但放低了更廣泛社群建設活動的優先級。在 2025 年，我們：

完成了第一屆 CLR 基礎課程
舉辦了第五屆夏季研究獎助計畫，申請人數創下紀錄。我們聘請了 4 名研究員，刻意保持較小的規模以確保高品質的指導和招聘標準
繼續提供職涯諮詢和一對一支持

2026 年計畫

研究

實證工作。 2026 年實證研究流的主要目標是推進人格議程，並增加與更廣泛 AI 安全社群的合作。為此，我們計畫增加 1-3 名實證研究員，並與對理解和引導 AI 人格感興趣的外部研究人員合作，包括參與導師計畫。

SPI。 我們計畫將目前關於向 AI 公司提出 SPI 建議的工作轉化為具體、實用且詳盡的要求。我們的目標是從 s-risk 和非因果安全社群的其他成員以及 AI 公司的聯繫人那裡獲取大量反饋。同時，我們也可能將 SPI 提案與其他互補的干預措施相結合，例如引導 AI 思考開放心態 (open-minded) 的決策理論。

戰略準備。 我們將繼續開發穩健干預 s-risk 的框架，特別關注識別在何種條件下可以安全地實施我們的人格和 SPI 工作。這包括分析潛在的反效果機制，並監測哪些現實世界的發展將預示干預時機已成熟。我們目標招聘 1 名研究員以確保該領域的連續性。

社群建設

我們計畫在 2026 年聘請一名社群協調員來領導這項工作。他們的重點將是與具備 AI 實驗室背景的社群成員交流、協調非因果安全研究社群，並為我們的計畫和潛在職位識別有前途的研究人員。

我們將繼續現有的計畫：

捐款

我們正在尋求 400,000 美元的資金，以支持 2026 年的擴張計畫，並維持 12 個月儲備金的目標。這筆資金將支持：

聘請 1-3 名實證研究員以擴大 AI 模型人格的工作規模
聘請 1 名概念研究員進行戰略準備研究
聘請一名社群協調員
計算密集型的實證研究

如欲捐款給 CLR，請前往我們網站上的募款頁面。有關捐款給 CLR 的常見問題，請參閱此處。

立即捐款

參與其中

我們持續接受研究職位的意向表達。
登記職涯諮詢意向，討論如何為減少 s-risk 做出貢獻。
訂閱我們的基礎課程通知。

^([1]) 基於我們在 2024 年發表的這篇文章。
^([2]) 由於許多直覺的方法可能會產生意想不到的後果，這項工作提供了決策工具，用於評估干預措施（如我們的人格和 SPI 工作）是否真的能減少 s-risk，或者是否可能使情況變得更糟。

— Lesswrong

其他收藏 · 0

你的個人知識庫

長期風險中心：2025年年度回顧與2026年募款

關於我們

2025 年回顧

研究

社群建設

2026 年計畫

研究

社群建設

捐款

參與其中