newsence

2026 年 AI 控制大會(ControlConf 2026)正式發佈

Lesswrong·大約 1 個月前

我們將於 4 月 18 日至 19 日在柏克萊舉辦 ControlConf,這是一場為期兩天的 AI 控制會議,探討如何透過防護措施降低失控風險。我們也將於 4 月 17 日舉辦為期一天的 AI 未來主義與威脅建模工作坊,旨在為想要更清晰了解災難性 AI 風險模型的人士提供協助。

我們將於 4 月 18 日至 19 日在柏克萊舉辦 ControlConf。這是一場為期兩天的 AI 控制(AI control)研討會:研究如何透過防護措施來降低失控(misalignment)風險,且這些措施即使在 AI 模型試圖破壞它們時依然有效。

自上一屆 ControlConf(2025 年 2 月)以來,AI 代理(AI agents)已大幅進步。我們正接近一個轉折點,即控制技術對於實際代理部署的安全至關重要。目前也已取得許多進展:研究人員在更真實的情境中進行了控制評估,AI 公司也開始建立初步的控制措施——未來還會有更多進展。

在 ControlConf,處於該領域前沿的人員將針對當前的研究問題、具前景的干預措施,以及未來最重要的研究方向進行發表。

在此申請

我們也藉此機會在 4 月 17 日舉辦為期一天的 AI 未來主義與威脅建模工作坊,對象是希望對 AI 災難性風險有更清晰模型,並尋求最佳緩解策略的人士。請點擊此處申請。

參與討論

https://www.lesswrong.com/posts/tN5mgBAinwFe5c67c/announcing-controlconf-2026