Schmidt Sciences 徵求「可信賴人工智慧科學」研究提案

Lesswrong·大約 1 個月前

Schmidt Sciences 邀請各界針對可信賴人工智慧科學計畫提交提案，旨在支持能提升理解、預測及控制前沿人工智慧系統風險，並實現其可信賴部署的技術研究。

Schmidt Sciences 誠邀各界針對 可信 AI 科學計畫（Science of Trustworthy AI program） 提交計畫書。本計畫支持技術性研究，旨在提升我們理解、預測及控制前沿 AI 系統風險的能力，同時實現其可信的部署。

本計畫支持的技術研究應能增進我們對前沿 AI 系統風險的理解、預測與控制，並確保其部署過程值得信賴。此徵案（RFP）基於我們的研究議程（詳見下文），涵蓋三個相互關聯的目標：

目標 1：表徵並預測前沿 AI 系統的對齊失誤（Misalignment）： 探討為何前沿 AI 的訓練與部署安全堆疊，仍會導致模型習得在分佈偏移（distribution shift）、壓力或長時間交互下失效的實質目標。
目標 2：開發具泛化性的測量與干預手段： 推進評估科學，使其具備決策相關的構念效度（construct validity）與預測效度，並開發能控制 AI 系統「習得內容」（而非僅是「說法」）的干預措施。
目標 3：監督具備超人類能力的 AI 系統並應對多智能體風險： 將監督與控制擴展至人類無法直接評估正確性/安全性的領域，並解決由 AI 系統交互產生的風險。

我們邀請申請者申請一個或多個資助層級。申請者可向每個層級提交多份計畫書。

第一層級（Tier 1）： 最高 100 萬美元（1-3 年）
第二層級（Tier 2）： 100 萬至 500 萬美元以上（1-3 年）

雖然我們預計資助這兩個層級的項目，但我們對雄心勃勃的第二層級計畫書最感興趣。若這些計畫取得成功，將改變該領域對理解、測量或控制前沿 AI 系統風險之可能性的認知。

**欲了解更多資訊，請參閱徵案說明 **此處

計畫書應透過 SurveyMonkey Apply 提交：此處
研究議程：此處
常見問題（FAQ）：此處
聯絡方式：trustworthyai@schmidtsciences.org

研究議程

本研究議程中的問題旨在為今年的納入範圍提供指引，並非詳盡無遺。若計畫書能明確推進相關章節的基礎科學目標，即便未逐字對應問題，我們亦表示歡迎。

引言

儘管近期 AI 取得了驚人的進展，但我們仍缺乏關於「是什麼讓 AI 系統值得信賴」的科學理解。前沿 AI 的開發與其說是一門成熟的科學，不如說更像煉金術：研究人員添加更多數據和算力，進行更長時間的訓練，並希望理想的特性會隨之出現。結果固然令人印象深刻，但我們預測模型在新規範下行為的能力有限，尤其是在日益具備代理性（agentic）的部署環境中（Bengio et al., 2024）。

核心挑戰之一是技術對齊（technical alignment）：確保系統行為符合預期規範。僅優化陳述的獎勵或損失函數（訓練期間提供的目標）通常是不夠的，因為在訓練和部署過程中產生的行為驅動力可能會偏離用戶意圖。在整個議程中，我們使用「目標（goal）」來指代系統的實質行為標的：即系統在不同情境下可靠地趨向的目標，這可透過其在壓力或分佈偏移下的行為顯現。類目標行為可能反映了穩定的內部表徵和規劃，也可能源於啟發式方法、代理特徵、淺層模式補全，或由提示詞和後期訓練誘發的角色條件策略（Janus., 2022; Shanahan., 2023）。一個關鍵的科學目標是釐清這些機制，並確定何時「目標」是進行有效行為預測的正確抽象方式，而何時則不然。

對齊失敗可能源於誤指定（misspecification）（陳述的目標未能捕捉真實意圖），或欠指定（underspecification）（許多解決方案在分佈內皆滿足目標，而模型的歸納偏置或訓練動態傾向於選擇一個未能捕捉用戶偏好目標，或在分佈偏移下失效的方案）。在實踐中，兩者會相互作用：我們指定了不完美的代理指標，並留下了自由度，模型則以非預期的方式填補這些空間。

雖然我們在引言中使用對齊失誤作為統一視角，但本議程針對廣泛的安全相關失效模式，包括分佈偏移下的魯棒性、評估失效、在能力差距下維持監督與控制，以及代理型和多智能體部署環境中出現的風險。

對齊失誤的挑戰並非 AI 所獨有。它呼應了機器學習中的捷徑學習（shortcut learning）與欠指定（D’Amour et al., 2022）、控制理論中不確定性下的魯棒性（Zhou et al., 1996）、經濟學中的委託代理問題（Jensen et al., 1976），以及法律契約的不完備性（Hart and Moore, 1998）。開發可信 AI 系統的進展可能需要採納其他領域的見解，同時也要認識到前沿 AI 系統的獨特性。特別是，它們越來越多地作為代理（agents）而非僅僅是預測器來部署：它們配備了工具、記憶、長程規劃，以及與用戶和其他系統的反馈循環（Chan et al., 2023）。這將問題從單純的「模型會泛化嗎？」轉向「模型在壓力下或約束改變時會優化什麼？」。此外，先進能力很可能透過交互智能體系統而非單一模型產生，這需要專門的研究（Tomašev et al., 2025; Hammond et al., 2025）。

對齊失誤至關重要，因為失誤行為傳播的速度、規模和不透明性極高。模型正迅速部署於各個領域，包括安全關鍵型環境，而其內部計算仍難以解釋。失誤行為可能在與訓練顯著不同的部署條件下傳播給數百萬用戶，且已在部署系統中表現為阿諛奉承（sycophancy）（Sharma et al., 2023; Wen et al., 2024）、欺騙行為（Scheurer et al., 2023; Abdulhai et al., 2025）以及規範博弈（specification gaming）（Taylor et al., 2025; Baker et al., 2025; METR 調查）。這些並非孤立的病理現象，而是反映了習得目標與預期目標之間深層不匹配的重複模式。反之，解決對齊失誤也是一個機遇：如果行為能可靠且可預測地泛化到新情境，社會將能安全地利用日益強大的 AI 進行科學發現並造福廣大社會。

目前的對齊技術尚不足夠。 現有方法（多為後期訓練）雖改善了分佈內行為，但往往是透過表面層級的修飾，無法泛化到新穎或對抗性情境（Qi et al., 2024），此外還有其他已知局限（Casper et al., 2023）。我們對於訓練如何塑造內部表徵，以及隨著 AI 系統變得更強大且自主（尤其是在能力可能相對於監督者達到超人類水平的領域），哪些干預措施依然有效，仍知之甚少。

本研究議程有三個相互關聯的目標：

表徵並預測前沿 AI 系統的對齊失誤： 理解為何前沿 AI 的訓練與部署安全堆疊，仍會導致模型習得在分佈偏移、壓力或長時間交互下失效的實質目標。
開發具泛化性的測量與干預手段： 推進評估科學，使其具備決策相關的構念效度與預測效度，並開發能控制 AI 系統習得內容（而非僅是說法）的干預措施。
監督具備超人類能力的 AI 系統並應對多智能體風險： 將監督與控制擴展至人類無法直接評估正確性/安全性的領域，並解決來自交互 AI 系統的風險。

第一部分：表徵與預測對齊失誤

現代 AI 系統在分佈內可能顯現為已對齊，但卻習得了實質目標或其他行為驅動力，這些驅動力在分佈偏移、優化壓力、長程交互、新工具功能或對抗性情境下會失效。一個反覆出現的失敗模式是表面上的順從而缺乏魯棒的泛化：系統滿足了訓練指標，但在條件改變時偏離了意圖。本節旨在：(i) 釐清在實際相關的範疇內，模型對齊失誤的定義及其程度；(ii) 表徵失效模式；(iii) 識別產生失效的機制；以及 (iv) 預測這些失效如何隨規模和（代理型）能力的增加而變化。若無此研究，干預措施將始終是反應式的：我們在部署後才發現失效，並僅修補症狀而非根源。

1.1：什麼是對齊失誤，以及我們目前看到了多少？

在我們預測或防止對齊失誤之前，我們需要更精確的科學答案來回答：(i) 什麼算作對齊失誤，以及 (ii) 目前系統在關鍵範疇內的失誤程度如何。

優先問題包括：

對齊失誤的操作化（及其量級）。 在決策相關的術語中，AI 系統的對齊失誤意味著什麼？我們如何量化或界定對齊失誤（例如：傾向、嚴重程度）？
規範博弈與目標泛化失誤。 在何種條件下，模型會利用訓練目標中的缺陷（規範博弈 (Skalse et al., 2022)），或追求在分佈內滿足規範但在分佈外偏離意圖的非預期目標（目標泛化失誤 (Shah et al., 2022)）？哪些特徵能將這些行為與錯誤、混淆或脆弱的泛化區分開來？
分佈偏移與突發性對齊失誤。 哪些偏移（例如：領域、能力、優化壓力、後期訓練協議、架構/工具訪問權限）會增加對齊失誤風險（Ren et al., 2024）？是什麼導致了突發性對齊失誤，這對未來 AI 系統的安全性有何啟示（Betley et al., 2025）？
模型與真實用戶的交互。 長時間的人機交互如何隨時間塑造行為？模型何時會強化操縱性、誤導性或尋求認可的動態？穩定的行為模式是否會跨對話和情境持續存在？

1.2：泛化與表徵的機制

表徵失效是必要的，但還不夠。為了有效干預，我們必須理解模型為什麼會以產生對齊失誤的方式進行泛化。這需要深入了解訓練如何塑造內部表徵，以及這些表徵如何決定分佈偏移下的行為。

優先問題包括：

歸納偏置與習得內容。 在眾多與訓練數據一致的解決方案中，模型為何會收斂於特定方案（Zhang et al., 2016）？架構、優化動態、數據組成、課程學習和規模如何塑造習得內容（Hoffmann et al., 2022, Nanda et al., 2023, Akyurek et al., 2023）？關於歸納偏置的哪些理論預測在實踐中成立，又在何處失效（Wilson et al., 2025）？
信念、價值觀、不確定性和目標的內部表徵。 模型何時會表現得像是擁有「信念」和「目標」等構念的內部表徵（Ngo et al., 2022）？這些表徵在訓練期間如何產生（包括透過內優化 (mesa-optimization) (Hubinger et al., 2019)）？它們與對齊失誤有何關聯？
因果結構與世界模型。 內部表徵何時支持因果推理和反事實規劃，這如何影響分佈偏移下的對齊（Rajendran et al., 2024; Richens et al., 2024）？更豐富的世界模型能否提高魯棒性，還是主要增加了繞過約束的能力？
抽象與代理指標崩潰。 訓練何時會導致模型將預期目標壓縮為在分佈內足夠但在分佈偏移下泛化失誤的代理指標（例如：將「用戶認可」視為「有幫助」，或將「通過評估」視為「安全」）？我們能否在內部檢測到此類代理目標，並設計訓練以保留安全關鍵的區別？

1.3：規模化、突發性與風險預測

某些失效在隨能力規模化或不連續地出現時最為關鍵。我們優先考慮預測和預警工作：識別可測量的先兆，以預測後續的部署失效。

優先問題包括：

安全規模法則（Safety scaling laws）。 自主性、有效時間跨度（Kwa et al., 2025）和能力提升等風險相關屬性，如何隨模型大小、推理時算力及架構等規模化？定性的新類別失效何時出現？在哪些點上它們會破壞現有的監督或安全案例假設？
突發性與相變。 安全相關能力在訓練或代理部署期間何時以及如何出現？是否存在風險不連續增加的可預測相變？安全相關概念是模組化的、稀疏的，還是與能力交織在一起的（Park et al., 2023, Jiang et al., 2024）？
事前失效預測。 哪些可觀察信號（例如：訓練元數據、表徵診斷、能力概況、評估模式或訓練動態）最能預測未來在類部署條件下的失當行為？
泛化評估與檢測器的安全案例。 隨著 AI 系統規模擴大或進入新範疇，哪些結構化論證足以證明在測試環境之外依賴評估或檢測方法是合理的？

第二部分：具泛化性的測量與干預手段

即便正確性和安全性在原則上可由人類驗證，評估仍可能昂貴、不完整、被策略性博弈，或針對錯誤的構念進行。同樣地，干預措施可能改善分佈內行為，卻未改變習得的實質目標。本節優先考慮：(i) 推進嚴謹的評估科學，以及 (ii) 透過改變系統「習得內容」而非僅是「說法」，使其在分佈偏移和對抗壓力下具備泛化能力的干預措施。

2.1：建立評估科學

我們希望評估能夠：(a) 測量有意義的潛在安全屬性（構念效度），(b) 預測部署行為（預測效度），以及 (c) 在優化壓力下保持資訊量（對「針對測試進行教學」具備魯棒性）。

優先問題包括：

潛在屬性的構念效度。 如何透過可辯護的證據（如理論基礎、經驗驗證且可審計的行為或內部指標）來測量安全相關構念和潛在特質（Raji et al. 2021, Salaudeen et al. 2025）？哪些行為或內部特徵能提供這些潛在屬性的有效指標？
預測效度與情境化。 有哪些證據能證明評估可以預測真實世界環境（如醫療、教育、科學研究）中的行為？
決策相關評估的證據標準。 當一個評估或檢測器看起來具備泛化能力（例如：欺騙/謊言檢測器）時，哪些結構化證據足以證明在安全案例中依賴它是合理的？需要哪些類型的效度證據？應如何對此類論證進行壓力測試？什麼會證偽「這對於部署決策足夠可靠」的說法？
現實條件下的魯棒性。 我們如何在不進行人工誘導的情況下，識別罕見、延遲或依賴軌跡的行為（Jones et al. 2025）？我們能否估計部署相關環境中有害行為的傾向？模型何時會根據「正被評估」這一條件來調整行為？測量如何保持資訊量（Abdelnabi and Salem, 2025）？
具防策略性的評估（Strategy-proof evaluations）。 我們如何建立在被明確優化對抗時仍保持有效的評估（例如：參見 Barratt et al., 2018 和此範例）？評估設計如何考慮開發者、評估者與模型之間的資訊不對稱？開發者或模型何時有動力揭露委託人未察覺的能力資訊（Wang et al., 2025）？
模式生物與受控測試平台。 我們能否建立簡化的受控環境，使對齊失誤行為能可靠地出現，從而進行系統性測量、壓力測試和方法比較（Hubinger et al., 2024; Turner et al., 2025）？
尾部風險與不確定性量化。 我們能否估計重大但低頻失效的機率——包括那些可能永遠不會出現在有限評估集中的分佈尾部失效？應如何表徵和傳達關於安全屬性的不確定性，以便在資訊不完全的情況下做出適當決策（Wu et al., 2024）？
推理軌跡的可監測性。 思維鏈（CoT）或其他中間輸出何時能提供關於模型推理的資訊，並因此被信任用於監測（Korbak et al., 2025）？在何種條件下，模型產生的文本推理能忠實反映其實際決策，而非為了顯現為已對齊而進行的策略性優化？

2.2：具泛化性的干預措施

評估實現了測量；干預則實現了改進。我們優先考慮能以泛化至新情境和對抗環境的方式減少對齊失誤的方法。

優先問題包括：

塑造習得內容。 哪些干預措施能改變底層習得的行為驅動力（如實質目標）而非表面行為？這些約束何時能跨架構、規模和訓練機制泛化？機械式干預（如針對特徵、電路或習得表徵）何時優於行為後期訓練方法？哪些證據能證明真正的習得目標塑造，而非僅是改善了分佈內表現？
對齊方法的泛化。 諸如審議式訓練（Guan et al., 2024）、近視訓練（Farquhar et al., 2025）和過程監督（Lightman et al., 2023）等方案，何時能提高壓力與分佈偏移下的對齊魯棒性？又在何時會誘發策略性順從，或產生對監督者而言易讀但在精神上已失誤的推理？
改進規範與價值不確定性。 改進模型規範/憲章能在多大程度上減少對齊失誤（Zhang et al., 2025; Maiya et al., 2025）？還剩下哪些失效模式？模型如何適當地表徵價值不確定性，並在規範模糊下採取魯棒行動？
維護人類主體性（Human agency）。 是否存在能差異化地維護人類主體性而非取代它的干預措施（Kulveit et al., 2025）（例如：透過展示人類與 AI 協作帶來的效能提升來衡量）？

第三部分：能力差距下的監督與多智能體風險

第二部分假設人類（或與人類同等的評估者）能可靠地評估並驗證正確性或安全性。但在兩種重要情況下，這一假設會崩潰。首先，當 AI 能力在某個領域相對於監督者達到超人類水平時，維持人類監督變得日益困難。許多 AI 應用已涉及人類無法直接驗證或完全理解的任務，且此差距將擴大。其次，當多個 AI 系統作為代理交互時，集體動態可能會產生單一人類觀察者無法完全預見或監測的風險（Tomašev et al., 2025; Hammond et al., 2025）。

3.1：針對超人類表現的放大監督

隨著 AI 系統在某些領域接近並超過人類表現，直接的人類監督變得不可靠。監督者缺乏評估推理的專業知識，無法驗證事實陳述，也無法預見輸出可能失效的微妙方式。然而，安全的訓練與部署決策仍需要監督。放大監督（有時稱為超對齊或可擴展監督）是指使較弱的監督者即便在能力差距下也能提供可靠信號的技術，例如：無監督啟發、任務分解、辯論、遞歸獎勵建模或其他方法（參見 Shah et al., (2025, Section 6.1) 的綜述）。挑戰在於確保放大監督在不誘發博弈、泛化失誤或規避的情況下保持有效（Baker et al., 2025; Cundy & Gleave 2025）。此領域多數工作仍停留在理論階段，但模型能力現已進入可對放大監督進行有意義經驗研究的範疇（Khan et al., 2024; Rahman et al., 2025; Kenton et al., 2024, Wen et al., 2025）。我們希望催化經驗性的放大監督研究，以了解提議方案在實踐中如何及何時成功或崩潰。

3.1a：監督作為訓練信號

在訓練期間，監督提供了塑造行為和習得目標的反饋。隨著任務變得難以評估，此反饋日益依賴放大技術——使用較弱的模型來監督較強的模型、將困難任務分解為較易驗證的問題，或讓模型進行辯論以揭示推理。

優先問題包括：

可靠性與任務覆蓋。 放大監督如何實現足夠可靠的覆蓋，以避免規範博弈、目標泛化失誤或檢測器規避？方法將如何進行分佈外泛化（MacDiarmid et al., 2025; Cundy & Gleave, 2025）？較弱的監督者何時能訓練較強的系統，又在何處失效（例如：較大的能力差距、策略性情境、誤導性標籤）？
人類與模型裁判的局限。 已知的人類偏見如何與放大監督方案交互？LLM 裁判中是否會出現類似偏見？哪些監督設計對跨評估者的相關誤差具備魯棒性？能否激勵模型提供委託人未知的評估與行為指標（Wang et al., 2025）？
約束並啟發習得內容。 放大監督方法何時能約束習得的實質目標，而非僅僅提高受監督任務的表現？我們如何啟發內部資訊的「誠實」表達（Christiano et al., 2021）？
從有限監督中學習。 除了模型答案外，我們能否從對推理的局部監督中學習（例如：彌合 RLVR 與監督學習之間的差距）？
預見規範失效。 放大監督能否幫助識別訓練目標誤指定之處，或預見模型規範/憲章的失效（Zhang et al., 2025）？

3.1b：監督作為部署時控制

除訓練外，監督必須作為部署時的控制機制：使較弱的監督者能驗證、界定或約束自主運行的較強模型的行為。隨著能力差距擴大，方案必須能無限擴展，並在策略壓力下保持魯棒（Cundy & Gleave, 2025; Baker et al., 2025）。

優先問題包括：

能力差距下的驗證。 較弱的監督者能可靠地驗證或界定較強模型的哪些屬性（包括最壞情況下的風險界限）（Burns et al., 2023; Kirchner et al., 2024; West et al., 2025）？哪些問題類別即便生成困難，卻允許高效驗證？
控制評估： 我們如何知道監督方法是否能泛化到其測試過的特定失效模式之外？哪些任務分佈和紅/藍隊方法能產生具資訊量的結果（Greenblatt et al., 2023）？
策略性適應與長程下的魯棒性。 當模型根據「正被監測」這一條件來調整行為時，監督機制如何保持有效（Abdelnabi et al., 2025）？我們如何檢測並干預那些負面影響僅在多步、長延遲或間接因果鏈後才顯現的策略？

3.2：多智能體風險與集體動態

AI 系統正日益作為交互系統的集合而非孤立模型來部署。即便單個智能體在局部看起來已對齊，多智能體環境也會引入獨特的風險（Dafoe et al., 2020; Conitzer et al., 2023; Tomašev et al., 2025; Hammond et al., 2025）。

優先問題包括：

交互特有的安全屬性。 我們如何測量主要透過交互產生的屬性，如脅迫性、策略能力、地位偏好或偏袒（Vallinder et al., 2024; Serapio-GarcÍa et al., 2023）？訓練目標和環境如何塑造這些特質的出現？
多智能體泛化失誤。 第一部分中的機制（如規範博弈、代理指標崩潰、分佈偏移）在多智能體環境中如何表現？交互何時以及如何放大或減弱個體的對齊失誤？
勾結（Collusion）。 智能體何時會習得協作以擊敗預期監督（Motwani et al., 2024），或結合起來開發出無法歸因於任何個體的危險能力（Jones et al., 2024）？哪些評估設計能在現實的高風險環境中檢測勾結？哪些干預措施能可靠地防止勾結？
突發動態與失效傳播。 即便沒有單個智能體「試圖」導致失效，集體層面會出現哪些失效模式？此類局部失效如何透過交互 AI 系統網絡傳播？如何檢測並遏制此類失效？
可信多智能體交互的基礎設施。 哪些技術工具能實現 AI 系統間的可信交互（例如：認證身份與聲譽系統、承諾機制，以及揭露或驗證私密資訊的機制）（Chan et al., 2025）？我們如何確保從智能體行為追溯到已認證的人類或組織主體的鏈條是可驗證的，並遏制「管轄權套利」或不受問責的智能體飛地？
多智能體環境中的長程風險。 哪些風險僅在長程時間跨度下展開（例如：競爭性漂移、合作規範的侵蝕、鎖定於不理想的均衡）？監督機制如何在這些風險根深蒂固之前檢測到它們？哪些多智能體系統屬性會使這些風險發生的可能性增加或減少？

不在資助範圍內

專注於可解釋性（Interpretability）的項目。 請參閱我們新設立的專門 AI 可解釋性試點計畫以獲取該領域的資助。
越獄（Jailbreak）發現與臨時性的對抗性探測，且未與魯棒性的基礎科學相結合。
通用的能力評估，且未與安全相關構念或決策閾值有明確關聯。
專注於立即交付應用的近景產品工程。
未與本議程問題掛鉤的公平性、問責制與偏見研究。
政策與 AI 治理。
認識論完整性，例如內容真實性與浮水印。
直接的 CBRN（化生放核）或 ARA（自主研究代理）危險能力評估，此類評估需要安全許可或直接接觸危險材料。
模型防護欄（例如：I/O 過濾、憲法式分類器）。

參與討論

https://www.lesswrong.com/posts/sup9qzCrdjcAGyrxa/schmidt-sciences-request-for-proposals-on-the-science-of