應設立一億美元資助金以實現人工智慧安全自動化

Lesswrong·2 天前

我認為資助者應提供大規模激勵措施，支持在人工智慧安全領域投入一億美元以上的運算或 API 預算，利用自動化 AI 勞動力直接且有效地轉化為安全成果。

這篇文章反映了我個人的觀點，不一定代表 Apollo Research 其他成員的立場。

重點提要（TLDR）： 我認為資助者應大力激勵 AI 安全工作，使這些工作能夠在自動化 AI 勞動力上投入 1 億美元以上的運算或 API 預算，並直接且具差異化地轉化為安全成果。

動機

我認為我們正處於一個短時間線（short timeline）的世界（即使我們還沒有完全的把握，也應該認真對待這種可能性）。這意味著我認為資助者應該目標在未來 2-3 年內，在 AI 安全領域投入大量資金（例如整個生態系統每年投入 10-500 億美元）。

我認為在過去 5 年中，AI 安全資助者分配的資金太少，支出也過於保守。因此，在我看來，我們絕對應該繼續增加「常規」支出，例如支付更具競爭力的薪資、讓 AI 安全組織發展得更快，以及其他類似的事情。

然而，在短時間線的假設下，這些「常規」支出模式是不夠的，而快速投入更多資金的顯著方法，就是積極鼓勵尋找將自動化勞動力用於 AI 安全的方法。

什麼是「自動化 AI 安全擴展資助」？

「自動化 AI 安全擴展資助」旨在積極鼓勵在大規模層面上使用自動化勞動力進行 AI 安全的嘗試。其明確意圖是：如果有人設法找到了建立可擴展安全管線（pipelines）的方法，他們可以確信自己能夠從資助者那裡獲得資金，並在短時間內大規模運行這些管線。

此類資助的一個例子如下：

第一步：展示可擴展性
- 組織提交一份他們認為可以顯著擴展的管線草案。在最好的情況下，他們已經擁有一些支持此主張的實證證據。
- 雙方就「擴展條件」達成一致，即什麼樣的實證證據足以讓資助者在該管線上投入更多資金。
- 預設情況下，擴展條件可以是一個圖表，X 軸是「投入管線的資金」，Y 軸是「某種合理的安全代理指標」（只要雙方都確信該代理指標不會陷入古德哈特定律 [Goodhart's law] 的陷阱）。
- 代理指標的一個例子可以是「透過可解釋性發現的、明顯且嚴重對齊不良的『特徵』數量（且人類專家判斷這些特徵是嚴重的、多樣化且高品質的）」。
- 例如，這類資助可以是為期 1 年的 500 萬美元，其中 200 萬美元用於薪資和日常開支，300 萬美元用於運算資源（例如微調、API 成本和 GPU 租賃）。這些數據可以根據團隊規模和對擴展假設的先前信心而有所不同。
第二步：加倍投入
- 當達到資助條件時，資助者願意迅速增加額外資金以擴展實驗規模。
- 例如，假設受資助者能夠產出擴展圖表，且證據對雙方都有說服力。那麼資助者會再提供 1400 萬美元的資助，其中 1000 萬美元用於擴展管線，400 萬美元用於擴展團隊和組織的其他部分。
- 接著雙方就下一個里程碑達成一致。例如，里程碑可以是將擴展圖表延伸四個額外的數據點，且顯示擴展帶來的邊際收益沒有或很少遞減。
第三步：大規模擴展
- 當加倍投入取得成功後，資助者願意迅速且顯著地將資助再增加一個數量級（OOM）。
- 例如，假設受資助者能夠證明擴展圖表可以延伸，且增加的投入仍能有意義地轉化為安全性（而不是例如在一個不再有用的指標上產生古德哈特效應）。那麼資助者會再提供 1.08 億美元的資助，其中 1 億美元用於進一步擴展管線，800 萬美元用於其他日常開支。
- 注意：由於這些資助的明確意圖是快速擴展，因此第二步和第三步之間的時間可能短至幾個月。
第四步：現實世界整合
- 假設一個組織能證明他們可以有說服力地將 1 億美元花在能大規模轉化為 AGI 安全的事務上，那麼還有多種進一步的可能行動。
- 鑑於這是由資助金資助的，它必須符合公眾利益。因此，在任何情況下，這些資訊都必須連同相關細節一起發布。這可以包括開源整個管線，或撰寫包含核心細節的論文，使他人能夠複製該管線。
- 與實驗室合作，將這些技術納入其對齊管線中，並幫助他們在實踐中實施。
- 團隊加入一個 AGI 實驗室，在該實驗室實施該管線。
- 如果這個管線可以盈利，明確嘗試將該組織轉型為 AGI 安全營利組織。如果它已經是營利組織，則圍繞該理念開發產品，從而大幅提高安全性。
- 如果我們仍未遇到邊際收益遞減，且管線持續產生出色的安全結果，則嘗試將其進一步擴展到 10 億美元。

其他考量

誰應該有資格獲得此類資助？

我認為任何提供有前景的提案並展現出足夠技術專長的組織或組織分支，都應該是潛在的受資助者。這包括非營利組織、學術界和營利組織。如果資助對象是營利組織，則應為受限資助，明確目的是探索該項目的擴展，並以發布相關細節以確保公眾利益為條件。

鑑於資助的目的已經非常明確，我認為它設立在哪裡並不那麼重要，只要想法和團隊足夠有前景即可。

為什麼要將其設為明確的資助計畫？

鑑於資助者迄今表現出的保守程度，我認為大多數考慮此類雄心勃勃擴展項目的人，目前都不會預期這在他們的申請可能性範圍內。

如果資助者認真考慮在不久的將來投入巨額資金，我認為他們必須極其明確地表達這一點，以克服目前被感知到的猶豫。此外，我認為最適合運行此類擴展工作的人，可能是具有豐富創業才華和經驗的人。這類人通常有很多好的選擇，因此只有像這樣嚴肅的公開承諾，才能說服他們嘗試這樣的項目，而不是去創辦一家沒有明確安全效益的營利初創公司。

我們難道不會讓所有這些指標都陷入古德哈特定律嗎？

也許會。這絕對是一個可能性。我認為嘗試尋找更穩健的指標是件好事，但如果我們最終得到的總是被古德哈特化的指標，那也是很好的負面證據，表明我們可能應該停止那個特定的計畫。

潛在資助領域的具體例子

監控與控制（Monitoring & Control）

我認為監控和/或控制是此類擴展計畫最顯著的案例。我們現在在 Apollo 追求監控議程的核心原因之一，就是我們認為它具有很高的擴展回報。

原因有幾點：

高度可擴展的數據源： 我們已經從以下方面獲得了明確的初步正面結果：a) 收集現實世界的數據並在其中注入人工故障；b) 透過 ControlArena 或 SHADE arena 風格的環境創造半真實的故障。這兩者都可以在顯著更大的規模上進行，例如數百萬條高品質的軌跡。
藍軍 vs. 紅軍的框架： 根據定義，所有控制問題都可以框架化為藍軍 vs. 紅軍的博弈。這實現了許多擴展機會，包括自動化紅隊演練，我們可以迭代地改進藍軍和紅軍。雖然還有許多細節有待解決，但我們已經在監控器的背景下看到了自動化紅隊演練的初步正面結果，且許多來自其他領域的自我博弈和紅隊方法可以輕鬆轉化到監控場景中。
「數字上升」遊戲（Number-go-up-games）： 監控中的幾乎任何子問題都可以用「數字上升」遊戲來合理近似。這讓我充滿希望，我們已經或很快就能大規模使用像 Claude Code 和 Codex 這樣的中期視界（medium-horizon）代理，為這些定義明確的問題開發新方法。這將使我們能夠利用大量運算資源，直接轉化為更好的方法。

我們計畫很快發布此議程的更詳細版本以及具體項目。雖然我們正圍繞這項研究開發基於監控器的產品，但我們打算保持研究本身相對開放，包括議程在內。

自動化黑箱審計

簡而言之，我構想的是一個實質上更好的 PETRI 版本。雖然 PETRI 是一個很好的起點，但它有多個缺點。最重要的是 a) 缺乏現實感，以及 b) 缺乏多樣性/規模。

為了應對這些問題，我們需要找到自動化的方法，在大規模下自動創造高度真實的情境，以誘發模型中嚴重的對齊不良。此類努力中看似合理的子部分包括：

尋找高度可擴展的長視界數據源，用於紅隊演練或對其進行修改。請注意，這與建立強化學習（RL）環境的任務非常相似，因此必須確保人們不會直接針對該分佈進行訓練。
設計更好的紅隊代理，使其能夠利用更多運算資源，例如更多多代理協作、更多並行處理、更有效的持續學習等。
可以從上述監控想法中借鑒的各種自我博弈和其他紅隊 vs 藍隊框架。

白箱審計代理

基本上就是這個：https://alignment.anthropic.com/2025/automated-auditing/，具有與上述類似的想法，並且還能訪問模型的特徵（features）。因此，目標不僅是尋找有意義的失敗模式，還要尋找模型中有意義的對齊不良概念。

另請參閱 Trenton Bricken 在他的第二次 Dwarkesh 訪談中談到的「解釋性代理」。

傾向性評估（Propensity evals）

我認為評估比自動化紅隊演練更難擴展。對於自動化紅隊演練，我們有一些可以迭代的數字（例如發現的嚴重對齊不良實例的數量），因此衡量成功要容易得多。對於評估，情況未必如此，我們總是必須依賴某些其他判斷，如「真實性」或「有效性」。儘管如此，我認為還是有高度可擴展的方法來設計評估，且不至於簡化為自動化紅隊演練。

首先也是最重要的一點，我認為尋找高度可擴展的方法，將大型數據源系統地轉化為高品質且真實的評估，是成功的關鍵。對於各種能力，這已經有所嘗試，例如 SWEBench。然而，我這裡想特別針對傾向性評估。

我最好的猜測是，這裡的典型嘗試會試圖：

建立一個大型的真實情境庫，我們預期這些情境能代表真實風險。
建立一個我們擔心的失敗模式清單。
然後尋找自動化方法將這兩個維度結合成一個巨大的場景網格，再將其轉化為評估。

這可能會在大規模上使用代理或代理管線來建立和改進這套評估，例如這裡描述的「評估代理」。

自動化概念性對齊研究

從某種意義上說，這是擴展資助的「聖杯」。

至少根據我的經驗，目前的模型在有意義的概念推理方面，比我根據其令人印象深刻的代理編碼能力所預期的要掙扎得多。

在我認為我可以判斷品質的領域（例如與策劃 [scheming] 相關的研究、評估和監控），它們似乎相當不擅長提出我認為高品質的想法。
它們似乎「不夠努力」，直覺上感覺它們更像是試圖給出「某個」答案，而不是給出一個「好」答案。

我預期模型在執行此類任務時，透過強化學習（RL）會迅速變好，但我猜測很難找到好的任務來進行 RL，因為這些任務通常是模糊的，因此會受到評分者概念理解能力的瓶頸限制。

這裡可能的項目包括：

建立腳手架（scaffolding）的探索性項目，以改進概念性安全工作。
為安全工作建立良好數據集和 RL 環境的探索性項目。
針對模糊任務的 RL 探索性工作，特別關注對齊研究。
編目大量我們認為對對齊研究特別有用且重要的知識，並觀察我們是否能以某種方式讓模型更有效地利用這些知識。

與上面的其他例子相比，我更不確定這在實踐中會如何運作，且我預期許多可能的資助會因為缺乏有前景的結果而在早期階段失敗。然而，鑑於其高度重要性，我認為無論如何都應該有更多人嘗試。

關於能力外部性的說明： 我不確定這項工作對安全性有多大的差異化優勢。我的猜測是，這裡的任何進展也可能轉移到模糊的能力研究中。儘管如此，我覺得：

遲早會有人必須這樣做，因為據我所知，大多數 AGI 公司的 ASI 對齊計畫都是透過自動化研究實現的。
我認為有些成果並非通用的，而是專門針對 AI 安全研究的，例如：訓練模型成為優秀的編碼代理雖然也會提高其網絡攻擊能力，但專門的網絡訓練/腳手架仍能帶來有意義的收益。

所以這似乎值得嘗試。不過，此類資助的接受者應該對其見解的發布更加謹慎，並在該項目對能力的加速明顯超過對齊的情況下，願意關閉該項目。

回應我目前聽到的一些疑慮

我之前曾向多位資助者推銷過這類資助，並向非資助者建議過，聽到了以下疑慮：

我們應該先更詳細地了解這些資助的具體領域

雖然我認為資助者思考自己對於想要提供何種資助的具體論點是有用的，但我認為這不應成為明確表達意圖的阻礙。

具體來說，我認為公開此類資助會激勵更多人詳細思考如何更有效地擴展自動化勞動力，也應該會影響資助者對其積極尋求的項目的思考。

為什麼營利組織應該成為此類資助的對象？

廣義上講，我認為由哪種類型的組織來運行這樣的項目並不重要，只要他們能夠很好地執行。我個人認為，非營利組織和營利組織（以及某種程度上的學術界）只要能確保其運作是為了公眾利益，都有能力執行此類資助。

我認為對於這些擴展活動，支持和反對非營利 vs. 營利組織的論點都有，我不完全確定哪一方更有力。營利組織可能更擅長在所需的規模上做事，而非營利組織可能更有可能忠於其使命。採用受限資助可能有助於抵消對營利組織使命的擔憂。

參與討論

https://lesswrong.com/posts/qdhyrN4uKwBAftmQx/there-should-be-usd100m-grants-to-automate-ai-safety