對通用人工智能（AGI）安全產品的論證

Lesswrong·3 個月前

我認為某些通用人工智慧（AGI）安全工具可以同時具有重大影響力與獲利能力，這證明了成立使命驅動型營利公司以規模化開發這些主動解決方案的合理性。雖然並非所有安全研究都適合此模式，但市場激勵與前沿風險緩解的契合，使 AGI 安全產品成為一條可行且必要的道路。

這是一篇個人文章，並不一定代表 Apollo Research 其他成員的觀點。本部落格文章與我們的公告——《Apollo Research 正從財政贊助轉型為共益企業（PBC）》——同步發佈。

主要觀點摘要：

存在一套既能顯著提升 AGI（通用人工智慧）安全性，又具有盈利能力的安全工具與研究。我們稱之為「AGI 安全產品」（AGI safety products）。
我所指的 AGI 是指能夠自動化 AI 安全研究的系統，例如：能勝任地執行專家級人類需要 6 個月或更長時間才能完成的研究項目。我認為這些論點對於 ASI（人工超級智慧）安全性的適用性較不明確。
至少在某些情況下，顯著提高 AGI 安全性與創建盈利業務的動機是足夠一致的，因此建立以 AGI 安全產品為核心、使命驅動的營利性公司是合理的。
如果我們認真對待 AGI 及其經濟影響，很可能會出現價值十億美元的 AGI 安全公司，而這些公司必須真正嘗試減輕前沿風險。
自動化 AI 安全研究需要規模化。營利性實體通常比非營利組織更契合這種規模需求。
雖然非安全動機的參與者最終可能純粹為了利潤而建立安全公司，但這恐怕為時已晚，因為 AGI 風險需要主動的解決方案，而非被動反應。
AGI 安全產品論點存在「多項局限與警示」。最重要的是，AGI 安全領域內的許多研究工作並不適合營利實體，許多重要工作更適合留在非營利組織或政府部門。
我對這個假設並非完全有信心，但我的信心足以讓我認為，讓更多人探索 AGI 安全產品的方向是有影響力的。

AGI 安全產品的定義

既能顯著提高 AGI 安全性又能盈利的產品

AGI 產品的理想條件/要求包括：

直接且差異化地加速 AGI 安全性，例如：為 AGI 公司的對齊團隊提供更好的工具或評估手段。
處於**「通往 AGI 的路徑上」**，即有一個明確的假設，說明為什麼這些努力會提高 AGI 等級系統的安全性。例如：與架構無關的機械解釋性（mechanistic interpretability）工具，可能使人們對任何類型的前沿 AI 系統有更深入的理解。
導致更安全的前沿 AI 代理部署，例如：透過提供監控與控制手段。
來自市場的反饋能轉化為前沿安全性的提升。換句話說，為客戶改進產品的同時也增加了前沿安全性，而不是將工作重心從前沿安全轉移。
開發這些工具是盈利的。

我預期有多個領域與 AGI 安全產品高度契合：

評估（Evaluations）： 開發用於大規模自動化生成、執行和分析評估的工具。
前沿代理的可觀測性與控制（Frontier agent observability & control）： 經濟體中將部署數以千億計的前沿代理。開發和部署這些代理的公司會希望了解其失效模式並獲得精細的控制權。
機械解釋性（Mechanistic interpretability）： 讓前沿 AI 系統的開發者和部署者能從更深層次理解系統，以改善對齊與控制。
紅隊演練（Red-teaming）： 自動化地針對多種失效模式攻擊前沿 AI 系統，以發現漏洞。
電腦安全與 AI： 開發基礎設施和評估體系，以評估前沿模型的駭客攻擊能力，並提高 AGI 開發者與部署者的電腦安全性。

我認為以下幾家公司和工具屬於此類別：

Goodfire 正在開發前沿的機械解釋性工具。
Irregular 正在開發 AI 與電腦安全交叉領域的優秀評估工具和產品。
AI Underwriting Company 制定前沿 AI 安全風險的標準與保險。
Gray Swan 處於紅隊演練與電腦安全的交叉領域。
Inspect 和 Docent 是優秀的評估與代理觀測工具。雖然兩者目前由非營利實體開發，但我認為它們也可以由營利公司開發。
在 Apollo Research，除了研究工作外，我們現在也在開發 AI 程式碼代理的監控與控制產品。

太陽能類比： 直覺上，我認為許多其他技術也經歷過類似的軌跡：起初受限於科學見解，因此最適合留在大學和研究機構；隨後受限於大規模製造與普及，因此更適合留在營利企業。我認為我們現在正處於這樣一個階段：AI 系統已足夠先進，對於某些領域，從市場反饋中獲得的見解至少與傳統研究機制獲得的一樣有用。

論點 1：足夠的激勵一致性

在我看來，AGI 安全產品可行性的核心關鍵在於：降低 AGI 極端風險的動機，是否與直接市場反饋產生的動機足夠接近。如果兩者足夠接近，那麼 AGI 安全產品就是一個合理的想法。如果不是，那它們就是一個糟糕的主意，因為新的激勵措施會把你拉向影響力較小的方向。

我目前的觀點是，現在至少在某些 AI 安全子領域，市場激勵產生良好安全結果是非常有可能的。

此外，我認為激勵格局自 2024 年底以來發生了快速變化，當時我們首次觀察到理論預測的失效模式出現了「雛形版本」，例如：具備情境覺察的獎勵作弊（situationally aware reward hacking）、工具性對齊偽裝（instrumental alignment faking）、語境內謀劃（in-context scheming）等。普通消費者現在有時會在實踐中看到這些雛形，例如：Replit 資料庫刪除事件。

時間上的遷移：AGI 可能是當前系統的擴展版

我預期能夠自動化 AI 研究本身的 AI 系統將源自當前範式的某種版本。具體而言，我認為它們將是基於 Transformer 的模型，經過大規模預訓練，並在日益長期的任務上進行海量的強化學習（RL）運行。我預期在記憶力和持續學習方面會有額外的突破，但它們不會從根本上改變範式。

如果這是真的，那麼今天的許多安全工作可以直接轉化為更強大 AI 系統的安全性。例如：

改進評估工具與架構基本無關，或者比起未來從零開始構建，能更快地適應未來的變化。
許多前沿 AI 代理的觀測與控制工具及見解可以遷移到未來的系統。即使思維鏈（chain-of-thought）不可解釋，與其他系統的介面（例如程式碼）很可能在較長時間內保持為英文。
許多機械解釋性的努力是與架構無關的，或對其他架構有部分遷移性。
AI 與電腦安全通常完全與架構無關，更多地與系統的權限及使用人員有關。

這是一個非常關鍵的假設。我預期任何不認為當前安全研究能有效遷移到可自主進行研究的系統的人，都不會被 AGI 安全產品所說服（例如，如果你認為 AGI 安全主要受限於代理基礎等理論進展）。

問題空間的遷移：某些前沿問題與具有大規模需求的安全性問題並非迥異

有些問題顯然與 AGI 安全相關，例如：確保內部部署的 AI 系統不會進行謀劃。也有些問題具有大規模需求，例如：確保模型不會洩露公司的私密資訊或被破解（jailbroken）。

在許多方面，我認為這些問題空間並不重疊，但在某些明確的情況下它們確實重疊，例如前一節列出的四個例子。我認為大多數相關案例具有以下兩個屬性之一：

它們受限於方法的突破： 例如，一旦你擁有一個運作良好的解釋性方法，就可以輕鬆地將其應用於各種問題，包括近期和與 AGI 安全相關的問題。或者，如果你建立了一個校準良好的監控流程，也很容易適應不同類型的失效模式。
近期問題的解決方案也對 AGI 安全有貢獻： 例如，用於防範組織內外惡意行為者的各種訪問控制改進，在防範未來失對齊的 AI 模型方面也很有用。

因此，在這些情況下，可以開發出一種產品，既能為大量客戶解決大規模問題，且該知識能遷移到 AGI 安全核心中那一小部分失效模式。這裡的一大好處是，你可以在擁有更多證據和反饋機制的大規模問題上進行更快速的迭代。

論點 2：認真對待 AGI 與經濟

如果你假設 AI 能力在未來幾年和幾十年將繼續提升，那麼人類被 AI 系統超越的經濟比例將持續增加。讓我們稱之為「AGI 吞噬經濟」。

當 AGI 吞噬經濟時，人類監督者將需要工具來確保其 AI 系統是安全且可靠的。在那個世界裡，AI 安全很可能是一個巨大的市場，類似於 IT 安全約佔 IT 市場規模的 5-10%。也有合理的論點認為比例可能更低（例如，如果技術對齊被證明很容易，那麼需要解決的安全問題就較少）或更高（例如，如果能力很高，唯一的阻礙就是安全/對齊）。

從歷史上看，幾乎任何領域中最具影響力的參與者都是私營產業或政府，很少是非營利組織。如果我們預期 AGI 會吞噬經濟，我預期最具影響力的安全參與者也將是私營公司。領先的安全參與者必須真正理解並關心極端風險，這一點至關重要，因為根據定義，這些風險必須主動應對而非被動反應。

此外，深度防禦策略的各個層級都可能受益於營利性的分發。我認為 AGI 安全工作最大的槓桿仍在 AGI 公司層面，但在部署端建立額外的防禦層，或覆蓋實驗室自身未處理的失效模式，似乎是合理的。鑑於實驗室之間的競爭動態，我們不指望所有的 AI 安全研究都由 AI 實驗室承擔。此外，即使實驗室承擔了更多安全研究，擁有獨立的第三方來提供額外工具並保持更純粹的動機仍然是有益的。

我認為 AI 安全營利實體的另一個強大的直接影響力論點是，你可能會獲得大量現實世界的數據和反饋，否則很難獲得。這些數據使你能夠更好地理解現實世界的失效，建立更準確的緩解措施，並在大規模上測試你的方法。

論點 3：自動化 AI 安全工作需要規模化

我之前曾主張我們應該已經嘗試自動化更多的 AI 安全工作。我也相信自動化 AI 安全工作在未來會變得越來越有用。重要的是，我認為自動化 AI 安全工作存在相關的細微差別，也就是說，你的計劃不應依賴於某種模糊的承諾，即未來的 AI 系統將取得巨大突破並藉此「解決對齊問題」。

我相信這種自動化主張同樣適用於 AGI 開發者和外部安全組織。我們在 Apollo 自己的預算中已經清楚地看到了這一點，如果幾年後運算資源（compute）成為最大的預算項目，我也不會感到驚訝。

我設想的情況包括：

一個很大程度上自動化的評估堆疊，能夠迭代地設計、測試和改進評估。
一個很大程度上自動化的監控堆疊。
一個很大程度上自動化的紅隊演練堆疊。
甚至可能是一個運作良好的自動化 AI 研究實習生/研究員。
等等。

對於這些堆疊，我假定它們可以隨著運算資源顯著擴展。我認為目前情況尚非如此，因為仍需要過多的人為干預；然而，顯而易見的是，我們現在擴展自動化流程的能力已遠超一年前。推斷這些趨勢，我預計在 2026 或 2027 年，你可以在自動化 AI 安全工作上投入 1000 萬至 1 億美元的運算成本。雖然我認為第一批能做到這一點的人，是那些已經開始建立自動化流程，並在如何將整體問題分解為更多可獨立驗證和重複的區塊方面取得概念性進展的組織。

雖然此類努力的資金可以來自慈善資助者（我也認為這應該成為日益重要的資助領域），但在資本市場籌集擴展資金可能更容易（儘管這很大程度上取決於該堆疊的具體細節）。在理想情況下，可以透過慈善資金支持主要產生研究成果的擴展工作，並透過私募市場支持同時具有明確商業案例的擴展工作。

此外，我認為速度在這些自動化擴展努力中至關重要。如果一個組織已經達到在小規模上展示成功並有明確的擴展成功跡象（例如小規模的擴展定律），那麼它的主要障礙就是獲得投資運算資源的資本。雖然慈善資助者與私人資助者的做法可能有很大差異，但我猜測平均而言，資本在風險投資（VC）界流動得更快。

論點 4：市場不會自行解決安全問題

如果 AGI 安全工作是盈利的，你可能會爭辯說其他受利潤驅動的參與者會佔領這個市場。因此，受影響力驅動的人不應關注營利角度，而應始終關注市場尚無法解決的下一個挑戰。雖然這個論點有其道理，但我認為它忽略了許多重要的考量：

市場往往需要被創造： 在「如果某物存在，人們會為之付費」與「某物是絕對必需的，以至於市場必然存在」之間存在著巨大的光譜。特別是在像 AGI 安全這樣很大程度上是在對未來特定事件下注的市場中，我認為我們更接近「市場需要被創造」而非「市場必然存在」。因此，我認為我們目前正處於一個可以創造市場的時點，但若順其自然，可能還需要數年時間才會發生。
人才與想法是核心障礙： 最了解 AGI 安全的人通常要麼在外部非營利 AI 生態系統中，要麼在前沿 AI 公司中。即使一個純粹受利潤驅動的組織決心開發優秀的 AGI 安全產品，我預期他們也很難開發出真正好的工具，因為多年的經驗和理解是很難被取代的。
長期願景至關重要： 特別是對於 AGI 安全產品，了解你的發展方向非常重要。因為風險可能是災難性的，你不能完全是被動反應的；你必須主動預防一系列威脅，使其永遠不會發生。我認為除非你有明確的內部威脅模型，並能夠在風險出現之前（即在遇到經驗反饋循環之前）開發出技術，否則很難（如果不是不可能的話）建立這樣的系統。對於 AGI 安全產品，希望在於某些經驗發現能轉化為未來的安全產品；然而，仍需要有意義的理論理解來識別哪些部分是無法遷移的。
被拉向側邊的風險： 對於開發 AGI 安全產品的人來說，核心風險之一是「被拉向側邊」，即你帶著良好的意圖開始，但經濟激勵將你拉向一個減少影響力但增加短期利潤的方向。我認為在許多情況下這都是一個因素，例如：你可能開始設計安全評估，然後轉向開發能力評估或強化學習環境。我的猜測是，這需要使命驅動的參與者始終堅持以安全為中心的議程，而不被分心。

因此，我相信與由 AGI 安全影響力驅動的個人創立的營利企業相比，那些僅旨在最大化利潤的對沖組織在開發高品質安全產品方面的效率會顯著降低。此外，我認為擁有一些使命驅動的營利企業是理想的，因為它們可以創造規範並設定標準，進而影響其他營利公司。

局限性

我認為 AGI 安全產品的方向存在許多潛在的局限與警示：

在安全的許多子領域，市場反饋是積極有害的，即因為沒有明確的商業案例，從而迫使組織轉向具有更明顯商業案例的事物。例如：
- 幾乎所有與理論相關的事物，例如：代理基礎（agent foundations）、自然抽象（natural abstractions）、理論界限。例如 MIRI 或 ARC 似乎不應成為營利企業。
- 幾乎所有與 AI 治理相關的事物。我認為諮詢性質的 AI 治理組織是有可能的，例如幫助公司實施更好的治理機制或支持政府。然而，我認為為治理工作開發產品太難了。因此，我認為大多數 AI 治理工作應該在非營利組織中進行，或者作為大組織中不承受利潤壓力的小型團隊來進行。
- 許多好的安全研究可能在小規模上是盈利的，但它不是一個能獲得投資者支持的可擴展商業模式。在這種情況下，它們可以是非營利組織、小規模諮詢公司，或是大型組織中虧損的部門。
遷移論點是關鍵支柱。 我認為 AGI 安全產品是好是壞，幾乎所有的關鍵都在於：你從產品端學到的東西，是否能有效地遷移到你真正關心的未來系統中。我目前的直覺是，透過嘗試讓今天的系統更安全，可以獲得豐富的知識。然而，如果遷移性太低，多走一步去產品化反而會分散注意力，而非提供幫助。
被拉向側邊。 開發產品引入了一套全新的激勵機制，即追求盈利。如果利潤激勵與安全性一致，那很好。否則，這些新的激勵可能會不斷拉動組織，以安全進展換取短期利潤。以下是一些可能的例子：
- 一個組織開始開發安全評估並賣給實驗室。實驗室同時也需要能力評估和強化學習環境，而這些更具盈利性。
- 一個組織開始開發安全監控器，但這些監控器也可以用於能力分析。後者更具盈利性，因此組織將更多精力轉向能力應用。
- 一個組織開始為 AGI 實驗室開發安全相關的解決方案。然而，AGI 實驗室並非足夠大的市場，因此他們被拉向為企業客戶提供不同的產品，而這缺乏明確的遷移論點。
動機性推理（Motivated reasoning）。 對於任何嘗試開發 AGI 安全產品的人來說，核心失效模式之一（也是我個人擔心的）是動機性推理。對於幾乎每一個以安全進展換取利潤的決定，總能找到一些理由說明為什麼這從長遠來看實際上可能更好。
- 例如：
  - 也許在你的產品組合中加入能力環境有助於組織成長，從而也增加了你的安全預算。
  - 也許為非安全失效模式開發監控器能教你如何開發更好的通用監控器，進而遷移到安全領域。
- 我確實認為這兩個論點都可能是正確的，但要區分它們何時正確、何時不正確是非常困難的，而動機性推理會使這種評估變得更加複雜。

結論

AGI 安全產品是一個好主意，當且僅當 產品激勵與安全性一致並能顯著提高安全性。在這種情況下，我相信市場提供了更好的反饋，讓你能夠更快地取得更安全的進展。在不成立的情況下，你會被拉向側邊，以安全進展換取短期利潤。

在 2025 年期間，我們對這個關鍵點進行了深入思考，我認為在一些領域 AGI 安全產品很可能是一個好主意。我認為安全監控是最明顯的答案，因為我預期它具有顯著的遷移性，且許多經濟參與者都會有廣泛的市場需求。然而，這尚未在實踐中得到驗證。

最後，我認為如果能有一些計劃，讓人在決定組織形式之前，先探索其研究是否能成為 AGI 安全產品，將會非常有益。如果答案是肯定的，他們就成立共益企業（PBC）；如果答案是否定的，他們就成立非營利組織。例如，慈善家或營利性資助者可以資助為期 6 個月的探索期，然後根據發展方向，其資金追溯轉換為股權或捐贈（目前已有少數類似計劃，例如 EF 的 def/acc、50Y 的 5050、catalyze-impact 和 Seldon lab）。

— Lesswrong