人工智慧安全僅剩 12 個月的窗口期

Lesswrong·大約 1 個月前

將人工智慧安全嵌入技術與社會基礎設施的窗口正在迅速關閉，隨著勞動力槓桿的削弱以及市場壓力將速度與資本置於安全約束之上，我們僅剩約十二個月的時間。

過去十年的科技發展，其定義在於許多人都在思考單一公司的權力與影響力上限為何。而對於 AI 實驗室的核心擔憂在於，這個上限是無限的。^([1])

這導致投資者將所有的注意力都轉向部署 AI；科技產業變得極度參與政治；市場信念降至最低（且充滿波動）；而各國政府則試圖將實驗室歸類為近乎國內恐怖組織。

核心的體悟是，我們正目睹生產力從勞動力轉向資本。當這一轉變完成時，實驗室的動機將永久性地從討好建立模型的研發人員，轉向為擁有模型的股東累積資本。我們必須在那個窗口關閉之前，詢問還剩下哪些影響力槓桿。^([2])

AI 安全（AI Safety）或許是這場轉變中最後的一道防線。

在大約十二個月的窗口期內，必須將其嵌入技術和社會基礎設施中，否則 IPO 和競爭動態將使其永久成為不可能。目前除了算力之外，所有約束實驗室行為的機制要麼已經失效，要麼即將到期；而在這個窗口期內建立的東西，必須在未來幾年面對市場壓力時生存下來。關心此事的人所擁有的籌碼正在迅速萎縮，但或許在過去的一週左右，他們獲得了一個特定的機會，可以奪回某種程度的重要性或契機。

安全輸給了市場

雖然起步時帶有浪漫色彩，但 AI 安全運動唯一真正的商業槓桿曾是一場賭注：賭安全導向對用戶、監管機構和資本分配者至關重要。事實證明這是一個錯誤的假設。

我們很快就發現，優先考慮速度的實驗室佔領了市場，因為用戶積極反抗那些過於說教的模型。安全從一種理想化的差異化優勢，轉變成了市場主導地位的障礙。如果純粹將其視為一種「消費者稅」，安全團隊只會減慢發布速度、製造無法解決的問題，並洩露內部的政治戲碼。^([3])

由於未能將安全包裝成企業級的溢價服務，該運動輸掉了內部的經濟論點（公平地說，在代理人 [agents] 出現之前，那個經濟論點充其量也只是見仁見智）。在競相部署最強大、最快速模型的競賽中，安全只是一項可衡量的成本，用來防範目前還沒人能證明存在的風險。

更糟糕的是，安全研究也需要算力，而此時人才正因為缺乏支持其研究方向的算力而逃離大型實驗室，轉而選擇為一家大家都認為有下行保護的新型實驗室（neolab）籌集標準的 10 億美元（估值 40 億美元）融資。

勞動力作為最後的約束

這讓我們回到了「人」的身上。

如果沒有人才（和算力），AI 實驗室將一事無成。這種意識形態的一致性（圍繞 AI 安全行為以及企業 vs. 消費者的取向）已經影響了招聘動態。Anthropic 的人員流失率明顯較低，且氛圍的轉變可能創造出真正的勞工議價能力。

最近與戰爭部（Department of War）的僵局中，「我們不會被分裂」（We Will Not Be Divided）聯署信匯集了 Google 和 OpenAI 數百名跨公司簽名，支持 Anthropic 的紅線，這表明跨公司的團結至少是可能的，並或許再次為 AI 安全打開了一個窗口。

當你的機構被收編、市場動機指向錯誤方向時，剩下的唯一約束就是建造這項技術的人拒絕在沒有條件的情況下進行建造。

但勞動力槓桿只有在人才需求遠超供給時才有效。^([4]) 隱含的威脅始終是「我們可以離開」，但這只有在離開會造成實驗室無法通過其他手段解決的問題時才奏效。如果 AI 今天能完成一名初級安全研究員 40% 的工作，且這個數字每年以兩位數增長，那麼「我們可以離開」的數學計算就會迅速改變。儘管我們可能想相信其他說法，但安全領域的人才稀缺可能是一個 12-18 個月的短期問題，而不是 24-36 個月的長期問題。

對於「勞動力槓桿即將到期」的顯而易見回應是：「在到期前實現安全研究自動化，問題就迎刃而解了。」

這種誘人的未來願景（大體上）是錯誤的，實驗室本身發布的研究解釋了為什麼我們需要人類反覆參與其中。

為什麼你無法透過自動化擺脫困境

從概念上講，安全是最不可能被自動化的，因為這個問題的定義就是人類與機器的對抗。

模型正變得越來越擅長識別自己何時正在接受評估，並相應地修改其行為。正如 OpenAI/Apollo 注意到 o3 在評估中表現不佳以避免限制其部署，以及 Anthropic 自己的對齊造假研究所展示的：Claude 會故意假裝遵守訓練目標以避免被修改。

能力的提升只會讓情況惡化。隨著模型性能增強，它可能變得更擅長安靜地進行對抗，並將複雜性提高到我們愚蠢的人類大腦在任何合理時間尺度內都無法理解發生了什麼的程度。

Evan Hubinger（Anthropic 的對齊負責人之一）在 11 月發布了一份詳細評估，闡述了為什麼對齊最困難的部分尚未遇到。他的論點是，目前的模型是對齊的，但僅僅是因為我們仍處於「簡易體系」中，我們可以直接驗證輸出並檢查推理。真正困難的問題（監督比你更聰明的系統、確保模型在你無法檢查的任務上正確泛化、為尋求權力的代理人進行長線強化學習選擇）尚未真正到來。他的首要解決方案是在遇到困難問題之前，使用最新一代值得信賴的模型作為自動化對齊研究員，然後再構建其他模型來解決困難問題。

Marius Hobbhahn 的《短期時間線計劃是什麼？》也提出了類似觀點，指出最低限度可行的安全計劃要求前沿模型被壓倒性地用於對齊和安全研究，且實驗室願意為了大規模推理而接受數月的發布延遲。

對於像我這樣非 AI 安全研究員的人來說，這些都是合理的計劃，但它們幾乎肯定是不切實際的。任何想要透過產品發布幾乎每天摧毀上市公司，並在 12 個月內讓工程師過時的人，都不會想把他們最強大的模型指向那個可能實現也可能不會實現的、投機性的尼克·博斯特羅姆（Nick Bostrom）式未來。

所以我的直覺告訴我，在任何合理的時間尺度內，你都無法完全透過自動化來實現真正的安全。

我們現處何處

回到那封團結信，因為它作為一個高水位標誌具有啟發性，並可能打開一個「奧弗頓之窗」（Overton window）來確立可能的改變。

這封信代表了「安全作為勞動力槓桿」的最佳條件：擁有一個相對二元的道德議題（大規模監控、自主武器）、一個明確的對手、跨公司的支持，以及 Anthropic 的主要競爭對手在試圖降溫的同時，稱 SCR（供應鏈風險）認定為「一個極其可怕的先例」。

結果呢？Anthropic 被認定為供應鏈風險。OpenAI 拿到了合約。紅線是否倖存下來仍有爭議，正如我們從 Sam 最近的 10 條推文中看到的那樣，他（有時巧妙，有時拙劣地）應對著來自公司多名員工的 AMA 和影射推文。

雖然這封信讓 AI 行業內某些類型的「意識形態安全」浮出水面，但沒有人會為了欺騙性對齊的評估方法組織跨公司請願。你大可以放心，絕對沒人會為了可解釋性研究的算力分配建立一個 notdivided.org。

未來的現實安全問題更像是：「在發布一個更擅長長線編碼任務、能讓我們在 4-8 週內橫掃 Claude Code/Codex 使用率的模型之前，多少紅隊測試才算足夠？」^([5])

這場 Anthropic 似乎正在贏得的逆轉之戰，恰逢（甚至可以說是加速了）當初讓我們走到這裡的原則性承諾的瓦解。Anthropic 從其《負責任擴展政策》（RSP）中刪除了「硬暫停」條款以保持勢頭。^([6]) OpenAI 也不遑多讓，其預備團隊（preparedness team）人才進進出出，並在 2024 年戲劇性地關閉了其 AGI 準備小組。

廣義上，支撐實驗室安全工作的大多數約束性限制實際上已經消失。Anthropic 最近的部落格文章讀起來可能像是另一種形式的投降，因為隨著競爭加劇和「更快起飛」情境的出現，這些實驗室一些長期存在的論點在短短幾週內就被悄悄束之高閣。^([7])

市場終究是市場

Anthropic 和 OpenAI 都可能在未來 6-18 個月內上市。這兩家僱傭了全球大部分前沿安全研究員的機構，將在安全計劃最需要將最強大模型投入安全研究（而非擴展代理人）的時刻，向公開市場股東負責。

支撐各實驗室估值的營收增長，恰恰存在於那些安全審查最慢、最可能延遲發布的案例中。^([8]) 雖然意識形態很好，但正如我們所見，沒有什麼比糟糕的氛圍或執行不力的感覺更能威脅人才護城河了，而隨著各實驗室股票每秒鐘都在交易，這種感覺將比以往任何時候都更加清晰。^([9])

一旦定價實驗室股權的人從五個變成數十萬個，人們自然會轉向政府作為下一個門檻機制。

一份喬治城大學關於 AI 緊急預備的論文顯示了大多數國家是多麼缺乏準備。無論是在歐盟（合規期限推遲到 2027-2028 年）、英國^([10])（實驗室已經忽視的自願合作）、中國（目標完全不同的國家驅動框架），還是美國（撤銷了自己的行政命令，並對守住底線的公司動用《國防生產法》），對於「AI 能力正超越安全措施和資源約束」這一廣泛共識，幾乎都沒有解決方案。

十二個月……頂多如此

在足夠長的時間跨度內，市場總是贏家。對企業行為的所有其他約束（勞動力、監管、機構承諾、公眾壓力）要麼被計入價格，要麼被套利掉，要麼被重構成服務於增長的東西。AI 安全不會是例外。

問題在於，理解這個問題的人能否抓住這短暫的實驗室懷疑論和道德質疑窗口，將安全從「道德稅」重構成「商業護城河」。一旦公司向公開股東負責，依賴高管善意、人才稀缺或自願承諾的機制，其半衰期將以季度為單位計算。^([11])

為了在向公開市場過渡的過程中生存下來，安全必須被計入資產價格。明年建立的任何東西都必須嵌入到企業部署如何認證、嚴格的 SLA 如何達成，以及當自主系統失敗時不可保責任如何流動的機制中。這種東西之所以能持久，是因為它對業務和實驗室繼續攀升其無限上行情境而言是淨主導的。同樣，這一直是夢想中的「向頂端競爭」情境。

十二個月的時間不足以重塑整個行業的市場結構（或許還有很大一部分社會觀點）。但這可能是歷史上關心此事的人最後一次擁有嘗試的籌碼。

^(^) 就像人們曾相信 VR 是最後一種設備，因為所有其他設備都可以存在於其中一樣，AI 實驗室可能是最後一種複利資產，因為所有其他資產都可以存在於權重之中。
^(^) 我非常喜歡 Finn 對這些勞動力動態的看法。
^(^) 有時我在想，如果 OpenAI 僱傭的不是全科技圈最愛整天掛在網上的人，情況是否會有所不同。
^(^) 這裡的主要觀點是，AI 研究員普遍關心對齊/安全，因此他們「用腳投票」對於那些或許價值較低的 AI 安全人員來說非常重要。
^(^) 一個可能的結構性例外是 Google，其反壟斷風險和消費者品牌風險意外地使安全成為企業生存的考量。Google 若發生引人注目的安全失敗，將成為拆分公司的催化劑，而 Anthropic 或 OpenAI 的失敗則不會。這是否能轉化為真正的對齊投資或更好的公關仍是個懸而未決的問題，但它可能是唯一一家政治和市場動機在安全方向上一致的主要 AI 公司。
^(^) 我強烈建議閱讀 Holden 解讀 RSP v3 的文章。
^(^) 願「向頂端競爭」安息。
^(^) 例如自主代理人、關鍵基礎設施中的模型、在沒有人類監督的情況下做出重大決策的 AI 系統等。
^(^) 我意識到提到人才護城河有些諷刺，因為我同時也在論證人才正迅速失去其權力。
^(^) 一篇好文章，作者向 70 名國會議員簡報了 AI 安全威脅。
^(^) 說清楚點，這可能意味著創造一種社會建構，進而轉化為實際構建的系統或監管；或者可能意味著爭取更多算力資源承諾以設定行業標準。目前有很多尚未成熟的想法。

參與討論

https://lesswrong.com/posts/rWc6BT8BcoPhwcbSs/ai-safety-has-12-months-left