構建推動人工智慧治理的技術

Lesswrong·2 個月前

我主張技術專家應選擇第三條路徑來參與 AI 治理：開發能透過強化測量與降低成本來改變底層動態的技術。藉由讓風險變得可視化並讓安全實踐在經濟上可行，我們可以為有效的監管與系統性變革奠定必要基礎。

具備技術專長且關心 AI 發展前景的人經常問我：如果我認為 AI 治理（AI governance）很重要，我該如何投入時間？我所說的治理，是指規範 AI 開發方式的約束、激勵機制與監督。

一種選擇是專注於解決生產端問題的技術工作，例如對齊研究（alignment research）或防護措施。另一種常見的直覺是直接參與政策：轉向政策職位、資助倡議活動或遊說決策者。然而，內部的技術工作對於改變 AI 開發的整體激勵機制作用有限：若缺乏外部激勵，安全方面的努力將受限於領導層的優先順序，而這些優先順序最終是由商業壓力和競爭動態所決定的。相反地，投身政治意味著放棄你的主要比較優勢，進入一個充滿經驗老道的操盤手、擁擠且棘手的領域。

我想提出第三條路：打造驅動治理的技術，透過改變 AI 開發的底層動態來發揮影響力，包括可用資訊、人們面臨的激勵機制，以及可供選擇的方案。以另一個領域為例：石油和天然氣作業曾排放大量甲烷，直到紅外線成像技術讓這些洩漏變得可從太空測量，進而促使歐盟對化石燃料進口要求符合衛星驗證的標準。更廣泛地說，在氣候變遷、食品安全和流行病應對等領域，有兩種技術機制反覆推動著治理：

測量（Measurement）：創造透明度，實現問責制，並使監管變得可行。
降低成本（Driving down costs）：使良善行為在經濟上具備實踐性，並能化解顯而易見的權衡取捨。

我將首先展示這些模式如何在氣候、食品安全和流行病應對中發揮作用；前兩者在結構上與 AI 尤為相似。接著，我將說明同樣的框架如何識別出 AI 治理中需要構建的重要技術，其中許多技術才剛剛開始發展。

如果你擁有強大的技術能力，構建這些技術是目前你能做的最具槓桿效益的事：其影響力超過忽視治理的直接技術工作，也超過脫離技術解決方案的政策工作。這種跨領域的工作目前被嚴重忽視，而治理的瓶頸往往從根本上是技術性的：我們無法監管無法測量的事物，且在理想的做法變得廉價且可複製之前，它們無法成為標準。

其他領域的技術槓桿

歷史案例研究有助於落實當前的實踐。AI 與另外兩個熟悉的領域具有結構上的共同特徵：

氣候變遷：溫室氣體排放會造成當前的損害（污染；對應 AI 的劣質內容）以及未來的長尾風險（全球暖化；對應 AI 的失控）。
食品安全：企業有商業動機去操弄人類的獎勵系統（垃圾食物；對應諂媚的 AI）；且存在著會產生危險副作用的優化壓力（抗藥性細菌；對應具欺騙性的 AI）。

在氣候領域，測量的改進和成本的降低都顯著推動了更好的結果。它們透過以下方式提供幫助：

測量以導引策略。公共測量能為策略提供資訊並激發行動。全球氣溫和二氧化碳的監測（基林曲線）是現代氣候政策的基石，並幫助我們持續監測進度。

測量以改變激勵機制。場址層級排放的衛星影像改變了激勵機制，使甲烷洩漏變得可見且可歸因於特定營運商，現在重大洩漏在偵測到後的幾天內就能得到修復。

測量以實現治理。被稱為底盤動力計的道路阻力模擬器讓監管機構能產生可重複的燃油效率測量值，這使得 CAFE 標準成為可能。同樣地，工業二氧化碳排放的連續測量對於總量管制與交易制度也是必要的。

降低成本以改變均衡。二氧化碳排放量減少的最大驅動力，或許是廉價風能與太陽能的出現。這說明了一個強大的動態：隨著生產規模擴大，成本沿著經驗曲線（有時稱為賴特定律）下降，直到清潔能源成為預設選項而非替代方案。在達到這個轉折點之前，去碳化意味著要與經濟激勵對抗；在轉折點之後，激勵機制轉向同一方向，市場便會自動推動進一步的研發。

降低成本以化解權衡。同樣的賴特定律動態也能幫助解決棘手的困境。在電動車出現之前，社會面臨著降低排放與交通便利之間的權衡。隨著電池生產規模擴大且成本下降，電動車進入大眾市場，這種權衡便開始消解。

這些模式出現在氣候、食品安全和 COVID-19 中。下表總結了這些模式，並列出了我們將在下一節描述的 AI 即將面臨的挑戰。

角色	技術	治理影響	領域
導引策略	全球氣溫 + 二氧化碳監測	了解暖化正在發生及其速度	氣候
	COVID-19 檢測	了解增長率與盛行率	COVID-19
	METR 時間跨度, Epoch 趨勢報告	追蹤能力增長；校準政策門檻	AI (已存在)
改變激勵	衛星甲烷影像	使場址級洩漏可見，產生修復壓力	氣候
	行為基準測試（諂媚、欺騙等）	創造競爭壓力以改善模型行為	AI (需求中)
實現治理	底盤動力計	為 CAFE 標準實現可重複的燃油效率測量	氣候
	連續排放監測	實現總量管制與交易及排放監管	氣候
	食源性細菌的基因定序	實現疫情歸因與精準執法	食品安全
	算力核算、評估標準	實現對訓練過程與模型部署的監督	AI (需求中)
改變均衡	風能與太陽能	在公開市場取代髒能源	氣候
	巴氏殺菌法	讓安全牛奶成為廉價的預設選項	食品安全
	疫苗	使大規模預防在經濟上可行	COVID-19
	廉價的代理人評估	讓嚴格監督成為標準做法	AI (需求中)
化解權衡	電動車	化解排放與便利之間的權衡	氣候
	隱私保護審計工具	化解透明度與智慧財產權保護之間的權衡	AI (需求中)

食品安全提供了一些技術賦能治理的最清晰案例。食源性細菌的常規基因定序使疫情歸因成為可能，進而實現了精準召回與執法。而廉價的巴氏殺菌法讓安全牛奶成為預設。與太陽能類似，補貼性的牛奶站最初證明了市場可行性，隨後商業投資降低了成本。強制性的巴氏殺菌標準現在已顯著減少了傷寒疫情。

最後，雖然 COVID-19 在結構上與 AI 的相似度較低，但技術帶來的勝利卻很顯著。檢測創造了病毒傳播的透明度，導引了從個人治療到國家政策各個層級的應對。廉價疫苗降低了預防成本，解決了經濟常態與感染控制之間的權衡。

AI 的具體技術槓桿

對於 AI 而言，與其他領域一樣，測量是驅動治理的關鍵槓桿之一。我將主要關注這個槓桿，測量正幫助追蹤 AI 的發展軌跡、創造改善模型行為的競爭壓力，並使監管具備可執行性。接著我將轉向降低成本，我們將主要考慮降低監督成本，包括透過自動化評估以及消除外部審計的障礙。

測量以導引策略。正如二氧化碳監測導引了氣候策略，我們需要能追蹤 AI 軌跡和接近門檻的指標。對於氣候，二氧化碳是一個自然的目標，因為從排放到暖化的因果鏈在科學上很明確。對於 AI，答案則不那麼顯而易見。

我認為一個極具說服力的例子是 METR 對代理人時間跨度（agent time horizons）的研究，它追蹤 AI 系統能自主完成任務的複雜度，以人類完成這些任務所需的時間來衡量。能無人監督完成長達一週任務的代理人，所帶來的挑戰與僅限於幾分鐘工作的代理人截然不同。METR 發現，自 2019 年以來，時間跨度大約每七個月翻倍一次。如果這種趨勢持續下去，我們可能會在幾年內看到具備一個月自主任務能力的代理人，這對勞動力市場和安全性都有重大影響。

另一個好例子是 Epoch 的 AI 關鍵趨勢報告。他們對訓練算力增長（每年約 4-5 倍）的報告有助於校準監管門檻被跨越的速度，而他們的成本估算則為「誰負擔得起訓練前沿模型」的問題提供了資訊。

測量以改變激勵機制。我們缺乏針對諂媚、欺騙、強化幻覺及類似行為問題的優質公共指標，目前這些問題即便有被測量，也多是隨機性的。在指標確實存在的地方，它們會產生競爭壓力：各實驗室在 Chatbot Arena 排行榜上爭奪領先地位，並在官方公告中顯著展示排名。針對行為問題的高品質公共儀表板也可以起到同樣的作用，就像一旦 EPA 評級標準化後，燃油效率就成了汽車製造商的賣點。這正是我們在 Transluce 思考的核心：識別哪些內容應該被測量以改善激勵機制，並構建測量的基礎設施。

測量以實現治理。歐盟 AI 法案要求前沿開發者使用「反映最先進技術的標準化協議和工具」進行評估；加州的 SB 53 和川普政府的 AI 行動計畫也提出了類似的預期。然而，若缺乏可重複的評估套件，此類要求將難以執行：開發者很大程度上自行定義如何測量其係統，使得結果難以比較。算力監測也面臨類似挑戰：追蹤大型訓練任務需要進行算力核算的技術工作，而這仍處於早期階段。

降低監督成本。在理想世界中，對 AI 系統進行嚴格的評估和監督將僅憑自然激勵就成為標準做法。開發者想知道其係統是否按預期運作；用戶和客戶需要保證；一旦評估變得廉價，市場力量和法律責任考量就會處理剩下的事情。

我們尚未生活在這樣的世界，部分原因是目前對代理人運行的高品質評估非常昂貴。例如，METR 經常在單個評估套件上花費數人月的工作量，原因在於涉及人類基準設定、進行多次試驗，以及手動分析結果以了解代理人成功或失敗的原因。我們需要讓這些分析變得足夠廉價以普及化，同時保持並提升其品質。

這基本上就是我們嘗試透過 Docent 實現的目標：構建能加速複雜代理人評估的工具。我們的經驗符合賴特定律模式：在許多用戶和問題上的反覆運算降低了成本，同時提升了品質。然而，對這些更難的評估任務（複雜的代理行為、細微的判斷失誤、長跨度下的欺騙模式）的需求雖在增長但仍處於萌芽階段；大眾市場傾向於關注毒性、幻覺或合規相關問題。這正是為什麼現在推動複雜監督任務具有高槓桿效益的原因，類似於在市場轉向之前的早期太陽能投資。

減少透明度與智慧財產權保護之間的權衡。作為一個社會，我們希望能審計 AI 系統在部署中是否表現不佳、驗證關於訓練實踐的聲明，並進行白箱安全分析。但這些目標目前與正當的智慧財產權疑慮存在權衡：公司不願讓外部各方訪問模型權重、訓練數據或系統日誌。

技術可以化解這種權衡。安全飛地（Secure enclaves）可以讓審計員在不提取底層權重的情況下運行分析。密碼學方法可以讓公司證明其訓練過程的屬性，而無需透露專有細節。結構化訪問協議可以實現第三方評估，同時限制離開公司的資訊。有了成熟的機密審計技術，更深層次的監督形式在實踐上將變得可行。

你可以做什麼

如果你具備技術專長且關心 AI 的良性發展，解決上述問題就是你發揮最大槓桿作用的地方。有效 AI 治理的瓶頸不僅僅是政治意志：選民和決策者都有監管 AI 的意願。瓶頸在於我們還沒有測量基礎設施、廉價的評估工具，或明確的政策選項來進行「良好」的監管。

這個領域在特定方面受到人才限制：測量和評估工作不如能力研究（capabilities research）那樣光鮮亮麗，且它需要技術技能與治理敏感度的罕見結合。從事這項工作的組織——Transluce、METR、Epoch、US CAISI 等——規模尚小且正在成長。如果這些論點引起你的共鳴且你符合特質，請考慮加入其中之一；或者，如果你看到無人填補的空白，請開創新的事業。

我們現在擁有一個獨特的機會，應對這些高槓桿挑戰是我最感到興奮的事。AI 將引發變革，這將為政策解決方案打開窗口，時間點可能比許多人預期的更早。問題在於，當窗口開啟時，我們是否已經準備好了技術基礎。

— Lesswrong

你的個人知識庫

構建推動人工智慧治理的技術

其他領域的技術槓桿

AI 的具體技術槓桿

你可以做什麼