以人工智慧推動認識論人工智慧的發展

Lesswrong·4 天前

本文探討了人工智慧的快速進步與自動化研發將如何改變認識論工具的開發，並分析了瓶頸如何從模型品質轉向算力、信任以及真值評估。

我們意識到 AI 的快速進步可能會改變各種公益領域。但我們此前尚未分析這對「AI 助力認識論」（AI for epistemics）意味著什麼，這是一個我們深切關注的領域。在本文中，我們試圖彌補這一疏忽。

摘要

能幫助人們辨別真相的 AI 驅動工具與服務（「AI 助力認識論」）可能至關重要。

隨著研發（R&D）日益自動化，AI 系統將在開發此類基於 AI 的認識論工具的過程中發揮更大的作用。這具有重要的影響：任何願意投入充足算力的人，都能夠快速構建出強大版本的工具。最終，難點將不在於構建有用的系統，而是在於確保人們信任正確的系統，並確保它們即使在難以驗證的領域也能追蹤真相。

我們現在可以做一些事情來準備。既得利益效應（Incumbency effects）意味著塑造早期版本使其變得更好，可能會產生持久的效益。幫助在具有雄厚財力的社會動機參與者中建立需求，可以讓這些效益更早實現，並掌握在更安全的人手中。在某些情況下，我們可以識別出未來可能成為瓶頸的特定事項，並直接針對這些事項開展工作。

背景：AI 助力認識論

AI 助力認識論——即讓 AI 系統提供更利於真相的答案，並構建有助於使用者認識能力的工具——在我們看來是一件大事。我們過去撰寫的相關主題文章包括：

這些過去的文章大多從「人們如何構建在這些方面表現更好的 AI 系統？」的角度出發。但或許我們應該更多地思考，當人們可以使用 AI 工具來完成越來越大比例的開發工作時，情況會發生什麼變化！

驅動 AI 認識論進步因素的轉變

目前，AI 助力認識論工具受限於兩個主要瓶頸：底層 AI 系統的質量，以及人們是否投入了認真的開發努力來構建使用這些系統的工具。

瓶頸的平衡正在發生變化。兩年前，底層 AI 系統的質量是核心瓶頸。今天，情況已大不相同——許多有用的工具可能基於目前的 LLM 就能運作。雖然隨著底層模型變得更強，這可能仍然是限制系統優劣的因素，但它已不再是根本性的阻礙。因此，開發投入已成為更大的瓶頸——我們非常有信心，有許多應用程式在今天就可以構建到高度實用的水平，只是（目前）還沒有人去做。

但瓶頸將繼續轉移。AI 正日益驅動研究與軟體開發。隨著 AI 系統變得更強，將龐大的算力預算轉化為大量的研發投入將成為可能。這可能包括產品設計、工程、實驗設計、方向設定等。擁有大量算力的參與者可以將其導向構建認識論工具。

因此，隨著 AI 驅動的研發加速，AI 助力認識論的其他投入更有可能成為關鍵瓶頸：

算力。 自動化研發可能需要大量算力。這可能用於推理（運行相當於人類研究員的程序）、進行實驗，以及訓練專業的 AI 系統。這意味著能夠構建最佳認識論工具的參與者可能是那些財力雄厚的人。
採用與信任。 如果沒人使用，或者錯誤的人在使用而正確的人不在使用，即使是非常好的工具也無濟於事。採用在一定程度上是信任的函數，而信任在一定程度上也是採用的函數——早期工具塑造了人們後來依賴的對象。
地面實況（Ground Truth）評估。 要使認識論工具變得優秀，你需要一些信號來定義什麼是「好」。這已經在很大程度上塑造了 AI 應用——編碼代理（coding agents）之所以如此出色，部分原因在於可以輕易獲取關於程式碼是否運行的地面實況。
- 對於某些認識論應用來說，這相對簡單（例如預測準確性）。對於其他應用則很難（例如，是什麼讓概念澄清真正具有啟發性，而不僅僅是讓人聽起來滿意？）。
- 大多數工具可能在遇到這個問題之前就能達到一定程度的實用性，僅僅是依賴基礎模型做出通常合理的判斷。
- 我們可以預見，當你試圖讓它們變得非常優秀時，這個問題就會顯現：如果你沒有評估質量的方法，就很難將其推向客觀上卓越的水平。
- 一個基本的解決方案是依賴人類判斷：要麼通過人類提供標籤和演示來進行訓練，要麼通過人類開發者在過程的其他部分行使判斷力（例如定義腳手架）。但隨著研發變得更加自動化，這會變得異常昂貴。

無論研發是完全自動化，還是「僅僅」代表對人類研究員的巨大提升，這些基本點都是成立的。但最重要的瓶頸將因應用而異，並隨時間繼續轉移。

這將開啟什麼

自動化研發意味著強大的「AI 助力認識論」工具可能會在壓縮的時間線內上線。

這是一個令人興奮的機會！提升認識論水平可以讓我們更有利地避免生存風險，並良好地引導我們度過選擇轉型期。

如果一切都在快速移動，我們獲得能力的確切順序可能至關重要。因此，對構建這些強大應用進行認真投資（而不是等到它們變得微不足道地便宜時）可能是關鍵。

AI 助力認識論快速進展的風險

AI 助力認識論應用的快速（且顯著自動化的）進展也可能在多個方面出錯。我們需要追蹤這些風險以防範它們。

在我們看來，兩個最大的風險是：

認識論對齊失誤（Epistemic misalignment）：由於地面實況問題，強大的工具將我們的思考引向非追蹤真相的方向，而我們卻未能察覺。
信任鎖定（Trust lock-in）：如果大量的人開始信任不值得信任的工具或生態系統，而這些工具又不斷自我推薦，這種情況可能會自我延續。

認識論對齊失誤

取決於它們何時出現，上述的地面實況問題可能是瓶頸，也可能是主動的風險來源。如果它們阻礙人們構建強大版本的工具，它們就是瓶頸。如果方法足以引導出強大的工具，但最終指向了錯誤的方向，它們就可能成為風險。這本質上是古德哈特定律（Goodhart’s law）——我們可能會得到一個針對錯誤目標高度優化的東西（甚至不知道如何檢測它是否微妙地出錯）。

在極限情況下，這可能導致人類或 AI 系統基於誤導性的認識論基礎做出極其重大的決定。例如，他們可能會將宇宙交給沒有意識的數位心智——或者相反，未能以數位心智應得的尊嚴和道德嚴肅性來對待它們。魏岱（Wei Dai）曾就元哲學的重要性寫過這一擔憂。我們同意這是一個至關重要的問題。

這可能與追求權力的失對齊 AI 風險分開出現，也可能同時出現。認識論工具可能在不追求權力的情況下系統性地誤導。但如果某些 AI 系統是失對齊且追求權力的，那麼就會有額外的擔憂：AI 系統可能會在我們無法檢查其答案時，以專門設計的方式誤導我們，從而剝奪我們的權力。

解決地面實況問題的一些方法可能涉及使用 AI 系統對事物做出判斷。這引入了一個遞歸問題：我們如何確保當過程展開時，最初 AI 系統中的微妙錯誤會縮小，而不是複合演變成更嚴重的問題？（我們在下面的干預措施部分會回到這一點。）

信任鎖定

信任與採用往往會互相強化——人們採用他們信任的工具，而廣泛採用的工具會累積信任。這通常沒問題。但如果贏得早期信任的工具並不值得信任，而既得利益效應使其難以被取代，這就會成為一個問題。

這可能以多種方式發生。具有特定意圖的參與者可以構建一個聲稱具有中立認識論輔助功能，但實際上是為了通過操縱他人來推進其意圖的東西。或者，雖然沒那麼惡意但可能更有可能發生的情況是，一個早期但平庸的工具在更好的替代品出現之前就累積了信任和採用，並受到商業動機的強化，這意味著它會自我誇大並貶低競爭工具。無論哪種情況，結果都可能是一個即使在有更好選擇時也難以撼動的認識論生態系統。

其他風險

這兩大風險並非唯一的擔憂。我們還有些擔心認識論權力集中（擁有最佳認識論工具的人利用其資訊優勢獲得更好的財務或政治結果，並繼續在認識論上保持領先），以及認識論依賴（依賴 AI 工具的人在批判性推理能力上逐漸萎縮——加劇了其他風險）。可能還有更多我們尚未追蹤的風險。

干預措施

在預見到 AI 驅動的研發可用於構建認識論工具的世界中，關心認識論的人現在應該做什麼？

在資源充足的參與者中建立對認識論研發的需求

如果你需要龐大的算力預算來構建偉大的認識論工具，理想情況下你會希望得到領先 AI 公司、主要慈善資助者或政府的支持。但他們目前可能不認為這是優先事項。建立「這很重要」的論據，並幫助這些參與者培養良好的品味，以決定優先開發哪些工具以及如何設計好它們，可以塑造當自動化研發強大到足以構建這些工具時，究竟會產出什麼。

預見未來的數據需求

某些認識論工具將需要目前尚不存在且生成起來並不簡單的訓練數據。這裡有三種策略：

現在就收集或創建數據或訓練環境供未來使用
- 例如，如果你認為你想獲取大量關於「明智決策是什麼樣子」的人類判斷，你可以現在就去策劃那個數據集。
建立隨時間收集數據的管道
- 例如，如果你想自動化某種類型的研究，你可以記錄從事該研究的研究員的內部討論。
設計自動化數據創建的流程
- 例如，如果你能設計一個自我博弈循環（self-play loop），且我們有充分理由相信擴大算力將導致真正追蹤真相的表現，這可以為以後核心能力的快速提升奠定基礎。

前兩項特別適合現在開展，因為它們涉及人類時間尺度的行動。（它們可能不會因為有更多 AI 勞動力可用而按比例加速。）第三項也很適合開展，因為模型有可能在有能力自己想出這個主意之前，就已經有能力通過正確的自我博弈循環大幅成長。

找出什麼可以讓我們免於認識論對齊失誤

如果強大的認識論工具可能在我們難以察覺的情況下與真相追蹤微妙地失對齊，我們應該弄清楚這看起來會是什麼樣子！我們預計這可能會受益於理論工作（在沒有明確地面實況的領域，一個校準良好的認識論工具到底意味著什麼？^([1])）和實踐工作（研究當前工具如何失敗，構建評估方法）的結合。最終，我們對解決方案的樣子還沒有清晰的藍圖，但這似乎是一個重要的課題，我們希望它能儘快得到更多關注。

在採用是關鍵瓶頸的地方推動早期採用

對於某些應用，我們預計影響的主要限制將在於是否有人使用它們。在這些情況下，讓早期版本投入使用——即使它們還不是很好——可以建立熟悉度並獲得現實世界的反饋。（這也可以推動進一步開發的需求。）

理論上，這可能與避免不良的信任鎖定相衝突。但在實踐中，目前尚不清楚特定領域的工具較早開發是否會增加不良信任鎖定的可能性。總會有某個工具會獲得先發優勢。^([2])

支持開放且可審計的認識論基礎設施

為了防範信任鎖定，我們希望讓人們能夠輕鬆區分哪些工具是真正值得信賴的，哪些工具可能不是（但聲稱是）。為此，我們需要讓個人和社群能夠審計不同的系統——了解其內部流程並衡量其行為。目標是，如果對於哪些工具真正值得信賴產生爭議，有一個可檢查的審計追蹤可以解決爭議。反過來，這應該會從一開始就減少創建誤導性工具的動機。

在動機相容的地方支持開發

構建認識論工具的人的動機可能很重要——這體現在成千上萬個微小的設計決策中、對優化目標的選擇中，以及關於訪問權限和定價的決定中。在動機與公眾利益一致（而非與參與度、利潤或政治影響力一致）的組織中進行開發，可以降低工具被微妙塑造以服務於開發者利益的風險。

理想情況下，你會激勵那些既資源充足（如前所述）又動機與公眾利益一致的參與者進行開發。在實踐中，可能很難找到在兩方面都表現卓越的組織。一個合理的折衷方案是，讓動機較好但資源較少的組織專注於對認識論工具進行公開的評估。這可能比從頭開始生產工具更便宜，並且可以為較大的參與者創造更好的動機。

案例

預測（Forecasting）

自動化研發可能能夠在沒有嚴重地面實況問題的情況下改進預測工具，因此認識論對齊失誤的擔憂較小。^([3]) 投資需求可能已經存在，而強大工具建立令人印象深刻、清晰可辨的過往記錄的能力，應該會顯著有助於採用。

短期內最有用的投資可能是數據基礎設施。例如，訓練具有嚴格歷史知識截止日期的 LLM，可以通過讓方法針對系統真正不知道答案的問題進行測試，從而實現更好的預測科學。

錯誤資訊追蹤

信任鎖定是核心擔憂。一個在裁定真相方面被廣泛信任的工具具有巨大的影響力，如果這種信任被錯付，可能很難撼動。開放且可審計的方法在這裡尤為重要。

由於信任鎖定的擔憂，研發的自動化可能會加劇挑戰。目前，構建良好的錯誤資訊追蹤工具需要編輯判斷和領域專業知識——這些是負責任的參與者往往擁有更多的東西。自動化將瓶頸轉向算力，而算力是更對稱可得的。這可能會增加啟動這些工具並儘早推動採用的緊迫性。

自動化概念研究

這是認識論對齊失誤最令人擔憂的情況。地面實況極其難尋——是什麼讓概念澄清真正具有啟發性，而不僅僅是讓人滿意？人類在實時判斷這一點上表現不佳，因此，例如獎勵人類認為有幫助的輸出的訓練過程，很容易優化出說服力而非真相追蹤。

這裡一個合理的發展方向是研究訓練機制（例如自我博弈循環），我們有理由相信這些機制應該能紮根於真相追蹤，並特別關注它們可能出錯的方式。採用可能是一個問題，但我們也擔心另一個方向，即在我們有好的方法評估工具是否真的有幫助之前，採用來得太容易。

本文由 Forethought 創作。請參閱我們 網站上的原文。

^([1]) 認識論對齊失誤問題也可能出現在地面實況定義明確但難以獲取的領域，例如極長期的預測。理論工作對於此類領域似乎也很有價值（因為目前還不清楚默認情況下如何評估和訓練以獲得良好表現）。
^([2]) 事實上，如果擔心不良信任鎖定的人主動放棄獲得先發優勢，這可能是件壞事。
^([3]) 儘管在達到某種質量水平時，我們必須開始擔心自我實現的預言。在 AI 預測者變得真正值得信賴到足以引發嚴重問題之前，我們還有很多時間來弄清楚如何最好地處理這個問題。

參與討論

https://lesswrong.com/posts/K7tG6Fuh6pkDGHAGx/ai-for-ai-for-epistemics