「視野」的「長度」

Lesswrong·6 個月前

我對「視野長度」這項基準測試持懷疑態度，認為將人類完成任務所需的時間作為衡量 AI 進步的指標並不合理，因為任務的難度本質各異，難以用單一的時間單位來衡量。

目前的 AI 模型很奇怪。它們能說話——通常條理清晰，有時甚至口若懸河——這很驚人。它們能預測蛋白質結構，在許多遊戲中擊敗頂尖人類，在大多數領域能比人類專家回想起更多事實；然而，它們在執行簡單任務時卻顯得吃力，例如使用電腦游標、維持基本的邏輯一致性，或是在不編造的情況下解釋自己所知道的事情。

或許有一天我們會發現一套關於智能的深奧科學，教導我們如何正確描述這種奇特現象。但目前我們還沒有這類工具，只能用模糊、啟發式的術語來比劃；例如，最近人們開始將這種「令人印象深刻」與「愚蠢」的奇異混合稱為「尖峰性」（spikiness），儘管對於這些「尖峰」的本質為何，大家並沒有太多共識。

當然，無論如何，如果能衡量 AI 的進展會是一件好事，至少在某種程度上足以幫助我們預測它何時可能變得有能力謀殺全人類。但在僅有這種粗糙、非正式理解的情況下，我們該如何衡量？當 AI 的心智與動物心智（直到現在為止，我們唯一有機會互動的心智類型）在本質上如此不同，甚至連我們的民間概念都難以適用時，該怎麼辦？

在一般情況下預測未來就很困難，而這個案例似乎比一般情況更令人詛咒。鑑於其重要性，我感到慶幸的是，儘管我們極度無知且任務艱巨，仍有人努力嘗試衡量和預測 AI 的進展。但我確實認為，到目前為止，我們最好的預測在「引發廣泛討論」方面的成功，遠大於「減少這種無知」；我擔心這導致關於 AI 時間線的論述變得更加混亂，被廣泛傳播但大多毫無根據的信心所干擾。

以「視野長度」（horizon length）為例，這是 METR 在今年早些時候提出的一個基準測試，被視為一種「AI 代理人的摩爾定律」。這個基準測試作為 AI 2027 時間線預測的主要輸入，受到了極大關注。該預測已被數百萬人閱讀、觀看或收聽，其中包括美國副總統。

該基準測試的基本思路是：根據人類完成各項任務所需的時間來對任務難度進行排名，然後根據 AI 模型能完成任務的「難度」（在此意義上）來對模型進行排名。因此，如果一個給定模型的「50% 時間視野為 4 分鐘」，這意味著它在完成一組通常需要人類花費 4 分鐘的任務時，成功率為一半。

就我的理解，METR 的希望是這個指標能成為一種「全能基準測試」——一種以「人類需要花多少時間完成」為共同單位，來衡量幾乎任何類型的模型在幾乎任何類型的任務上的表現的方法。事實上，這個基準測試的表現確實隨著時間穩定提升，正如人們預期它能反映 AI 能力的可預測增長一樣：

因此，雖然 GPT-2 只能完成人類僅需幾秒鐘即可完成的任務，但目前的模型已經可以完成人類需要一個多小時才能完成的任務。METR 的提議是，我們根據這些數據進行推斷，以預測 AI 何時會獲得那些我們強烈希望能提前預警的能力——例如大幅自動化 AI 研發（METR 認為這可能需要數十小時的視野長度），或對社會造成災難性傷害（一個月）。

就個人而言，我對這種推斷是否成立感到相當懷疑。

概念的一致性

鑑於人類是我們目前唯一存在的優秀代理人範例，我認為對擬議的 AI 代理能力衡量標準進行一個顯而易見的「常識檢查」，就是看它們是否有助於描述人類代理能力的差異。視野長度有用嗎？在某種有意義的意義上，艾薩克·牛頓（Isaac Newton）或詹姆斯·瓦特（James Watt）那種非凡的科學或經濟生產力，可以用他們心智的「時間視野」來描述嗎？如果有，至少我無法想像出來。

從我的角度來看，這個衡量標準的一個基本問題是：任務的難度通常不能很好地描述為完成任務所需時間的函數。試想，克勞德·香農（Claude Shannon）花了約 5 年時間發現信息論，而羅爾德·阿蒙森（Roald Amundsen）花了約 3 年時間穿越西北航道——在某種連貫的意義上，阿蒙森的成就難度是香農的「五分之三」嗎？

當然，在其他條件相同的情況下，許多任務的難度會隨著時間成本而變化，但我認為其他條件很少是相同的，因為任務的困難方式多種多樣。親手鏟出一條橫跨墨西哥的運河在熱力學上很困難；分解圓周率 π 的前一兆位數在計算上很困難；說服弗拉基米爾·普丁結束烏克蘭戰爭在人際關係上很困難；發現電磁學定律在科學上很困難……

……就我個人而言，我懷疑所有這些困難是否都能理所當然地用時間成本這個共同、對等的單位來描述。因此，我懷疑「視野長度」是否適合評估和比較 AI 在廣泛領域的表現。

當然，即使這個基準測試無法作為一個通用的、摩爾定律式的 AI 代理能力衡量標準，它可能仍然是有用的——或許它可以幫助我們追蹤某些特定能力的進展，即使不是所有能力的進展。

就我的理解，METR 的希望——以及 AI 2027 在預測中依賴該基準測試的希望——是視野長度可能對 AI 研發的進展具有特別的預測性，進而預測 AI 何時可能獲得遞歸自我改進的能力。因此，該基準測試旨在僅在「編程」或「電腦使用」任務的較窄領域內直接衡量 AI 能力。

但這些對我來說也是奇怪的概念。由於電腦是圖靈完備的，可能的「電腦使用」任務空間當然很大，涵蓋了（除其他外）大腦可執行的所有認知。因此，可能的電腦使用技能集，至少看起來並不比「所有可能的技能」集窄多少。

在實踐中，我認為該基準測試旨在衡量比這更窄的代理指標——大致上是普通、日常軟體工程中涉及的那類任務。但「軟體工程」也涉及一組龐大且異質的技能，範圍從例如「製作網頁」到「發明 Transformer」。在我看來，獲得像前者這樣的簡單技能，是否反映了通往變革性技能的可知進展量，似乎非常不明確。

不幸的是，我認為即使假設日常軟體工程技能是創造變革性 AI 所需的那種東西，「視野長度」預測變革性 AI 的論點仍然很薄弱，因為該基準測試衡量的任務甚至連那些技能都不具代表性。

基準測試偏差

「視野長度」基準測試衡量三組任務的表現：

SWAA——66 個簡單的「單步任務」（例如簡單算術，或補全一個單詞的代碼），人類通常需要幾秒鐘；
HCAST——97 個「經濟上有用的」任務（例如在維基百科上查找事實、編寫 CUDA 內核或在給定地址創建 Web 服務器），人類需要幾分鐘；
RE-Bench——7 個「困難的機器學習研究工程任務」（例如將 GPT-2 微調為聊天機器人，或編寫自定義 GPU 內核），人類需要幾小時。

我認為這些任務在許多方面可能與「征服人類」或「發現如何變得像物理定律所允許的那樣強大」等任務不同。例如，它們大多非常簡單，^([1]) 且沒有一個需要模型產生新穎的想法。

但在我看來，一個特別明顯的區別是，該基準測試完全由精確指定、可自動檢查的任務組成。這是 AI 基準測試的典型特徵，因為衡量這類任務的表現很容易，因此也很容易基於它們創建基準測試；但我懷疑，代價就是這些代理指標與它們旨在預測的能力之間存在巨大差異。

冒著囉嗦顯而易見之事的風險，請注意許多問題並非如此，我們之所以認為它們是問題，正是因為我們還不知道如何解決它們。因此，對於那些可以設計精確指定、可自動檢查的測試的問題——簡稱為「可基準測試化」（benchmarkable）問題——至少具有一個不尋常的屬性：其精確的解決標準已為人所知，而且通常其進展標準也已為人所知（即，可以衡量尋找解決方案的相對進展）。

在我看來，在其他條件相同的情況下，可基準測試化的問題往往比不可基準測試化的問題更容易，因為精確標準已知的解決方案在推論上往往更接近現有知識，因此更容易被發現。這當然有很多例外，包括科學和數學中一些著名的開放性問題。^([2]) 但總體而言，我認為所需的推論跨度越大，預先了解精確的進展或解決標準就越難。

我懷疑，通過關注此類任務，AI 基準測試不僅存在衡量瑣碎技能的偏差，還存在衡量當前 AI 系統最常具備的特定技能的偏差。也就是說，我認為當前 AI 模型在任務上的表現往往與該任務的可基準測試化程度成正比，因為如果解決標準已知——特別是如果進展標準也已知——那麼通常可以針對這些標準進行訓練，直到觀察到不錯的表現。

（我推測這就是為什麼 AI 公司認為支付更好的基準測試費用，並發明自己的內部基準測試是值得的——它們直接作為訓練目標非常有用）。

因此，我預計存在一種相當普遍的「基準測試偏差」，不僅影響「視野長度」，還影響所有基準測試，因為容易衡量 AI 表現的任務，往往是 AI 可以被訓練得表現異常出色的任務。^([3]) 如果是這樣，基準測試分數可能會系統性地高估 AI 的能力。

預測價值

「視野長度」對於預測變革性 AI 的價值，取決於它所衡量的代理任務的進展，在多大程度上與通往「自主產生大量財富或權力」、「發明更好的機器學習架構」或「摧毀文明」等能力的進展相關。在相關的前提下，我們可以從這種進展中推斷，以估計我們在古老地球上剩下的時間。

我不知道當前 AI 缺乏哪些變革性 AI 所需的技能。但就個人而言，我懷疑我們能從像這個基準測試所衡量的如此簡單的任務進展中學到多少東西。對我來說，這有點像試圖用舊石器時代的獨木舟記錄來預測人類何時能登上月球，或者將買菜的技能作為發現新穎數學技能的代理指標。^([4])

當然，在其他條件相同的情況下，我預計初步能力會比變革性能力更早到來，因此我確實認為像這樣的基準測試可以提供關於「哪些 AI 能力已經存在」的有用證據——例如，如果目前的模型經常因為搞不清楚如何使用電腦游標而失敗，那麼我認為可以合理猜測它們大概也還搞不清楚如何遞歸地自我改進。

但對我來說，這些證據應該如何約束我們對未來能力何時到來的預期，則顯得不那麼清晰。當然，AI 模型似乎很可能在搞清楚如何「指數級爆發」（foom）之前先搞清楚電腦游標，就像人類在建造太空船之前先學會造獨木舟一樣——但前者的到來日期，對於後者何時到來，能教給我們多少東西呢？

事實上，一個它可能教給我們很多東西的顯而易見理由是：如果這些簡單技能與變革性技能處於某種共享、連貫的技能連續體上，使得前者的進展在意義上與通往後者的進展是同一「類型」的東西。換句話說，如果現實中確實存在像「視野長度」這樣符合本質特徵的集群，那麼即使是微小的改進也可能教給我們很多東西，因為它們反映了通往變革性 AI 的某種可知進展量。

我看不出有什麼理由要優先考慮「視野長度」就是這樣一個集群的假設，因此我懷疑它能否作為 AI 代理能力的通用衡量標準。但這並不排除它可能仍然具有預測價值——衡量標準不需要反映現實的核心底層特徵也能有用，只要它們與探究對象以某種可預測的相關方式變化即可。有時甚至奇怪、看似遙遠的代理指標（例如瑞文氏標準推理測驗）也被證明具有足夠的相關性而有用。

或許「視野長度」會被證明同樣有用，儘管它作為一個概念的可信度存疑且測試內容瑣碎。就我所知，該基準測試衡量了與任務時間成本相關的東西，或者僅僅是衡量了與 AI 系統能做什麼相關的東西，這點事實本身就足以讓它具有預測價值。

但就個人而言，我認為這種價值的論據很薄弱。因此，對於像 METR 建議的那樣，使用此類基準測試來「為負責任的 AI 治理和風險緩解奠定基礎」，或者將其作為像 AI 2027 那樣詳細的、逐年 AI 進展預測的基礎，我感到非常不安。

^(^)AI 的失敗通常同樣簡單。例如，當前模型失敗的一個常見原因是它們搞不清楚如何熟練使用電腦游標來開始任務。

或許原則上存在某種有意義的「代理能力」技能連續體，「使用滑鼠的能力」和「征服人類的能力」都位於其上，以至於達成前一個里程碑的證據應該顯著約束我們對後者的估計。但如果存在，我主張它至少目前還不為人所知，因此還不能幫助我們減少多少不確定性。

^(^)我懷疑往往是這種不尋常的可操作性本身，而非重要性，對這些問題的名氣貢獻最大，因為它們更有可能出現在著名的問題清單中（例如希爾伯特問題）或設有著名獎項（例如千禧年大獎難題）。

與此相關，在其他條件相同的情況下，比起解決那些「解決標準及進展標準」皆已知的問題，AI 解決那些「僅解決標準已知」的問題會讓我印象較淺；而如果兩者皆未知（例如許多物理學中未解決的問題或對齊問題），我會感到最為震撼。

^(^)（我猜測這種偏差會因為 AI 公司有時刻意針對基準測試進行訓練而進一步加劇，以確保他們的模型在我們評估其產品時僅有的清晰、共識性指標上獲得高分）。
^(^)我有幸結識了幾位數學家，因此了解到這些技能之間的相關性可以有多低。

— Lesswrong

你的個人知識庫

「視野」的「長度」

概念的一致性

基準測試偏差

預測價值