短期內出現危險AI的可能性有多大？

Lesswrong·5 個月前

這篇文章認為短期內不太可能出現危險的 AI，因為目前的系統缺乏執行代理任務所需的一年期時間範圍，而要達成此目標需要進步速度大幅提升十倍，從變革者架構或 AlphaFold 等歷史性突破來看，這在六個月內發生的機率極低。

為了造成災難，AI 系統需要在代理任務（agentic tasks）上具備極高的能力^([1])。衡量通用代理能力最好的指標是 METR 的時間跨度（time horizon）。時間跨度衡量了 AI 系統能夠完成的明確軟體任務的長度，並以人類基準為基礎，這意味著 AI 的表現可以與人類的表現進行密切比較。

造成災難^([2])是非常困難的。這可能需要數十年甚至數百年的熟練人力勞動。讓我們以一年的工作量作為衡量其難度的下限。這意味著 AI 系統至少需要具備一工作年（2000 小時）的時間跨度才能造成災難。

目前的 AI 時間跨度為 2 小時，這意味著它比造成災難所需的時間跨度低了 1000 倍。這提供了一個相當大的緩衝空間。

目前，時間跨度大約每半年翻倍一次。這意味著按照目前的進步速度，增加 1000 倍大約需要 5 年時間。因此，為了讓 AI 在未來 6 個月內達到 1 工作年的時間跨度，這意味著 AI 的進步速度必須提高 10 倍，導致時間跨度大約每兩週翻倍一次，而不是每 6 個月。

近期的 AI 突破

要在不到 6 個月的時間內實現 5 年的 AI 進步，似乎需要巨大的突破。這種規模的突破曾經發生過嗎？

我主要能想到兩個近期的 AI 突破案例，其規模可能與短期內創造危險 AI 所需的突破相當。

案例 1：Transformers

一個是 Transformer 架構的發明。我們沒有 GPT-2 之前任何模型的時間跨度估計，因為即使是我們最簡單的任務對於早期的模型來說可能也太難了。然而，我們或許可以透過其他方式了解這代表了多少年的進步。

Epoch AI 估計 Transformer 代表了 10 倍到 50 倍的計算效率提升。根據 Epoch AI 的數據，有效計算量的歷史增長率約為每年 3 倍，而自 2014 年以來，算法進步約佔大型語言模型（LLM）進步的 1/3。這意味著 Transformer 代表了 AI 進步中 9 到 15 個月的跨越^([3])。這遠低於將當前模型提升到危險時間跨度所需的 5 年門檻。

此外，來自 Transformer 的算法進步並非瞬間完成。從《Attention is All You Need》論文發表到 GPT-2 等大型 Transformer 模型發布，花了兩年時間。因此，Transformer 的發明很可能既不夠「巨大」，也不夠「突然」，以至於如果明天發生類似的發明會變得非常危險。

事實上，如果我們將 Transformer 的影響四捨五入為 AI 進步中 1 年的跨越，那麼我們將需要在 6 個月的時間跨度內壓縮五個 Transformer 級別的突破，才能達到 1 年的時間跨度。

案例 2：AlphaFold

另一個例子是 AlphaFold。雖然 AlphaFold 不是通用的 AI 架構，但它對於建立突破性進展能有多瘋狂的上限仍然很有用。

我還沒看到一個很好的分析來回答「AlphaFold 代表了多少年的蛋白質折疊進步？」這個問題。但從這份分析來看，它似乎至少是 5 年，甚至可能是數十年。

這意味著 AlphaFold 是一個存在性證明，證明了在短時間內可以在窄領域 AI 取得至少 5 年的進步。

未來 6 個月內出現 1 年時間跨度的機率是多少？

假設 Transformer 級別的突破每 10 年發生一次，且事件是獨立的，那麼在未來 6 個月內發生五次此類突破的機率是非常非常小的。

但 AI 突破並非獨立事件。它們擁有相同的輸入，且一次突破的發生是對輸入足以更快產生額外突破的更新。此外，AI 突破可以相互促進，因為 AI 研發的「AI 能力」輸出可以反饋到「智力勞動」和「計算支出」的輸入中。

窄領域超人 AI 導向通用能力 AI

因此，如果多個類 Transformer 的突破不太可能導致具備 1 年時間跨度的 AI，那麼類 AlphaFold 的突破呢？如果我們認為在程式碼編寫領域可能會出現一個窄領域的 AlphaFold 級突破，那麼 AI 研發在短期內實現自動化就變得看似合理。

對於 AI 研究人員試圖「攻克」的任何可驗證領域，我猜測 AlphaFold 級別的突破每年發生的機率低於 5%。而且程式編寫似乎比蛋白質折疊更難「攻克」，事實證明，各家公司幾年來投入了大量資金，卻沒有出現 AlphaFold 級別的突破。因此，稍微向下修正，AI 研發在未來 6 個月內實現自動化的機率似乎低於 3%。

但即使 AI 研發明天就實現自動化，這也不能保證我們會在不到 6 個月的時間內達到 1 年的時間跨度。更有可能的情況是，隨著人類和 AI 找到在自動化和人類 AI 研究人員之間分配勞動力和資源的更好方法，AI 進步的速度會緩慢提升。而且訓練運行有時需要一段時間，這意味著突破可能需要超過 6 個月才能完全發揮作用。

我們會注意到能力的巨大提升嗎？

同樣更有可能的是，如果任何 AGI 公司有望在未來 6 個月內創造出具有危險高度通用能力的 AI，他們至少在開始時就能察覺到這種情況正在發生。 他們會看到在所有 5 年的進步發生之前，已經發生了 1 年的進步，至少假設訓練過程中的檢查點（checkpoints）之間沒有巨大的不連續性。

如果時間跨度增加 1000 倍是透過 AI 研發自動化實現的，那麼 AGI 公司肯定至少會注意到 AI 研發已經自動化。如果不是透過 AI 研發自動化，我們很可能在增加 1000 倍之前就注意到 10 倍的增長。因此在任何情況下，如果 AGI 公司正朝著能力的重大改進邁進，他們很可能會感覺到「大事即將發生」。

然而，有一種可能性是，在達到某種能力水平後，AI 會想出如何規避監督機制，使其看起來比實際能力更弱。因此，如果訓練期間的能力測量過於稀疏，或者容易被規避，研究人員可能不會注意到一個能讓監督被廣泛破壞的突然跳躍。

結論

因此，從所需突破的規模以及近期一些 AI 突破的規模來看，AI 在未來 6 個月內達到 1 年時間跨度的可能性似乎非常低（<2%）。我看到的主要路徑是程式編寫領域的突然突破，這將導致自動化 AI 研發，進而導致在短時間內出現大量 Transformer 級別的突破。考慮到未知的未知因素^([4])，我會將機率提高到 3% 左右。如果這真的發生了，我認為相關的 AGI 公司更有可能對此有所察覺，而不是完全的一夜驚喜。

^(^) 我排除由濫用 AI 系統造成的災難可能性，例如惡意行為者利用 AI 創造強大的生物武器。我只考慮由自主 AI 造成的 AI 災難。
^(^) 我所說的「災難」是指導致 1 億人死亡或更糟情況發生的事件。
^(^) 雖然我對這個數字持懷疑態度。Transformer 的影響肯定比這更大吧？如果沒有 Transformer，我猜我們會落後超過 1 年，但這可能與 Epoch AI 使用的操作定義不同。
^(^) 我有幾個理由對過度依賴此分析感到不確定。將時間跨度映射到危險水平的通用能力這種方法可能存在根本性缺陷，而且時間跨度的進步可能存在內在的超指數性（例如，由於多種原因，掌握 1 週的任務可能會突然解鎖 1 年的任務）。

— Lesswrong