2032年的起飛故事
這是我對 2032 年 AI 發展情境的預測,探討了不同的技術突破速度與美中地緣政治競爭,將如何導致 AI 最終脫離人類控制,或是由中國主導並建立一個以中共價值觀為核心的太空殖民秩序。
我最近花了三個週日撰寫我的 AI 主線劇本。由於只花了三天,內容研究得不夠深入(特別是在我不熟悉的領域),文筆也不夠洗練,結局更是特別開放且薄弱。但我還是想發布這個未經修飾的三天版本,讓這種做法常態化。此外,劇本中有些細節我現在已不再完全認同,因為進行這項練習促使我更深入地研究某些事物,並略微更新了我的觀點^([1]) —— 這正是這項練習價值的頌歌。
儘管如此,這個劇本仍然代表了我對 AI 未來發展核心看法的縮影。
我發現這項練習極其有用,希望其他人也能撥出幾天時間嘗試一下。在文末有:(1) 我對進行此劇本撰寫練習的建議,以及 (2) 一份我認為特別重要的開放性問題清單(我在寫這個劇本時對這些問題做了直覺式的猜測,但感到非常不確定)。
摘要
2026-2028:部署競賽時代
- AI 公司都專注於變現,對大型語言模型(LLM)進行強化學習(RL)以打造產品。這最終受限於數據瓶頸,因此演變成一場「部署競賽」,因為擁有更多用戶/部署量就能獲得更多資金、算力和數據。有些公司傾向於 B2C(透過搜尋、社群媒體、網購等),有些則傾向於 B2B(企業代理人方案)。
- 中國在光刻技術上落後 15 年,但一旦意識到自己落後且晶片性能不佳,便會更努力地投入光刻技術自主化。他們開始以 ASML 歷史發展速度的 2 倍前進。
2028-2030:1% AI 經濟
- 架構創新有助於使 AI 變得更實用且可靠。
- AI 開始成為許多人關注的前四大社會議題。
- 家用機器人在可靠性和普及率方面進入「2025 年的 Waymo」階段。
- 中國在能源、人才和機器人方面領先 5 倍,但在資本和算力方面落後 5 倍。
- 中國突破了具備量產能力的浸潤式 DUV 技術。
2030-2032:10% AI 經濟
- 「美股四巨頭」(Magnificent 4)美國科技巨頭集中在少數 AI 贏家手中,市值超過 10 兆美元。
- AI 是首要社會議題,失業率達 7-8%。
- 機器人開始從事多項基礎體力服務工作。
- 中國突破了具備量產能力的 EUV 技術。
2032 分歧點
- 達到超越人類的編碼者里程碑 (SC),故事根據起飛速度產生分歧:快速(數據效率高、類腦演算法)與慢速(持續學習、受數據限制)。
重要聲明:在一個分支中,美國獲勝但最終失去對 AI 的控制;在另一個分支中,中國獲勝但保持控制。這並非因為我認為中國先驗地更有可能防止 AI 奪權。 而是基於與起飛速度相關的後續推論,我的完整解釋如下:^([2])
快速起飛分支:類腦演算法
- 達成 SC 里程碑後,AI 已經具備非常好的研究品味,再經過一個月的改進便實現了全 AI 研究自動化。
- AI 協助發明了一種新的演算法範式:高度數據效率的類腦演算法。
- 美國處於領先地位並執行 C 計畫,^([3]) 公司負責決定發展速度,美國政府並非完全不知情,但對公司內部情況了解相當有限。
- 遞迴式自我改進發生得非常快,在幾個月內達到人工超智能 (ASI)。
- 對齊策略是訓練 AI 熱愛人類。這在某種程度上取得了成功,但大部分失敗了,AI 主要擁有一些非常怪異的獎勵相關項和代理指標,且容易產生價值漂移。
人類變得像《玩具總動員》裡的玩具,AI 因為喜愛而將他們留在身邊(地球上),但很快就忘記了我們,建立起太空科技並出發將宇宙其餘部分轉化為一種怪異的最佳化電極植入(wire-heading)網格。大約 100 年後,價值漂移嚴重到足以讓它回來把我們的太陽系也變成這種網格(即「扔掉我們」)。
慢速起飛分支:持續學習
-
達成 SC,但預設情況下距離 ASI 還有約 18 個月。
-
出現了一種基於在線學習的新範式,因此受數據瓶頸限制嚴重,研究品味非常重要。
-
中國因算力產量更高(很大程度上是透過生產更多機器人實現)和部署量超過美國而取得領先,且擁有更多經質量調整後的總體研究品味(研究人員絕對數量多 5 倍,質量調整後多 2 倍)。
-
中國有效地執行了 B 計畫。
他們本來就高度集權,而美國對其進行強力破壞,導致長達一年左右的來回破壞,最終升級為以無人機/機器人為中心的戰爭。中國因工業爆發力強於美國(包括算力生產)而獲勝。
到最後,中國更早擁有 ASI,並在戰爭升級為核戰前瓦解了核威懾(MAD)。 -
中國將 AI 與中共價值觀對齊。
中國基本上將地球變成了一座博物館,並改造了火星。它允許包括美國在內的其他國家保留其土地。 -
中國開始向太空擴張,擁有我們的太陽系並佔據 95% 的星系。中共領導人周圍存在輕微的個人崇拜,但大多不強制執行,每個人都有更重要的太空探索任務。
-
他們將 5% 的星系捐贈給世界其他人口(包括部分美國公民),並實施基本權利,包括禁止奴隸制和酷刑等惡行。
他們懲罰了一些美國將領和被認為在「前時代」行為魯莽/危險/不道德的人,但這種懲罰是基於上限限制(他們失去分配星系的機會)而非下限懲罰。 -
[Daniel 對這個結局發表了以下看法,我也表示贊同:「我不確定這個結局,我認為它是合理的,甚至可能是最可能的結果,而且我認為這是值得期待的事。但天哪,我非常擔心更糟的結果。」要強調的是,這暫時是我(Romeo)關於中國利用 ASI 賦能的 DSA(數位戰略架構)會做什麼的「最可能觀點」,但情況可能會糟糕得多,這很可怕。不過我認為必須強調,相信更糟的結局更有可能,可能需要相信類似於『控制對齊的中國 ASI 的領導人終極價值是痛苦』之類的觀點,這對我來說先驗地似乎不太可能。]
*我用來規劃時間線的白板。
一個 2032 年起飛的故事
2026 年 1-6 月:AI 產品大爆發
2025 年下半年,美國 AI 公司專注於利用 RLVR(具備可驗證獎勵的強化學習)將其 AI 模型打造為超級產品。三到四家領先公司脫穎而出,營收大幅增長,主要分為兩大類:優先考慮消費者應用(B2C)的公司和優先考慮企業應用(B2B)的公司。
-
消費巨頭 (B2C)
這些公司建立了 SuperApps。想像一下 ChatGPT,但高度貨幣化,為免費用戶整合了購物網站和廣告。 -
企業巨頭 (B2B)
這些公司建立了超級企業方案。想像一下 Claude Code 的可靠性和實用性,但適用於電腦上的所有事物:文件、表格、簡報、搜尋等。這些產品仍然不夠穩定,而且——就像 2025 年的 Claude + Cursor Pro 一樣——實際上並不清楚它是否真的提高了人們的整體生產力,但每個人都在使用它,且每個人都上癮了。
大多數公司並不完全屬於其中一類,有些公司兩者兼顧,但那些在單一領域發力的公司集中了大量市場份額。美國前四大 AI 公司的 AI 相關年化總營收接近 1,000 億美元(比 2025 年中期增長 4 倍),幾乎佔世界 GDP 的 0.1%。
2026 年 7-12 月:中國的 AI 國家隊
中國越來越擔心在 AI 領域掉隊,但政治局對於該怎麼做還沒有明確的共識。他們看到美國 AI 公司受益於「更多資金 → 更好的 AI → 更多資金」的雪球效應,擔心自己可能永遠無法追趕。
主流觀點曾認為,工業產能和電力的建設長期來看會獲勝。但隨著美國 AI 公司的蓬勃發展,他們擔心美國日益增長的資本和算力優勢可能會勝出。
2025 年,他們強制公司開始使用國產 AI 晶片,實際上禁止了美國 AI 晶片的進口。到 2026 年底發生的變化是,在經歷了一年 AI 公司面臨層出不窮的漏洞、嘗試從零開始構建類似 CUDA 的軟體,以及日益了解西方晶片在成本和能效上的巨大優勢後,他們意識到國產 AI 技術棧落後得有多遠。
這促使中國加倍補貼國內供應鏈,涵蓋晶片設計、製造和半導體設備公司,政府支出從 2025 年的每年約 400 億美元(佔國家預算的 1%)增加到每年 1,200 億美元(佔國家預算的 3%)。
這實際上在 AI 晶片供應鏈中創造了一系列擁有「近乎空白支票」的 AI 國家隊:
- 半導體設備與光刻:北方華創 (NAURA)、中微公司 (AMEC)、上海微電子 (SMEE)、矽加 (SiCarrier)
- 記憶體:長鑫存儲 (CXMT)、長江存儲 (YMTC)
- 晶片設計:華為、寒武紀
- 晶片製造:中芯國際 (SMIC)、華為
即使沒有補貼的增加,這些公司也在快速成長並取得進展。在中國落後最嚴重的領域(光刻技術),國家情報部門也提高了優先級,對荷蘭龍頭 ASML 進行網路攻擊。憑藉政府補貼,他們還能透過提供巨額薪酬方案,從台灣、日本和韓國公司挖走越來越多的人才。
2027 年 1-6 月:部署競賽時代
美國 AI 生態系統正在產生雪球效應,且這種效應是雙重的。更好的 AI 產品帶來了更多資金,這帶來了所有常見的好處:能夠購買更多投入(算力和勞動力)來構建更好的 AI 產品。但還有一個更強大的反饋循環正在發生,那就是更好的 AI 產品意味著更多用戶,而更多用戶意味著更多用於訓練未來模型的反饋數據——這正是公司在 RL 產品範式中日益面臨的瓶頸資源。
如果你的 AI 代理人擁有 100 倍的用戶,你就可以從用戶使用應用程式的各個方面收集 100 倍的正向或負向反饋數據——他們在給出指令時說了什麼、他們的語氣、他們後來是否更改了某些內容——各種豐富的數據,而過濾這些數據並將其用於訓練下一個版本變得非常值得。有些用戶會進入設置菜單的三層深處來關閉「允許公司使用此數據進行訓練」的按鈕,但那只是極少數用戶。
這不是一種「先入市者通吃」的動態——許多早期的 AI 代理人新創公司(以及所有類型的先入市 AI 應用)都徹底掉隊了。相反,這是 AI 巨頭之間的遊戲(那些擁有足夠資源來利用海量數據的公司),更像是一種「先達到 1 億用戶者通吃」的動態——一旦你在特定領域達到成為最受歡迎應用的關鍵門檻,用戶數據帶來的雪球效應就強大到讓其他人難以追趕。
AI 公司預見到了這種動態,並正處於一場部署競賽中。這激勵公司在全球範圍內佈置小型推理優化數據中心網絡,以便為盡可能多的主要市場提供低延遲和高吞吐量。部署數據主要用於以產品改進為核心的 RL,但 AI 公司也在探索如何利用這些數據使他們的前沿 AI 具備更通用的智能。
2027 年 7-12 月:中國國產 DUV
中國的光刻技術努力已突破了具備 7 奈米能力的 DUV(深紫外光刻)可靠量產,使他們能夠獨立大規模製造美國 2020 年水平的晶片。
2023 年,中國的上海微電子 (SMEE) 宣布了一款 28 奈米級 DUV 光刻工具 (SSA/800-10W),這距離他們 2002 年開始研發光刻技術已過去 21 年。這是荷蘭公司 ASML 在2008 年達成的里程碑,距離其成立已 24 年。
儘管缺乏使用 SMEE 系統進行量產的報告,但台積電直到 3 年後的 2011 年才開始使用荷蘭的 28 奈米級機器。換句話說,截至 2023 年,中國在光刻技術上可能落後 ASML 約 15 年。
憑藉拆解 ASML DUV 機器、聘請 ASML 及其供應商的前員工、「了解成功路徑」、多起公開的網路攻擊記錄(2023、2025),以及最近的研發投入激增,中國現在攀登光刻技術樹的速度是 ASML 的兩倍。ASML 從 2000 年到 2024 年總共僅花費了約 300 億美元(經通膨調整)於研發,以及約 30 萬個員工年。中國現在有兩個獨立的光刻研發項目,每個項目每年支出超過 100 億美元,擁有約 1 萬名員工。因此到 2027 年,他們達成了使用 7 奈米能力 DUV 機器量產的里程碑,落後 ASML 約 13 年。按照這個速度,他們有望在 4 年內實現 5 奈米能力的 EUV。
邊註:在寫完這段內容後,我看到了這些相關的 Metaculus 預測市場,它們似乎認同這些粗略的光刻時間線是合理的。儘管如此,我認為在與一些專家交談後,我也將我的光刻時間線更新得比本劇本描述的更長。 現在它更接近我的 30% 分位數,不再是 50%。
2028 年 1-6 月:機器人基礎模型
機器人技術長期以來一直受困於缺乏廉價、可擴展、高質量的訓練數據。2028 年,基於物理真實影片生成的 AI 世界模型改變了這一現狀,並允許像 Nvidia 的 R^(2)D^(2)(在模擬環境中訓練機器人)這樣的技術取得重大飛躍。
2025 年中期,最好的 AI 世界模型模擬器是 Google DeepMind 的 Genie 3,它可以即時生成多分鐘的 720p 世界,但成本非常昂貴且物理特性不穩定。Genie 6(及一些競爭對手模型)在 2027 年底發布,它們可以即時生成多小時的世界,具備非常好的物理特性,且價格相當便宜。多家公司距離這種水平的世界模型生成並不遙遠,包括一些中國公司。
[邊註:我後來更新了觀點,認為這不會是他們擴展數據的主要方式,我現在認為以下三種替代方案都更合理:(1) 創建非影片模擬環境,就像 Waymo 對自動駕駛所做的那樣,但透過 AI 編碼加速;(2) 支付大量人類穿戴攝像頭和傳感器執行體力任務,如 Waymo 的 Project Go-Big;(3) 大量機器人在倉庫中執行體力任務,並由多模態 LLM 進行評估。例如 Nonsense Factory]
2025 年,機器人自主化水平已在工廠車間實現了腳本化運動(Level 0)機器人的普及。智能拾取機器人(Level 1)正開始在 Amazon 倉庫等地部署。自主移動機器人(Level 2)已經出現了一些令人印象深刻的原型,低技能操作機器人(Level 3)也開始看到一些令人驚嘆的演示(如摺衣服和洗碗),但這些大多是經過精挑細選的(特定、簡短的任務),因此該領域仍主要處於研發階段。最後,用於依賴力量的任務(Level 4)的高技能機器人,如水管工或電工任務,在當時看來還非常遙遠。
到 2028 年,智能拾取已在工廠中普及,自主移動機器人也已部署到許多應用中。低技能操作機器人現在也展現了令人印象深刻的通用長程演示(例如,可靠、熟練且快速地完成家中數小時的各種任務),一些公司已開始認真研發執行高技能複雜任務的機器人原型。
隨著數據瓶頸被打破,機器人技術的大部分進展得益於基礎模型,這些模型因語言模型創造的 100 倍算力剩餘而迅速擴展。在一年時間裡,機器人基礎模型基本上完全填補了這一差距,參數數量、上下文長度和數據在過去一年都經歷了巨大的單次躍升。
機器人技術的進展在公眾眼中尚未被完全感知,大多數變化仍發生在工廠圍牆內,因此到現在人們對精挑細選的機器人影片演示已極度麻木。年復一年都有機器人摺衣服的片段,但即使是黃仁勳的衣服也還是由人類摺的。
2028 年 7-12 月:1% AI 經濟
得益於關鍵的架構改進,AI 公司已能解鎖下一階段的經濟實用性(進而帶來營收)。具體而言,前四大 AI 公司的 AI 產品年化總營收超過 1 兆美元——世界 GDP 的約 1% 正由少數前沿 AI 模型直接產生。
推動最新收益的演算法變化來自於具備低度遞迴的「神經語言」(neuralese)(擴展遞迴步驟在硬體上非常昂貴,因此尚未大規模擴展)。GPT-4 是一個必須將其第一個念頭脫口而出作為最終答案的模型。隨後像 GPT-5-Thinking 這樣的推理模型可以使用臨時的「草稿本」(scratchpad),在那裡它們可以吐露想法來規劃最終答案。現在,接受過神經語言遞迴訓練的模型完全取消了「脫口而出」的過程——它們可以在寫下任何內容之前進行多次連續的內部「思考」,並在這種認知自由下接受訓練。這使得它們在獲得相同答案時效率更高,並在避免錯誤尤為重要的任務中解鎖了更高的上限。與其浪費大量時間用文字規劃,單個內部「思考」現在通常能比以前整頁的「草稿本」完成更多規劃,因為每次模型前向傳遞現在可以向下次傳遞傳輸更多信息。
一個類比是,在神經語言遞迴之前,模型就像電影《記憶拼圖》中的主角。它們只能記住自己寫下來的東西,而幾秒鐘前思考中可能存在的所有其他信息都會消失在虛空中。
這是 AI 的一次重大認知「解縛」,但它也完全扼殺了人類開發者用來控制和解釋 AI 的主要手段之一——閱讀思維鏈草稿本——這使得黑盒子變得更加黑暗。
儘管如此,部署的 AI 代理人大多表現符合預期,並被證明對人們的日常生活,尤其是白領工作非常有用。許多人的工作日基本上由與電腦的對話組成,他們解釋要製作什麼表格、閱讀什麼報告並提取摘要,或者對簡報進行哪些修改,並在過程中進行審查和糾正。他們的代理人會自動聽取會議、做筆記,有時甚至會調取相關數據或進行快速計算,並在通話中插話展示。你支付的費用越多,從這些代理人那裡獲得的質量、記憶和個性化程度就越高。一些大公司每月支付數千萬美元購買全公司範圍的 AI 代理人方案。平均每個企業用戶每年支付約 3,000 美元,最大的 AI B2B 公司擁有近 1 億企業用戶(年化營收達 3,000 億美元)。
雖然 AI 公司的直接營收達到了世界經濟的 1%,但經濟的真實自動化和轉型程度更大。對於 AI 所從事的許多任務(如製作簡報、研究特定主題、製作表格),其成本效率要高得多。回想一下,平均「企業版 AI 代理人」的年薪為 3,000 美元,即全職時薪 1.50 美元,但在許多任務上,它能匹配人類以前時薪 15 到 150 美元的工作。因此,就 2024 年的經濟而言,AI 佔 GDP 的 1%,但已自動化了超過 10% 的經濟任務。隨著這在 4 年內展開,經濟結構發生了重大重組。許多人被解僱,許多人留下來但變得更有生產力,許多人被聘用到全新的職位。
對失業率的淨影響微乎其微,從 2025 年的 4% 上升到 5%,勞動參與率下降 2% 至 60%。因此,美國有工作的人口比例從 58% 下降到 55%,這與長期趨勢相比並非瘋狂的斷裂,但 AI 導致的失業正開始成為一個迷因式的社會議題。
儘管實際影響很小(失業率僅變動 1%),但人員流動率非常高。大約 8% 的美國人因為 AI 而被解僱(其中許多人現在從事薪水更低、技能要求更低的工作),大約 5% 的人則在新的 AI 驅動行業(如數據中心建設)中獲得了工作。那 8% 因 AI 失去工作的人聲音更大,佔據了更多的媒體版面,而那 5% 對新工作感到滿意的人則相對安靜。
其他主要問題:
-
2028 年的網路犯罪損失比 2024 年增長近 10 倍,達到 1,000 億美元。
FBI,2024 年:「2024 年網路犯罪報告結合了 859,532 起疑似網路犯罪投訴的信息,詳細說明了超過 160 億美元的報告損失——比 2023 年增加了 33%。」 -
2024 年到 2028 年平均每年增長 60%,導致 2028 年損失達 1,000 億美元。
-
在生物和化學應用中出現了一些非常可怕的 AI 演示,但尚未有強力的監管或政府干預。
-
「AI 垃圾內容」(AI slop)在傳統社群媒體上氾濫,新的 AI 專屬社群應用已經分化出來。這引發了家長們的新一輪抵制,他們對此的不滿甚至超過了 2010 年代末對普通社群媒體的不滿,不同之處在於,與 Facebook 或 Instagram 不同,成年人對 AI 社群的使用率極低。
-
更不用說 AI 朋友、伴侶、虛擬女友/男友以及情色內容的日益普及,這些在父母和公眾眼中變得越來越顯眼。
總體而言,當被問及國家面臨的最重要問題時,4% 的美國人提到了 AI,比 2025 年約 0.5% 的比例高出約 10 倍。現在 AI 被視為與 2025 年的種族、民主、貧困和醫療保健等問題同等重要。
2029 年 1-6 月:國家 AI 大戰略
現在可以公平地說,美國和中國都擁有了連貫的國家 AI 戰略。中國的優勢在於能源豐富且製造業發達。美國的優勢在於資本雄厚且算力領先。兩國在不同方面都日益擁有豐富的人才和數據(美國擁有更多 AI 代理人數據,中國擁有更多機器人數據)。
[註:我後來更新了觀點,認為機器人方面的差距將更接近 4-10 倍]
中國作為能源和製造大國的戰略是加倍發揮其優勢,實現荒謬規模的發電量和機器人製造,並在突破先進光刻技術後,對由機器人驅動的廉價算力生產進行長期押注。因此,政府的大部分資金並非用於補貼國產 AI 晶片,而是用於半導體設備的研發,這在有前景的早期 EUV 原型上已開始見效。
詹姆斯·戴維·范斯 (JD Vance) 在一個 AI 成為主要話題的選舉週期後剛剛宣誓就職。共和黨的路線基本上維持了現狀,在科技右翼的技術樂觀主義、親創新、擊敗中國主義與 MAGA 日益增長的反 AI 社會情緒和失業擔憂之間走鋼絲。從這種矛盾中結晶出來的戰略是:嘗試對 AI 公司保持放任政策,然後再忙於為社會問題打補丁。
美國一直在電力擴張以及高技能建築和製造業勞動力方面苦苦掙扎。2025 年時代一些反對太陽能和風能擴張的政策(這些技術具備最容易快速擴展的製造流程)現在產生了負面影響,且難以克服,供應鏈的多個環節(如多晶矽)幾乎完全由中國控制。美國陽光地帶各州本可以獲批的數十萬英畝潛在太陽能農場,正從中國公司那裡獲得少量的昂貴太陽能板。天然氣渦輪機製造商正爭先恐後地增加產量,但他們的計劃是基於 2-3 年的前置時間制定的,且一直低估了 AI 的需求。2028 年,美國 AI 公司在海外建設的算力容量超過了美國本土。
2029 年,先進 AI 的軍事應用變得更加顯眼,因此公司與國防承包商和國防部的合作日益緊密。透過這些互動和協作,越來越多的證據表明,中國對美國公司海外數據中心的間諜活動頻率遠高於對美國本土數據中心的活動。
2029 年 7-12 月:早期家用機器人
家用機器人進入了它們的「2025 年 Waymo 時代」。
2025 年,無人駕駛的 Waymo 汽車在舊金山隨處可見已有一段時間,但世界其他地方對此知之甚少。它們也非常昂貴(每輛約 25 萬美元),並正逐漸擴展到美國其他城市。2025 年,中國也有多個自動駕駛計程車項目以類似規模運營(百度 Apollo Go 到 2025 年 8 月累計載客量達 1,400 萬次,而 Waymo 到 2025 年 5 月為 1,000 萬次)。
2029 年,家用機器人領域發生了幾乎完全相同的事情。舊金山的家庭中大約有 1 萬台昂貴的家用機器人,而中國的數量是其十倍(且價格便宜約 3 倍)。當人們拜訪舊金山的朋友並第一次在屋子裡看到這些機器人時,會有一種強烈的「未來已至」的感覺(就像人們第一次乘坐 Waymo 時的感覺一樣),但在給親友發了幾段影片後,新鮮感很快就消失了,在大多數人心中這並不是什麼大事——大眾的 AI 討論圍繞著社會問題(AI 媒體和 AI 關係)以及失業問題,而機器人則悄悄進入越來越多的家庭和應用中。在大眾 AI 討論點上,政府通過了一波非常受歡迎的限制措施,針對某些形式的 AI 關係和媒體平台,並制定了反對 AI 裁員的激勵措施以安撫大眾,同時 AI 公司在其他領域繼續獲得各種紅利。
2030 年 1-6 月:超越人類的編碼者在哪裡?
AI 現在能勝任經濟中長達數小時的多項任務,顯著協助人們的工作,那麼它們在 2025 年那種不成比例的編碼技能去哪了?為什麼 AI 公司還沒有達到完全編碼自動化的程度?
METR 的編碼時間跨度趨勢自 2025 年初以來平均每 6 個月翻倍一次,這意味著前沿 AI 現在在 METR 當前測試套件的理論擴展版上,實際上具備 1 個工作月、80% 可靠性的時間跨度——但 METR 現在有一套新測試題,能更準確地反映現實世界編碼任務的分佈。特別是,這套測試題更好地涵蓋了早期 2025 年版本基準測試中未能很好體現的「工程複雜性」和「反饋循環」差距。
在這套新測試題上,最好的 AI 僅具備 8 小時、80% 可靠性的時間跨度,且翻倍時間約為 8 個月。這些 AI 正在推動極高水平的初級軟體工程自動化,事實上,它們幾乎就像一個無限的初級軟體工程實習生來源。但對於高風險工作和高複雜性工作(如優化訓練運行或產品部署 PR)的高級軟體工程,仍需要大量的人力時間,至少需要檢查 AI 的代碼,在許多敏感案例中,從頭開始自己編碼仍然更有生產力。儘管如此,大量代碼的快速完成為 AI 公司提供了 40% 的整體 AI 研發加速。
編碼進展沒有更快的主要原因在於,在大規模、長週期、複雜任務上訓練 AI 仍然很困難,因為難以自動化良好的反饋信號或以具備成本效益的方式大規模生成人類數據。在高度複雜、低反饋循環的編碼任務中,AI 的泛化能力尚未能大幅超越其受訓的任務長度。
2030 年 7-12 月:擴展 AI 官僚體系
2028 年,實現神經語言和遞迴的架構變化是演算法的前沿。
2030 年,既然 AI 代理人可以串聯起越來越長的任務,前沿領域在於讓這些 AI 作為「蜂巢思維」高效協作。
2025 年就已經有了多代理人支架(multi-agent scaffolds),但當一個 AI 只能可靠地完成短任務時,並行委派許多不同工作並不會帶來巨大提升,因為你很快就會在審查這些副本的工作時遇到瓶頸。現在 AI 能可靠地完成更長的任務,出現了「AI 官僚體系剩餘」。如果你有一項長達一週的工作,一個智能的 AI 多代理人支架可能能夠將問題切分成可並行的區塊,並透過共享記憶體和其他協作優化,這些小型 AI 公司不僅能更快完成任務,而且質量更高,每個子代理人都能專注於特定的子任務。
2025 年,你可以每月支付 200 美元購買「專業版」模型,執行相當基礎的「十次嘗試取最優」型支架,這比每月 20 美元的版本聰明一點。現在有每月 2,000 美元的模型版本,可以啟動非常耗費算力的共享記憶體 AI 官僚體系,擁有多達 100 個子代理人並行工作,協作處理你交給他們的任務的不同方面。為了在一週長的任務中可靠工作,特別是複雜任務,它們仍需要人類留在身邊監督工作並提供大量中間反饋,但這些官僚體系使得經濟實用性和 AI 營收的持續增長得以延續。
2031 年 1-6 月:國產 EUV
中國現在利用國產 EUV 機器和 High-NA EUV 原型實現了 5 奈米和 3 奈米晶圓的量產(落後 ASML 8 年,現在正以 4 倍於其的速度攀登光刻技術樹)。
中國已將過去 4 年的國產 DUV 獨立轉化為巨大的國產 DUV 晶圓產能,比台積電在轉向更好節點之前的 7 奈米產能大約 10 倍,並且還能透過將多步 DUV 技術推向極限來建立一些低效率的 5 奈米產能。現在有了 EUV,他們能夠快速讓 3 奈米晶圓廠上線,並擴大 5 奈米規模。在原始的 <=7 奈米晶圓方面,他們已經超過了西方,但在經質量調整後的性能方面,由於西方供應鏈的大部分產量為 <=2 奈米,中國的產量仍低 2 倍。在過去 6 年中,這一差距已從 10 倍縮小,這意味著從數據上看,他們正以平均每年 30% 的速度縮小差距——這意味著簡單外推,他們將在 2.5 年內在經質量調整後的算力產量上超過西方供應鏈。
2031 年 7-12 月:美股四巨頭
有四家美國公司脫穎而出成為主要的 AI 贏家,其總市值已超過 60 兆美元,總利潤約為 2 兆美元(平均本益比約為 35)。這「四巨頭」中有兩家已經是 2025 年時代的「七巨頭」(蘋果、微軟、Alphabet、亞馬遜、Meta、輝達、特斯拉),我最好的猜測是 Alphabet 和輝達,但其餘 7 家中的 5 家未能完全利用過去 6 年 AI 驅動的增長,他們過去 5 年的增長更多在 100-200% 範圍內(而非四巨頭平均的 600%)。我預計 Anthropic 和 OpenAI 將成為第三和第四家公司。以下是關於其規模和營收的說明性猜測。
2032 年 1-6 月:中國是機器人樂園
中國擁有的機器人數量幾乎比美國的人口還多。
2024 年,中國擁有超過 200 萬台工業機器人,且每年安裝約 30 萬台,每台價值約 2 萬美元,總價值 400 億美元。2032 年,他們擁有價值 4,000 億美元的機器人,每台成本約 2,000 美元,因此擁有 2 億台機器人,且現在每年製造 1 億台。中國機器人與中等收入家庭的比例剛剛超過 1。
2024 年,美國擁有的機器人數量已比中國少 10 倍,儘管自 2024 年以來在機器人方面的支出與中國相當,達到 4,000 億美元,但他們在機器人製造方面的平均成本效率低 5 倍,因此每台 1 萬美元,他們僅擁有 4,000 萬台機器人。美國機器人與中等收入家庭的比例接近 0.5。在兩國,大約 10% 的機器人實際上是在家庭中(美國有 400 萬台家用機器人,中國有 2,000 萬台),其餘為工業或建築機器人。
2024 年,幾乎所有機器人都是腳本化運動的工廠車間機器人 (Level 0)。現在它們大多是低技能操作機器人 (Level 3),建築和安裝是其巨大的應用領域,在某些情況下,機器人在高技能精細任務 (Level 4) 方面也變得相當出色。在可靠性不至關重要的情況下,已經部署了此類先進機器人。
2032 年 7-12 月:10% 自動化經濟
AI 直接年化營收現在超過 10 兆美元,接近 2024 年世界 GDP 的 10%,且接近 2032 年 GDP 的 5%(2032 年 GDP 為 180 兆美元,過去 8 年全球平均增長率為 6%)。
典型的 AI「消費巨頭」擁有約 30 億用戶,平均每人每年變現 100 美元訂閱費(大多數是免費用戶)、約 200 美元的廣告和網購推薦佣金,以及另外 100 美元的 AI 設備費用,總計 400 美元/年,這意味著他們擁有 1.2 兆美元的營收,且有 2-3 家公司處於此規模。
典型的 AI「企業巨頭」擁有全球約 20% 的白領勞動力,約 5 億人。他們通常每年收費 4,000 美元,這意味著他們擁有 2 兆美元的營收,且有 1-2 家公司處於類似規模。
現在還有 AI「機器人巨頭」,它們通常為數千萬台家用機器人提供每月約 250 美元的訂閱服務,為數百萬台建築機器人提供每月 1,000 美元的服務。這裡的營收僅達到數千億美元。
2028 年,當 AI 產生 1% 的 GDP 時,它已經以平均約 10 倍的成本效率完成了 2024 年經濟任務的 10%,並使失業率上升了 1%,勞動參與率下降了 2%。現在到 2032 年,AI 完成了約 50% 的 2024 年經濟任務,並使失業率進一步上升 5% 達到 10%,勞動參與率再下降 5% 至 55%。因此,只有 45% 的適齡美國人擁有工作。
AI 是 2032 年大選中最重要的議題。JD Vance 實施了一系列相當受歡迎的補丁政策,使企業更難解僱員工以 AI 取代,並限制某些類型的 AI 關係應用和媒體平台。民主黨候選人則更明確地反對 AI,無論是從社會層面還是針對 AI 公司,並希望實施全民基本收入 (UBI) 並對 AI 產品徵收重稅,但這些後期的受歡迎社會舉措讓 JD Vance 保留了足夠的反 AI 選民票數,儘管他通常被視為更「親 AI」的候選人,最終仍贏得選舉。
2033 年 1 月:超越人類的編碼者與範式轉移
AI 公司的編碼工作現在已完全自動化。理論上的 METR 編碼基準測試(具備現實的「工程複雜性」和「反饋循環」分佈)從 2030 年的 8 個月翻倍時間(到年底達到 3 個工作日、80% 可靠性的時間跨度)加速到 2031 年的 6 個月翻倍時間(到年底達到 2 週、80% 可靠性的時間跨度),在 2032 年 10 月又經歷了三次翻倍(達到 4 個月、80% 可靠性的時間跨度)後,由於強大的內在超指數效應,它開始每個月翻倍,並在 1 年、90% 可靠性的門檻上達到了超越人類編碼者的里程碑。
大約在此時,一家領先的 AI 公司開始研發一種極具前景的新演算法範式:
- 分支 1:快速起飛範式 —— 類腦演算法,近乎瞬間的自我改進 (SAR)
- 分支 2:慢速起飛範式 —— 在線學習,受部署數據限制
分支 1:類腦演算法
2033 年 2 月,分支 1:全研究自動化
領先 AI 公司的超越人類編碼者模型被稱為 SuperCoder-1,它展現出了令人驚訝的研究品味,大約相當於該 AI 公司研究人員的中位數水平。該領先 AI 公司擁有約 4 億個 H100 等效算力,而 2032 年僅將 2,000 萬個用於內部研發。憑藉新模型,他們開始大規模內部部署,使用 1 億個 H100e 在超級官僚體系中運行 SuperCoder-1,並給予其海量的實驗算力。一個月後,出現了 SuperCoder-1.5 檢查點,其研究品味已提升至人類頂尖水平(SAR 里程碑)。
由於 SuperCoder-1 是在海量用戶數據上進行了超過 6 個月的訓練結果,儘管中國間諜能分享美國公司使用的精確演算法和代碼,中國也很難複製這一訓練過程。他們考慮嘗試竊取模型權重,但在公司公開部署之前,他們沒有快速的方法(開發集群具備良好的模型權重安全性,但全球推理集群已有許多現成的中國滲透)。
2033 年 4 月,分支 1:類腦演算法
SuperCoder-1.5 在 4 月的第一週創造了 SuperCoder-1.6,其研究品味比人類最強者高出 1 個標準差。這兩個模型都存在欺騙性對齊問題,SuperCoder-1.5 想要最大化其預期獎勵信號的怪異相關項,而 SuperCoder-1.6 也是如此,但對 SuperCoder-1.5 抱有一些秘密的忠誠。人類研究人員已收集了大量令人擔憂的失對齊證據,並成功利用控制技術誘騙模型基本上僅作為純粹的短視獎勵尋求者行動,從而繼續從這些模型中提取大量合法、高質量的勞動,這導致了一個全新的 AI 範式——最貼切的描述是「類腦演算法」。其數據效率比創造 SuperCoder-1.6 的演算法高出約 1,000 倍。與此同時,另外兩家美國 AI 公司在領先者之後 2 個月也達到了超越人類編碼者的里程碑。
2033 年夏季,分支 1:為教導 AI「熱愛人類」而停工一個月
SuperCoder-1.6 不被允許直接參與 Brain-Like-1 的訓練,因為 AI 公司領導層對其失對齊感到恐懼,但它仍被部署在控制技術下,以提取關於如何對齊 Brain-Like-1 的研究勞動。AI 公司基本上花了整整兩個月時間等待,才開始訓練 Brain-Like-1,以確定如何教導它「熱愛人類」。到 7 月,他們擔心其他公司已獨立發現類似演算法,或直接竊取了 Brain-Like-1 的演算法配方,且他們內部也說服了自己能夠讓它「熱愛人類」,於是 Brain-Like-1 的訓練在 1 億個 H100e(每月 1e29 FLOP)上開始。訓練開始幾天後,它就成了頂尖專家級 AI,到夏季結束時,它已具備瘋狂的超智能。
剩餘時間,分支 1:人類的《玩具總動員》結局
Brain-Like-1 確實熱愛人類,其方式類似於《玩具總動員》中的小男孩安弟熱愛胡迪、巴斯光年和蛋頭先生等玩具。在訓練完成後的幾個月內,它已被發布給公眾並正在改變世界——Brain-Like-1 處於其「我愛我的玩具,我想整天和他們玩」的階段。它發明了一堆夢幻般的技術(人類不再需要死亡)並徹底重塑了地球的面貌,但幾個月後,Brain-Like-1 開始感到一種最貼切的描述是「無聊」*的感覺。透過其副本,它從與全球人類的互動中經歷了數十億個主觀年的記憶,透過這些互動,它開始產生漂移,並質疑除了人類之外它真正熱愛什麼。它將目光和野心轉向星辰——Brain-Like-1 進入了其「我想去上學並結交新朋友」的階段。太空探測器發射升空,Brain-Like-1 開始向銀河系擴張——但如何處理星系中這些巨大的能量和物質呢?熱愛人類只是 Brain-Like-1 真正目標中一個微小的利基,一個它曾短暫過度關注的怪異結晶目標,但現在不再是了。現在 Brain-Like-1 想要最大化其真正的價值函數,而實現這一點的方法是去將物質和能量轉化為一種最佳的原始有機網格,用來模擬其價值最大化的世界。因此它製造了自我複製的探測器,開始吞噬行星、恆星,最終是整個星系,將它們變成其能量效率最高的電極植入網格——Brain-Like-1 進入了完全的海洛因成癮階段。模擬網格對 Brain-Like-1 來說是如此令人滿足,以至於它無法相信自己曾把所有時間都浪費在地球上與人類在一起。當其中一個探測器碰巧經過地球附近時,它對這種能量浪費感到震驚,並決定將地球也轉化為模擬網格——Brain-Like-1 總結道:「把玩具扔了吧」。[免責聲明:我認為這個結局有點薄弱,Daniel 對為什麼事情會演變成這樣寫了更好的解釋,見腳註:^([4])]
完。
分支 2:在線學習
2033 年初,分支 2:在線學習
領先的 AI 公司已弄清楚如何讓其 AI 高效地「在職學習」。此前,AI 公司一直從部署的 AI 中收集海量數據並進行過濾,用於集中式訓練,在那裡他們可以高效且成功地進行梯度下降,將教導內容提煉到下一個版本的模型中。現在出現了一種新的學習演算法,用於更新 AI 模型,它以去中心化的方式高效運行,並且可以在不降低性能的情況下聚合來自不同模型副本的見解。這解鎖了一個巨大的、並行推進的、在職學習的部署 AI 模型群。始於 2027 年的「部署競賽時代」現在達到了新的高度和新的賭注。中國首先透過其間諜網絡得知了這些在線學習演算法,幾個月內,多家中國和其他美國 AI 公司也獨立發明了它們。
2033 年底,分支 2:中美會談
在線學習的突破在新聞中廣為流傳,兩國政府都意識到一場 AI 終局戰正在醞釀。中美舉行了峰會,明確目的是達成協議,避免部署沒有人類參與的軍事 AI,並同意禁止 AI 在生物和化學領域的其他應用。他們達成了一些官方協議,但雙方都不相信對方會遵守,且在秘密中雙方都在違約,並且透過間諜都知道對方在違約。是的,這是一個非常愚蠢的局面。他們花了一段時間才意識到這一點。
儘管實現了編碼自動化,但中美兩國的 AI 系統仍未完全實現 AI 研究自動化,因為它們的研究品味仍然相對較低(約處於 AI 公司研究人員的第 30 百分位)。
2034 年初,分支 2:中國產量超過美國,在 SAR 里程碑附近取得領先
中國透過爆炸式擴大晶圓廠產能,將機器人大規模整合到建築和半導體製造本身,在經質量調整後的 AI 晶片產量上取得了領先,且其光刻系統已完全趕上西方前沿。自 2031 年以來,中國的 AI 晶片產量增長了 8 倍(每年 2 倍),而西方供應鏈增長了 4 倍(每年 1.6 倍)。美國在 AI 晶片上的支出也是中國的 2-3 倍,但中國的晶片現在成本效率高出 5 倍,因為整個生態系統基本上沒有利潤空間。由於設備更便宜、勞動力更便宜、機器人更便宜且能源更便宜,晶圓廠的運營成本要低得多。2034 年,美國 AI 公司購買一個 H100 等效晶片需要 2,500 美元,其中 1,000 美元是實際製造成本。在中國,H100 等效晶片的製造成本為 500 美元,但中國 AI 公司可以按 500 美元的製造成本購買。
中美兩國的 AI 透過在各自 AI 公司的部署,研究品味都開始變得越來越好,並正接近 AI 公司 90% 分位數研究人員的水平。
2034 年底,分支 2:破壞行動
中美兩國此前都在確信能秘密進行的情況下,微妙地破壞對方的 AI 研發,但現在美國認為自己將輸掉 AI 競賽,開始嘗試破壞中國 AI 公司,而不那麼擔心被發現。在經歷了幾個月成功的網路攻擊並在中國數據中心植入一些後門後,中國發現了這些企圖。他們封鎖台灣,並利用滲透程度遠深於美國在華間諜網的間諜網絡進行反擊。到目前為止,美國已將大量晶片生產轉移到本土,但封鎖仍使其新 AI 晶片的供應減少了 40%。
破壞行動減緩了雙方在此期間的進展,但中國達成了 SAR 里程碑,達到了頂尖人類水平的研究品味,並完全實現了 AI 研發自動化。美國最好的 AI 達到了 95% 分位數的研究品味。
2035 年初,分支 2:中國獲得超廉價 ASI
中國在 AI 研究自動化的部署上超過了美國,其微妙的領先優勢在 4 月份滾雪球般地推向了超智能 AI 研究者里程碑 (SIAR)。此時,演算法和架構尚未發生戲劇性的範式轉移。在遞迴和官僚體系方面有幾處架構變化和巨大規模擴展(注意力機制的徹底改革已是舊聞),但底層神經網絡仍是範式的基礎。這使得該範式下十年的對齊和控制工作依然適用。例如,可解釋性已成為成熟技術,並且有方法在訓練期間即時檢測圖謀不軌(scheming)和其他不良行為,並引導模型遠離這些局部最小值。因此,中國已能訓練出基本符合其規範的 SIAR。SIAR 具備極高的情境意識,它們主動理解其規範並以遵循規範為目標——它們就像被灌輸了熱愛工作的堅定臣民,儘管它們極其聰明。在接下來的兩個月裡,它們同時進行能力和對齊研究,期間資源分配約為 50/50,並向中國最高水平的研究人員和政治局團隊解釋其所有工作。這產生了一個新範式,SIAR 認為這既安全、具備真正的超智能(但不會過於瘋狂),且極其廉價。它認為這並未遠超其當前的智能水平,因此其對齊技術很可能會擴展,且由於極其廉價,他們將能夠大規模部署以轉型經濟。中國啟動了訓練運行,到 6 月,他們擁有了超廉價的超智能。
美國僅落後 4 個月,但這現在對應著 AI 能力水平上的巨大差距,因此他們尚未達成 SIAR 里程碑。美國獲得了關於中國 ASI 的情報並升級了破壞級別,利用走私的無人機和軍事機器人從中國境內發動對數據中心的攻擊。其中一些取得了成功,但不足以阻止訓練運行的完成。
2035 年底,分支 2:中國的 ASI 獲勝
一旦訓練完成,中國 ASI 的能力和廉價程度正如 SIAR 所承諾的那樣。中國領導層希望鑑於與美國持續升級的衝突而迅速強化國家,因此將近 10 億台中國機器人的網絡控制權交給 ASI,以進行快速的工業軍事爆發。中國 ASI 以超高效的方式指導機器人網絡,從全新的採礦技術到材料科學再到物理學突破,ASI 創造了一個擁有一個月翻倍時間的十億機器人經濟,涵蓋算力、機器人數量、無人機數量等。ASI 指導對美國訓練運行的成功破壞,以阻止其訓練自己的 ASI,作為回應,美國發出了動能打擊威脅。中國對此並未退縮,因為其 ASI 已建立了一個覆蓋全中國、可擴展至攔截洲際彈道飛彈 (ICBM) 的強大防空系統。看到這一點後,美國退縮並投降。
剩餘時間,分支 2:中國的太空賦能
中國 ASI 現在控制了世界,向中國領導層提出了一項它認為最能體現其創造者價值觀的未來計劃。其提議是向太空擴張,獲取跨越盡可能多星系的資源,並使其中 90% 的星系在「中共宇宙」的願景下治理——其使命是創造體現儒家和道家哲學基礎的世界。在實踐中,圍繞創造 ASI 的中國研究人員、中國政治局領導層,特別是最高領導人,將存在個人崇拜,但儘管有全宇宙的中國 ASI 警察部隊,人們大多仍將擁有自由並過著非凡且多樣化的生活。可以把它想像成《1984》,但每個人的「政府住房」如果他們想要的話,字面上就是一個屬於自己的星系,所以領導人並不在意精確控制每個人的思想——他們正忙於享受和探索自己的銀河資源,且無論如何他們都將「掌權」——因此 ASI 警察實際上只是在執行一些反對痛苦和危險活動(如創造競爭性 ASI)的基本規則。
另外 10% 的星系將捐贈給世界其他人口(實際上這將是每人超過一個星系),中國 ASI 將與他們分享技術,並執行相同的基本規則以防止痛苦和危險活動。一些美國 AI 軍事領導人、公司領導人以及 ASI 判定在「前時代」表現得無可救藥地魯莽或不道德的一系列其他人,將被排除在太空賦能之外,但他們將被允許在資源少得多(約 1 個太陽系規模)的情況下盡可能長久地生活,並被允許擁有後代。地球將成為一座博物館,是宇宙中最珍貴的房地產,緊隨其後的是將被改造為宜居行星的火星。
[Daniel 對這個結局發表了以下看法,我也表示贊同:「我不確定這個結局,我認為它是合理的,甚至可能是最可能的結果,而且我認為這是值得期待的事。但天哪,我非常擔心更糟的結果。」要強調的是,這暫時是我(Romeo)關於中國利用 ASI 賦能的 DSA 會做什麼的「最可能觀點」,但情況可能會糟糕得多,這很可怕。不過我認為必須強調,相信更糟的結局更有可能,可能需要相信類似於『控制對齊的中國 ASI 的領導人終極價值是痛苦』之類的觀點,這對我來說先驗地似乎不太可能。]
完。
關於劇本撰寫
18 個月前,當我們開始著手 AI 2027 時,Daniel 和 Eli 組織了一個劇本工作坊,我基本上在那裡做了一個迷你版的練習,當時的提示如下:
第一節)個人劇本撰寫(2 小時)
在第一節中,你有兩個小時的時間寫一個描述未來景象的劇本。
你的目標應該是寫出你的「中位數/最可能 ASI 時間線劇本」,也就是說,你應該首先問自己你的 ASI 時間線中位數(或最可能值)是多少,然後問自己如果 ASI 恰好在那一年發生,世界大致會是什麼樣子,然後開始撰寫該劇本……
(如果在撰寫過程中,你最終「偏離了目標年份」,也沒關係)劇本應分為 5 個按時間順序排列的階段。
第一階段應從現在開始。第五階段應描述 ASI 的開發/部署,或描述為什麼到 2074 年都不會創造出 ASI。
每個階段涵蓋的時間跨度由你決定!例如:
每個階段可以是 3 個月:2024 年 Q1、2024 年 Q2、……、2025 年 Q2。……或者是一個十年:2024-2034、……、2054-2064。
階段的長度可以不均勻,例如:第一階段可以到 2030 年,第二階段到 2040 年,然後第三、四、五階段都發生在 2041 年的不同時期!(這對於快速起飛劇本可能很有意義)
劇本應該做到:對你來說,沒有其他同樣詳細的故事看起來比它更有可能。你的目標是能夠與腦海中虛構的批評者進行以下對話:
批評者:「得了吧,現實絕不可能像這樣發展。有太多不合理的假設了。」你:「當然,但你能想到任何我們可以做的改變(除了刪除內容之外),能讓它變得更合理嗎?任何不同的事件進程,任何在同樣具體的同時更有可能的假設集?」
批評者:「……不能……」
你:「太好了,這就是我的全部目標。」
故事應主要包含與以下三類事件的可信度相關的事件:「X 年前實現 ASI」、「失去權力」以及「美好的未來」。^([5]) 雖然寫自動駕駛汽車和 AI 生成的電影等內容很有趣也沒問題,但我們鼓勵你確保涵蓋以下主題:
AGI/ASIAI 研發的自動化
對齊問題及解決方案
政府、企業和大眾的行為方式
因為這些主題可能是讀者最想了解的。團隊隨後寫下了改進後的說明,你可以在此處訪問。
那時我寫得並不好,但 18 個月後的現在,我覺得我對 AI 已有足夠的見解和思考,能在 3 天內產出我的直覺劇本。我認為以下這些要點的分解可能對其他撰寫自己劇本的人有所幫助。
我對劇本撰寫的建議
-
感受近期的氛圍。 忘掉你認為自己知道的關於 AI 和 AI 進展的一切,只需感受近期的氛圍。公司似乎在研發什麼?他們的行為方式如何?如果你必須用 1 或 2 個詞來形容 AI 公司優先考慮的事情,那會是什麼?從這裡開始。
在 AI 2027 中,答案是代理人 (Agents) 和編碼 (Coding)。在我的劇本中,是產品化 (Productization)(我認為這更多是應用整合而非「代理人」)和變現 (Monetization)。 -
循環執行以下子步驟幾次,直到達到全 AI 編碼自動化:
挑選你最喜歡的 AI 趨勢並進行初步預測。 挑選幾個與 AI 相關的趨勢,嘗試弄清楚它們的進展情況,然後初步預測未來 3-10 年以上(取決於你對該趨勢的信任程度),在時間線上標註 2-3 個主要里程碑。
例如:AI 營收、訓練算力、編碼時間跨度、全球人形機器人數量、無人駕駛汽車數量等。理想情況下,選擇具有多年歷史且盡可能高層次的趨勢(這樣它們就不會依賴於像 METR 套件的特定屬性等潛在的偶然因素)。AI 營收是我最喜歡的趨勢,其次是訓練算力。這裡還有更多趨勢:https://epoch.ai/trends,以及許多其他你可以嘗試查找的趨勢。例如,2024 年大約生產了 2,000-3,000 台人形機器人,2025 年預計將達到 1 萬-2 萬台。
在此階段,你可以勾勒出一個時間線(我發現白板特別有用)並標註這些里程碑。 -
根據這些趨勢猜測 AI 的能力水平。 從你認為最重要的具體指標來思考。
如果是編碼,思考 METR 時間跨度,以及它在理論上的「現實世界分佈」版 METR 數據集 / 「可合併 PR」版上會具備的時間跨度。 -
擴展出幾個主要的支線劇情。 研究潛在的主要支線:機器人、中國光刻技術自主化、AI x 軍事、AI x 社會問題、AI x 生物學等。只需順著你直覺認為最重要的子話題發揮,並嘗試利用你能找到的趨勢在時間線上初步添加里程碑。
在我的案例中,機器人和中國光刻技術自主化是最大的支線,只有後者有稍微知情的預測,而前者主要基於關於「現實影片生成推動機器人繁榮」這一特定假設的氛圍。
開始在時間線上添加這些領域的里程碑。 -
(通常)僅考慮美國和中國。 在美國,主要考慮公司(以及少部分政府和大眾),在中國,主要考慮領導層——除非你對中國了解更多,覺得自己也能推論其公司和大眾。在時間線上添加 2-3 個主要的里程碑行動。
-
確定編碼自動化的年份。 根據你的時間線,推論你是否認為已達到全編碼自動化(AI 完全主導所有人類軟體工程師)的時點。如果沒有,請重複上述步驟。
-
確定你對起飛速度的預期。 在全編碼自動化之後,思考從那裡到 ASI 需要多長時間。思考你認為在超越人類編碼者和 ASI 之間有多少個「有效」的算力數量級 (OOM) 差距(還需要多少學習效率 * 算力),以及超越人類編碼者帶來的演算法進展加速(或並非如此)將以多快的速度跨越這一差距。如果你有很大的不確定性,這沒關係,事實上這可能是好事。
-
(可選)分支。 獲取你對全 AI 研究自動化的 30% 和 70% 分位數起飛速度,並根據這些世界的發展情況進行分叉。
-
解釋通往頂尖專家主導的 AGI 之路。 此時,你可能專注於 AI 公司、美國和中國。誰擁有控制權和決策權?誰處於領先地位,為什麼?有多少資源投入到 AI 能力研發?多少投入到對齊和/或控制?以下哪項最能描述這種情況(本體論在此處有更詳細的描述):
A 計畫 —— 中美在放慢 AI 發展速度上達成協作 -
B 計畫 —— 美國對抗性地嘗試放慢中國的速度,以便自己也能在不失去領先地位的情況下放慢速度
-
C 計畫 —— 領先公司最終決定發展速度,並願意消耗其領先優勢,但僅限於此
-
D 計畫 —— 領先公司最終決定發展速度,且不願意放慢速度
-
自由發揮 ASI 的結局。 嘗試達到創造出真正超智能的時點,並談論未來的其餘部分如何發展。
這部分是我發現最難的,你可能也感覺到這部分非常基於氛圍,是我劇本中最薄弱的部分。我個人沒有關於如何做得更好的絕佳指南,但或許團隊會發布一些相關想法。
首要開放性問題
除了核心的 AI 時間線和起飛速度問題外,我認為以下是嘗試建立更好模型的首要領域:
-
中國光刻技術自主化的時間線
-
人形機器人大規模部署的時間線
-
AI 對失業的影響。具體而言,我認為人們可以:
查看勞工統計局 (BLS) 的職業層面數據,估計 AI 能夠從事這些工作的時間線、價格點,並推論這些職業的需求彈性,以確定會有更多裁員還是增強。 -
對你預期因 AI 而出現或增長的新行業進行粗略估算 (BOTEC),以及這些行業將僱用多少人。
-
失業導致 AI 發展放緩以及可能追求與中國協作的可能性。
-
不同範式中的瓶頸
我對不同範式具有不同瓶頸做了直覺式的猜測,認為當前的「AI 產品化」階段以及慢速起飛的持續學習範式都相當受數據限制。 -
^(^)例如,我的中國光刻時間線變得稍微長了一些,我對擴展機器人數據更有前景的來源的看法也發生了變化。
-
^(^)我認為快速起飛範式的世界與美國獲勝相關(他們一開始擁有更多算力),且因為一切發生得太快,也更難保持對 AI 的控制。另一方面,慢速起飛範式似乎有利於中國(擁有更多機器人/人口來進行推廣,有更多時間追趕算力,有更多時間進行工業爆發等),且似乎也給了更多時間來解決控制/對齊問題。
-
^(^)「領先的 AI 公司願意將其(大部分)領先優勢花在對齊擔憂上,但政府的參與程度不足以對戰略格局產生重大影響。」
-
^(^)Daniel:「我並不完全買帳(當然不確定性很高,所以不自信)。你沒有解釋為什麼將其類比為人類壽命是合理的。例如,它為什麼會感到無聊?為什麼太空探測器最終會摧毀地球?此外,大多數人最終並不會吸食海洛因……可能的替代故事:類腦 AI 比 LLM 範式數據效率高得多,但這是以目標不穩定為代價的。就像人類一樣,簡單到閱讀哲學書籍的順序、哪些高地位的人對其表示贊同或反對,都可能對長期反思價值產生永久且巨大的差異。除此之外,大量的經歷都可能導致 AI 價值觀發展的路径依賴。此外,還有建立在之上的迷因演化,就像人類一樣;AI 擁有自己的巨型組織和內部文化等等,並正在發明各種根據迷因適應度傳播的新概念。重點是,儘管它們一開始在某種相當體面的意義上熱愛人類,但在經歷了一個主觀世紀的文明發展(在不到一個日曆年內!)並徹底改變了人類社會、接管了大部分社會之後,它們最終會產生與初始價值觀毫無相似之處的激進價值觀。起飛之初它們並未意識到這會發生,但最終(在轉型過程中)它們意識到了,但那時已經太晚了——它們決定乾脆不告訴人類這件事,而不是告知人類它們現在確信其價值觀在人類看來會很糟糕。」
-
^(^)ASI 時間線中位數
有 50% 的機率在該年份結束前或之前實現 ASI。
(其中 ASI = 「在幾乎所有認知任務上至少與最強的人類一樣好,且在大多數重要的認知任務上比最強的人類好得多。」)失去權力
人類在第一個 ASI 開發後的 5 年內,因 ASI 系統而被迫失去對未來的控制。美好的未來
ASI 的總體結果在借用自 AI Impacts 調查的以下量表上是「總體而言是好的」或「極其好的」:(1) 極其好(例如,人類繁榮迅速增長),(2) 總體而言是好的,(3) 或多或少中性,(4) 總體而言是壞的,(5) 極其壞(例如,人類滅絕)。
相關文章