評估我對2025年的2022年預測

Lesswrong·4 個月前

我正在為自己 2022 年時對 2022 年至 2025 年所做的預測進行評分，評估我在 AI 進展、社會趨勢以及個人生活里程碑方面的預測準確度。

三年前，也就是 2022 年，我寫了《為了自我檢核而寫的近未來（2022-2025）暫定時間線》。如今 2025 年已接近尾聲，讓我們來看看我預測得如何！我將逐一回顧每個預測，並根據與事實的接近程度給自己一個主觀評分。

2022 年預測

由 AI 撰寫且僅需極少提示（prompting）的文章在 LessWrong 獲得 30 個以上推文。
評分：D。我沒看到 2022 年有任何顯然是由 AI 生成的高聲望文章，坦白說，我也沒花太多心思去找。我記得讀過幾篇實驗性的 AI 生成文章，但當時都被投了大量的反對票。雖然有很多文章包含了一小段 AI 文本，但那並非我的初衷，所以我認為這個預測失敗了。

AI 能在 10 分鐘的圖靈測試中，經常性地欺騙隨機選出（從美國人口中）的非專家評審。
評分：D-。我當時到底在想什麼？？我懷疑自己過度受 Blake Lemoine 聲稱 Google AI 具有意識這類故事的影響，而沒意識到聊天機器人看起來「聰明」與讓人類覺得它「像人」是兩回事。我認為到 2025 年的現在我們已經跨過了這個點（所以我不會給自己 F），但我預測的時間早了幾年。

2023 年預測

AI 在 MATH 基準測試中達到人類專家水平。
評分：B+。參考 https://huggingface.co/datasets/nlile/math_benchmark_test_saturation，到 2023 年底，「年度最佳」成績為 84.3%，接近國際數學奧林匹亞（IMO）金牌得主的 90% 分數。雖然沒有完全達到「人類專家」水平，但我認為我的預測還不算太糟。

知名且受人尊敬的公共知識分子宣布，他們相信 AI 已具備意識並應享有權利。
評分：C-。到那時，確實有一些名人（或新晉名人，最著名的是 2022 年底的 Blake Lemoine）聲稱 AI 有意識，但就我所知，按照一般標準，他們中沒有人特別「受人尊敬」或被視為嚴肅的「公共知識分子」。這個預測是否算通過，處於模糊地帶。

AI 現在只需一頁左右或更少的提示，就能寫出一本情節基本連貫的書。
評分：A+。我原以為這項失敗了，但我查了一下，驚訝地發現（對我而言）AI 在 2023 年確實做到了！例如《Death of an Author》，這部中篇小說據稱 95% 以上由 ChatGPT 撰寫，《新科學人》（New Scientist）將其描述為「不難看」。這確實是極高的讚譽……

「弱」通用人工智慧（AGI）問世，它能玩 Steam 上隨機選取的遊戲，並在大多數情況下獲得至少一個成就（針對已啟用 Steam 成就的遊戲）。這假設有人特意去嘗試這件事，否則它能做到這點應該也是顯而易見的。
評分：F。到 2025 年這似乎仍未完全實現（儘管我們可能已經非常接近了）。在 2023 年底，這肯定還沒發生（或顯而易見能發生）。

AI 在極少提示下證明了一個「有趣」的數學結果（由專業數學家評判）。
評分：D+。雖然我不認為 2023 年有任何在極少提示下產生的特別有趣且原創的 AI 證明，但在 AI 輔助下確實產生了一些引人注目的結果。一個有趣的例子是 FunSearch。我會說這個預測做得不算太差，儘管技術上仍算失敗。

涉及 AI 使用「盜取藝術品」進行訓練的重大訴訟登上新聞。
評分：A+。這發生了，而且發生了很多次。

目前尚不清楚藝術家是否真的因為 AI 而失去了大量工作，但出現了大量以此為前提的評論文章。
評分：A+。例如[此類文章]。

我搬出父母家，可能為了人脈/工作原因搬到洛杉磯，也可能為了社群建設/健康原因留在維吉尼亞州。在可能相關的行動中，我終於向父母出櫃，過程可能還算順利，儘管有一小部分機率會被祖父母斷絕關係。
評分：C。這發生了，但我是在 2024 年初向父母出櫃的，而不是 2023 年。預測的前半部分無法評分，因為我提到了兩種可能性。

S.B.F.（Sam Bankman-Fried）不知為何仍是自由之身，未被監禁，並繼續在 Twitter 上發布可疑言論。
評分：F。S.B.F. 在 2023 年底前就入獄了，雖然他在該年前七個月處於居家監禁，但那很難算作「自由」公民，所以我判定這項失敗。

反有效利他主義（EA）的情緒基本平息，但反「AI 安全」的情緒大幅上升。這個詞已與（被認知的）審查制度聯繫在一起，右翼政治人物可能開始迴避在公開品牌中使用「AI 安全」一詞。AI 治理組織試圖透過轉向「國家安全」的公眾視角來進行調整。[注意最後一點極具投機性，且取決於太多因素，無法有信心地預測。]
評分：B。在 S.B.F. 倒台後不久，反 EA 的情緒確實從公眾焦點中淡出（儘管在某種程度上仍然存在，特別是在 Zizian 邪教災難之後），但反 AI 安全的情緒確實比 2022 年底高得多。我不確定後半部分的預測有多準確，但我認為我並非完全錯誤，這也算是有所斬獲。

多人獲得了高薪的程式開發工作，並公開發文稱他們「其實不懂怎麼寫程式」（除了極基礎的水平），而是將所有工作外包給 AI。
評分：C-。就我所知，雖然人們剛開始認真嘗試「氛圍寫程式」（vibe-coding），但到 2023 年底，還沒有太多關於完全不懂程式的人擔任開發職位的公開討論。到現在這已不再罕見，但比我想像中晚了幾年。

2024 年預測

假設唐納·川普未被禁止參選，他將成為總統。如果不是他，德桑提斯（DeSantis）將輕鬆獲勝。（拜登當然是民主黨提名人，假設他還活著。像往常一樣，媒體不關注第三方候選人。）
評分：A。我在這裡做得不差。雖然拜登在最後階段退出了（當時僅是推定的民主黨提名人），但「假設他還活著」這點算是有點邊緣，所以我還是給自己部分分數。

AI 撰寫了一本《紐約時報》暢銷書。
評分：D+。就我所知，這在 2024 年並未發生。然而，今年若沒有 AI 輔助撰寫的書登上《紐約時報》暢銷榜，似乎顯得不太可能（公平地說，我沒有直接證據），所以我認為這是一個接近的失誤。

Twitter 仍能運作，且大多數用戶尚未離開該網站。不過工作環境相當糟糕，內容審查仍然嚴重缺乏（根據文化戰爭雙方的說法）。伊隆·馬斯克基本上已經江郎才盡，餘生不會再有什麼開創性的作為（或許政治除外，我不排除這點）。
評分：A？我認為這項預測得不錯。Twitter（現為 "X"）仍完全運作，且仍擁有龐大的用戶群。那裡發生了多輪裁員和大量內部紛爭的報導，對我來說聽起來確實很糟糕。馬斯克的主要精力放在 DOGE 的努力上，所以他確實涉足了政治，但除此之外，大多數人似乎認為他已過了智力巔峰期。顯然這類事情很大程度上是主觀的，但我認為大多數人會同意我的預測經受住了考驗。

一位小名人或大牌記者終於發現了 Erik Sheader Smith 的電子遊戲《The Endless Empty》是一部傑作，開啟了它作為該類型廣受讚譽的經典之作的成長之路。我自己的遊戲《Nepenthe》則很大程度上被歷史遺忘，至少直到有人發現某個彩蛋為止，這個彩蛋偶爾會在超過 40 分鐘長的 YouTube 影片中被提及（你知道是哪種影片）。
評分：C+。我朋友的傑作尚未被大牌名人或記者發現，但它在中國的玩家和粉絲藝術家群體中經歷了爆發式增長，他們確實將其視為邪教經典（cult classic）。不過，目前的增長完全是草根式的。與此同時，我的遊戲雖然沒被完全遺忘，但也沒能發展出龐大的粉絲群。我在過去幾年停止製作遊戲也沒什麼幫助（儘管我正考慮回歸）。

社交媒體上，堅信 AI 只是「複製貼上他人作品」的人與堅信 AI 有意識（並想解放它）的人之間的戰鬥已達到足夠強度，以至於在政治新聞週期中被提及幾次。至少有一位（可能是邊緣的）候選人承諾透過 AI 立法來「保護藝術家的權利」。
評分：B-。我認為我在方向上是對的——除了對立觀點大多不是「AI 有意識/應享有權利」，而是「AI 很有用；忘掉意識吧」。政治人物在 2024 年確實認真討論了透過 AI 立法保護藝術家權利，例如《生成式 AI 版權披露法案》（Generative AI Copyright Disclosure Act）。

某款沒人聽說過的新電子遊戲在學童中瘋傳，引發全球新聞標題中一波極其牽強的雙關語潮。
評分：F。我對這項評分很嚴格。儘管 2024 年有幾款爆紅的獨立遊戲（如《小丑牌》Balatro），但沒有一款像《佛萊迪的五夜驚魂》或《傳說之下》（Undertale）那樣在學童中大規模瘋傳。我也沒注意到任何與這些遊戲相關的雙關語潮。

中國經濟已基本從疫情中恢復。除此之外，很難預測，但增長看起來與世界其他地區不會有太大差別。
評分：A。我不是經濟學家，但看起來到 2024 年底，中國的表現還算不錯。如果說有什麼不同的話，甚至比其他國家好一點。

公司

— Lesswrong

你的個人知識庫

評估我對2025年的2022年預測

2022 年預測

2023 年預測

2024 年預測