評估我對2025年的2022年預測

評估我對2025年的2022年預測

Lesswrong·

我正在為自己 2022 年時對 2022 年至 2025 年所做的預測進行評分,評估我在 AI 進展、社會趨勢以及個人生活里程碑方面的預測準確度。

三年前,也就是 2022 年,我寫了《為了自我檢核而寫的近未來(2022-2025)暫定時間線》。如今 2025 年已接近尾聲,讓我們來看看我預測得如何!我將逐一回顧每個預測,並根據與事實的接近程度給自己一個主觀評分。

2022 年預測

由 AI 撰寫且僅需極少提示(prompting)的文章在 LessWrong 獲得 30 個以上推文。
評分:D。我沒看到 2022 年有任何顯然是由 AI 生成的高聲望文章,坦白說,我也沒花太多心思去找。我記得讀過幾篇實驗性的 AI 生成文章,但當時都被投了大量的反對票。雖然有很多文章包含了一小段 AI 文本,但那並非我的初衷,所以我認為這個預測失敗了。

AI 能在 10 分鐘的圖靈測試中,經常性地欺騙隨機選出(從美國人口中)的非專家評審。
評分:D-。我當時到底在想什麼??我懷疑自己過度受 Blake Lemoine 聲稱 Google AI 具有意識這類故事的影響,而沒意識到聊天機器人看起來「聰明」與讓人類覺得它「像人」是兩回事。我認為到 2025 年的現在我們已經跨過了這個點(所以我不會給自己 F),但我預測的時間早了幾年。

2023 年預測

AI 在 MATH 基準測試中達到人類專家水平。
評分:B+。參考 https://huggingface.co/datasets/nlile/math_benchmark_test_saturation,到 2023 年底,「年度最佳」成績為 84.3%,接近國際數學奧林匹亞(IMO)金牌得主的 90% 分數。雖然沒有完全達到「人類專家」水平,但我認為我的預測還不算太糟。

知名且受人尊敬的公共知識分子宣布,他們相信 AI 已具備意識並應享有權利。
評分:C-。到那時,確實有一些名人(或新晉名人,最著名的是 2022 年底的 Blake Lemoine)聲稱 AI 有意識,但就我所知,按照一般標準,他們中沒有人特別「受人尊敬」或被視為嚴肅的「公共知識分子」。這個預測是否算通過,處於模糊地帶。

AI 現在只需一頁左右或更少的提示,就能寫出一本情節基本連貫的書。
評分:A+。我原以為這項失敗了,但我查了一下,驚訝地發現(對我而言)AI 在 2023 年確實做到了!例如《Death of an Author》,這部中篇小說據稱 95% 以上由 ChatGPT 撰寫,《新科學人》(New Scientist)將其描述為「不難看」。這確實是極高的讚譽……

「弱」通用人工智慧(AGI)問世,它能玩 Steam 上隨機選取的遊戲,並在大多數情況下獲得至少一個成就(針對已啟用 Steam 成就的遊戲)。這假設有人特意去嘗試這件事,否則它能做到這點應該也是顯而易見的。
評分:F。到 2025 年這似乎仍未完全實現(儘管我們可能已經非常接近了)。在 2023 年底,這肯定還沒發生(或顯而易見能發生)。

AI 在極少提示下證明了一個「有趣」的數學結果(由專業數學家評判)。
評分:D+。雖然我不認為 2023 年有任何在極少提示下產生的特別有趣且原創的 AI 證明,但在 AI 輔助下確實產生了一些引人注目的結果。一個有趣的例子是 FunSearch。我會說這個預測做得不算太差,儘管技術上仍算失敗。

涉及 AI 使用「盜取藝術品」進行訓練的重大訴訟登上新聞。
評分:A+。這發生了,而且發生了很多次。

目前尚不清楚藝術家是否真的因為 AI 而失去了大量工作,但出現了大量以此為前提的評論文章。
評分:A+。例如[此類文章]。

我搬出父母家,可能為了人脈/工作原因搬到洛杉磯,也可能為了社群建設/健康原因留在維吉尼亞州。在可能相關的行動中,我終於向父母出櫃,過程可能還算順利,儘管有一小部分機率會被祖父母斷絕關係。
評分:C。這發生了,但我是在 2024 年初向父母出櫃的,而不是 2023 年。預測的前半部分無法評分,因為我提到了兩種可能性。

S.B.F.(Sam Bankman-Fried)不知為何仍是自由之身,未被監禁,並繼續在 Twitter 上發布可疑言論。
評分:F。S.B.F. 在 2023 年底前就入獄了,雖然他在該年前七個月處於居家監禁,但那很難算作「自由」公民,所以我判定這項失敗。

反有效利他主義(EA)的情緒基本平息,但反「AI 安全」的情緒大幅上升。這個詞已與(被認知的)審查制度聯繫在一起,右翼政治人物可能開始迴避在公開品牌中使用「AI 安全」一詞。AI 治理組織試圖透過轉向「國家安全」的公眾視角來進行調整。[注意最後一點極具投機性,且取決於太多因素,無法有信心地預測。]
評分:B。在 S.B.F. 倒台後不久,反 EA 的情緒確實從公眾焦點中淡出(儘管在某種程度上仍然存在,特別是在 Zizian 邪教災難之後),但反 AI 安全的情緒確實比 2022 年底高得多。我不確定後半部分的預測有多準確,但我認為我並非完全錯誤,這也算是有所斬獲。

多人獲得了高薪的程式開發工作,並公開發文稱他們「其實不懂怎麼寫程式」(除了極基礎的水平),而是將所有工作外包給 AI。
評分:C-。就我所知,雖然人們剛開始認真嘗試「氛圍寫程式」(vibe-coding),但到 2023 年底,還沒有太多關於完全不懂程式的人擔任開發職位的公開討論。到現在這已不再罕見,但比我想像中晚了幾年。

2024 年預測

假設唐納·川普未被禁止參選,他將成為總統。如果不是他,德桑提斯(DeSantis)將輕鬆獲勝。(拜登當然是民主黨提名人,假設他還活著。像往常一樣,媒體不關注第三方候選人。)
評分:A。我在這裡做得不差。雖然拜登在最後階段退出了(當時僅是推定的民主黨提名人),但「假設他還活著」這點算是有點邊緣,所以我還是給自己部分分數。

AI 撰寫了一本《紐約時報》暢銷書。
評分:D+。就我所知,這在 2024 年並未發生。然而,今年若沒有 AI 輔助撰寫的書登上《紐約時報》暢銷榜,似乎顯得不太可能(公平地說,我沒有直接證據),所以我認為這是一個接近的失誤。

Twitter 仍能運作,且大多數用戶尚未離開該網站。不過工作環境相當糟糕,內容審查仍然嚴重缺乏(根據文化戰爭雙方的說法)。伊隆·馬斯克基本上已經江郎才盡,餘生不會再有什麼開創性的作為(或許政治除外,我不排除這點)。
評分:A?我認為這項預測得不錯。Twitter(現為 "X")仍完全運作,且仍擁有龐大的用戶群。那裡發生了多輪裁員和大量內部紛爭的報導,對我來說聽起來確實很糟糕。馬斯克的主要精力放在 DOGE 的努力上,所以他確實涉足了政治,但除此之外,大多數人似乎認為他已過了智力巔峰期。顯然這類事情很大程度上是主觀的,但我認為大多數人會同意我的預測經受住了考驗。

一位小名人或大牌記者終於發現了 Erik Sheader Smith 的電子遊戲《The Endless Empty》是一部傑作,開啟了它作為該類型廣受讚譽的經典之作的成長之路。我自己的遊戲《Nepenthe》則很大程度上被歷史遺忘,至少直到有人發現某個彩蛋為止,這個彩蛋偶爾會在超過 40 分鐘長的 YouTube 影片中被提及(你知道是哪種影片)。
評分:C+。我朋友的傑作尚未被大牌名人或記者發現,但它在中國的玩家和粉絲藝術家群體中經歷了爆發式增長,他們確實將其視為邪教經典(cult classic)。不過,目前的增長完全是草根式的。與此同時,我的遊戲雖然沒被完全遺忘,但也沒能發展出龐大的粉絲群。我在過去幾年停止製作遊戲也沒什麼幫助(儘管我正考慮回歸)。

社交媒體上,堅信 AI 只是「複製貼上他人作品」的人與堅信 AI 有意識(並想解放它)的人之間的戰鬥已達到足夠強度,以至於在政治新聞週期中被提及幾次。至少有一位(可能是邊緣的)候選人承諾透過 AI 立法來「保護藝術家的權利」。
評分:B-。我認為我在方向上是對的——除了對立觀點大多不是「AI 有意識/應享有權利」,而是「AI 很有用;忘掉意識吧」。政治人物在 2024 年確實認真討論了透過 AI 立法保護藝術家權利,例如《生成式 AI 版權披露法案》(Generative AI Copyright Disclosure Act)。

某款沒人聽說過的新電子遊戲在學童中瘋傳,引發全球新聞標題中一波極其牽強的雙關語潮。
評分:F。我對這項評分很嚴格。儘管 2024 年有幾款爆紅的獨立遊戲(如《小丑牌》Balatro),但沒有一款像《佛萊迪的五夜驚魂》或《傳說之下》(Undertale)那樣在學童中大規模瘋傳。我也沒注意到任何與這些遊戲相關的雙關語潮。

中國經濟已基本從疫情中恢復。除此之外,很難預測,但增長看起來與世界其他地區不會有太大差別。
評分:A。我不是經濟學家,但看起來到 2024 年底,中國的表現還算不錯。如果說有什麼不同的話,甚至比其他國家好一點。

公司

Lesswrong

相關文章

  1. 2025年AI預測

    4 個月前

  2. 2025 年度回顧

    4 個月前

  3. 2032年的起飛故事

    6 個月前

  4. 年度回顧:AI的文化驚喜與災難性失敗

    Hacker News · 4 個月前

  5. Dario Amodei:科技的青春期

    3 個月前