解釋對泡沫擔憂的人工智慧歷史

解釋對泡沫擔憂的人工智慧歷史

Hacker News·

人們日益擔憂,支撐經濟的人工智慧領域可能是一個不可持續的泡沫。儘管對OpenAI等公司進行了巨額投資,但評估複雜AI任務缺乏明確指標,引發了對未來回報的質疑。

一些投資者對人工智慧(AI)領域的擔憂正在加劇,該領域憑藉一己之力阻止了經濟陷入衰退,但現在卻被認為是一個不可持續的泡沫。作為 AI 晶片的主要供應商,輝達(Nvidia)已成為首家市值達到五兆美元的公司。與此同時,ChatGPT 的開發者 OpenAI 尚未實現盈利,每年燒掉數十億美元的投資。儘管如此,金融家和創投家們仍在持續向 OpenAI、Anthropic 和其他 AI 新創公司注入資金。他們的賭注是,AI 將徹底改變經濟的各個領域,並像過去的打字員和接線員一樣,用技術取代工作。

然而,有理由擔心這項賭注可能不會有回報。在過去的三十年裡,AI 研究一直圍繞著改進特定任務的性能,例如語音識別。但隨著 ChatGPT 和 Claude 等大型語言模型(LLM)的出現,AI 代理越來越多地被要求執行沒有明確衡量改進方法的任務。

以創建 PowerPoint 簡報這個看似平凡的任務為例。什麼樣的簡報才算好?我們或許可以指出最佳實踐,但「理想的」簡報取決於創意過程、專家判斷、節奏、敘事感以及高度情境化的主觀品味。年度審查簡報與初創公司推介和項目更新不同。你看到好的簡報時就會知道,看到糟糕的簡報時也會知道。但該領域目前用於評估 AI 的標準化測試無法捕捉上述品質。

這看似是一個小問題,但評估危機卻曾導致歷史上的 AI 泡沫破裂。如果沒有準確衡量 AI 實際能力的標準,我們就很難知道現在是否正走向另一個泡沫。

閱讀更多: AI 的締造者是 TIME 雜誌 2025 年度人物

AI 的誕生通常可以追溯到 1956 年在達特茅斯舉辦的一個小型研討會,該研討會匯集了電腦科學家、心理學家以及其他對模仿人類智能在機器中感興趣的人。該領域很快在國防高等研究計劃署(DARPA)找到了強大的支持者,該機構是國防部負責在冷戰期間維持技術優勢的部門。為了避免在科學競賽中落後,DARPA 在接下來的 40 年裡向大學和私人公司的 AI 研究人員提供了大量無條件的資助。

該領域的最初幾十年以興奮的高峰期為標誌,新技術不斷湧現,隨後是失望的低谷期,因為它們未能發展成有用的應用。在 20 世紀 80 年代,這一循環由一種名為「專家系統」的 AI 技術所推動,該技術承諾製造出像醫生和財務規劃師一樣智能的機器。在內部,這些程序將人類的專業知識編碼成形式規則:如果患者發燒並出現皮疹,則檢測麻疹。

專家系統基於早期成功(如自動化貸款申請)吸引了業界的廣泛關注和投資。但這種樂觀情緒很大程度上是由炒作推動的,而不是嚴格的測試。實際上,這些專家系統在面對更複雜的任務時,往往會犯下奇怪甚至災難性的錯誤。在一次幽默的展示中,一個專家系統建議一名男子的感染可能是由先前接受羊膜穿刺術(一種對孕婦進行的手術)引起的。結果發現研究人員忘記添加性別規則。

當時,著名的 AI 批評者休伯特·德雷福斯(Hubert Dreyfus)將這些失敗描述為「第一步謬誤」,認為將專家系統等同於邁向真正智能的進步,就像「聲稱第一個爬樹的靈長類動物正在邁向飛往月球的第一步」。問題在於,隨著任務變得越來越複雜,每個可能情況所需的規則數量呈指數級增長。就像從井字遊戲到跳棋再到國際象棋一樣,可能性不僅僅是增加,而是呈指數級爆炸式增長。

當專家系統顯然無法更進一步時,AI 研究在 20 世紀 80 年代末進入了所謂的「AI 寒冬」。資助枯竭,公司倒閉,AI 成為了一個禁忌詞。

事後,DARPA 重新評估了其 AI 資金策略。政府項目經理不再提供無條件的資助,而是開始將獎勵與在他們稱為「基準測試」的標準化測試中獲得最高分掛鉤。與醫療診斷等複雜問題不同,基準測試側重於可實現的、具有即時商業和軍事價值的簡短任務。它們還使用定量指標來驗證結果。你的系統能否準確地將這句話從俄語翻譯成英語,轉錄這段音頻片段,或識別這些文件中的字母?研究人員不僅要做出基於有前途但不完整技術的浮誇聲明。為了獲得資助,他們必須提供基準測試改進的具體證據。

這些基準測試競賽通過將 AI 研究人員引導至共同的問題,統一了一個混亂的領域。研究小組不再自行選擇項目,而是由 DARPA 資助研究人員從事特定任務,如數字識別或語音轉文本,從而塑造了該領域的集體議程。新的資助制度的競爭性質意味著在基準測試中不太成功的 AI 方向被擠出了市場。例如,第一次基準測試競賽就表明,可以從數據中學習的「機器學習」算法在很大程度上優於過去手工編寫的基於規則的方法。

不久之後,公開的排行榜出現了,提供了關於哪些算法在每個基準測試中保持最高分的實時反饋,使研究人員能夠從過去的成功中學習。隨著任務的解決,更複雜的任務取而代之。單詞翻譯演變成段落翻譯,最終發展到多語言翻譯。數字識別讓位於圖像中的物體識別,然後是視頻中的物體識別。

在 2010 年代初期,在基準測試說服研究人員全力投入一種受人腦啟發的機器學習方法——人工神經網絡或「深度學習」之後,進展加速了,這也是當今生成式 AI 的基礎。在短短幾年內,語音轉文本算法就為現代 AI 助手提供了動力,而腫瘤識別算法開始在某些癌症的檢測上超越放射科醫生。基準測試似乎已經破解了邁向日常生活中可用 AI 的第一步。

到本世紀末,該領域驚訝地發現,他們在基準測試任務上的進展已經催生了能夠生成流暢、符合社會規範文本的深度學習算法,例如劇本和詩歌。這些能力並沒有出現在基準測試中,因為基準測試的設計初衷並不是為了發現它們。這一發現催生了生成式 AI 的革命,導致了像 ChatGPT、Claude 等如今主導市場的大型語言模型的出現。這是該領域最偉大的勝利。然而,隨著這項新技術的出現,該領域面臨著新的危機。

簡而言之,我們現在試圖自動化的任務不再有明確的基準。沒有「正確」的 PowerPoint、營銷活動、科學假設或詩歌。與物體識別不同,後者有正確或錯誤的答案,這些是複雜、創意、多維且基於過程的問題,即使是最艱難的基準測試也無法客觀地衡量進展。

因此,ChatGPT、Claude、Gemini 和 Copilot 的新模型,其評估方式「氛圍測試」與具體基準測試一樣重要。我們目前陷入了兩種不足的方法之間:舊式的基準測試精確地衡量狹窄的能力,而定性評估則試圖捕捉這些系統的實際能力,但無法產生清晰、定量的進展證據。研究人員正在探索新的評估系統來彌合這些觀點,但這是一個非常艱難的問題。

目前的投資假設在未來三到五年內將實現顯著的自動化。但如果沒有可靠的評估方法,我們就無法知道基於 LLM 的技術是否正在引導我們走向真正的自動化,還是重蹈德雷福斯謬誤的覆轍,走上一條死胡同。這就是未來基礎設施與泡沫之間的區別。目前,很難說我們正在建造哪一個。

伯納德·科赫(Bernard Koch)是芝加哥大學社會學助理教授,研究評估如何塑造科學、技術和文化。 大衛·彼得森(David Peterson)是普渡大學社會學助理教授,研究 AI 如何改變科學。

「歷史製造」(Made by History)欄目由專業歷史學家撰寫和編輯,帶領讀者深入了解新聞事件背後。在此處了解更多關於 TIME 的「歷史製造」欄目。所表達的觀點不一定反映 TIME 編輯的觀點。

OpenAI 和 TIME 之間存在許可和技術協議,允許 OpenAI 訪問 TIME 的檔案。

Hacker News

相關文章

  1. 大型語言模型若為泡沫,AI對齊的未來將走向何方

    Lesswrong · 4 個月前

  2. 想了解人工智慧的現狀嗎?看看這些圖表就知道了。

    MIT Technology Review · 9 天前

  3. AI 基準測試已失效:我們真正需要的是什麼?

    MIT Technology Review · 23 天前

  4. How the AI Bubble Bursts

    24 天前

  5. 我們實際上正處於缺乏基準測試來界定人工智慧能力上限的困境

    Lesswrong · 16 天前