解釋對泡沫擔憂的人工智慧歷史

Hacker News·4 個月前

人們日益擔憂，支撐經濟的人工智慧領域可能是一個不可持續的泡沫。儘管對OpenAI等公司進行了巨額投資，但評估複雜AI任務缺乏明確指標，引發了對未來回報的質疑。

一些投資者對人工智慧（AI）領域的擔憂正在加劇，該領域憑藉一己之力阻止了經濟陷入衰退，但現在卻被認為是一個不可持續的泡沫。作為 AI 晶片的主要供應商，輝達（Nvidia）已成為首家市值達到五兆美元的公司。與此同時，ChatGPT 的開發者 OpenAI 尚未實現盈利，每年燒掉數十億美元的投資。儘管如此，金融家和創投家們仍在持續向 OpenAI、Anthropic 和其他 AI 新創公司注入資金。他們的賭注是，AI 將徹底改變經濟的各個領域，並像過去的打字員和接線員一樣，用技術取代工作。

然而，有理由擔心這項賭注可能不會有回報。在過去的三十年裡，AI 研究一直圍繞著改進特定任務的性能，例如語音識別。但隨著 ChatGPT 和 Claude 等大型語言模型（LLM）的出現，AI 代理越來越多地被要求執行沒有明確衡量改進方法的任務。

以創建 PowerPoint 簡報這個看似平凡的任務為例。什麼樣的簡報才算好？我們或許可以指出最佳實踐，但「理想的」簡報取決於創意過程、專家判斷、節奏、敘事感以及高度情境化的主觀品味。年度審查簡報與初創公司推介和項目更新不同。你看到好的簡報時就會知道，看到糟糕的簡報時也會知道。但該領域目前用於評估 AI 的標準化測試無法捕捉上述品質。

這看似是一個小問題，但評估危機卻曾導致歷史上的 AI 泡沫破裂。如果沒有準確衡量 AI 實際能力的標準，我們就很難知道現在是否正走向另一個泡沫。

閱讀更多： AI 的締造者是 TIME 雜誌 2025 年度人物

AI 的誕生通常可以追溯到 1956 年在達特茅斯舉辦的一個小型研討會，該研討會匯集了電腦科學家、心理學家以及其他對模仿人類智能在機器中感興趣的人。該領域很快在國防高等研究計劃署（DARPA）找到了強大的支持者，該機構是國防部負責在冷戰期間維持技術優勢的部門。為了避免在科學競賽中落後，DARPA 在接下來的 40 年裡向大學和私人公司的 AI 研究人員提供了大量無條件的資助。

該領域的最初幾十年以興奮的高峰期為標誌，新技術不斷湧現，隨後是失望的低谷期，因為它們未能發展成有用的應用。在 20 世紀 80 年代，這一循環由一種名為「專家系統」的 AI 技術所推動，該技術承諾製造出像醫生和財務規劃師一樣智能的機器。在內部，這些程序將人類的專業知識編碼成形式規則：如果患者發燒並出現皮疹，則檢測麻疹。

專家系統基於早期成功（如自動化貸款申請）吸引了業界的廣泛關注和投資。但這種樂觀情緒很大程度上是由炒作推動的，而不是嚴格的測試。實際上，這些專家系統在面對更複雜的任務時，往往會犯下奇怪甚至災難性的錯誤。在一次幽默的展示中，一個專家系統建議一名男子的感染可能是由先前接受羊膜穿刺術（一種對孕婦進行的手術）引起的。結果發現研究人員忘記添加性別規則。

當時，著名的 AI 批評者休伯特·德雷福斯（Hubert Dreyfus）將這些失敗描述為「第一步謬誤」，認為將專家系統等同於邁向真正智能的進步，就像「聲稱第一個爬樹的靈長類動物正在邁向飛往月球的第一步」。問題在於，隨著任務變得越來越複雜，每個可能情況所需的規則數量呈指數級增長。就像從井字遊戲到跳棋再到國際象棋一樣，可能性不僅僅是增加，而是呈指數級爆炸式增長。

當專家系統顯然無法更進一步時，AI 研究在 20 世紀 80 年代末進入了所謂的「AI 寒冬」。資助枯竭，公司倒閉，AI 成為了一個禁忌詞。

事後，DARPA 重新評估了其 AI 資金策略。政府項目經理不再提供無條件的資助，而是開始將獎勵與在他們稱為「基準測試」的標準化測試中獲得最高分掛鉤。與醫療診斷等複雜問題不同，基準測試側重於可實現的、具有即時商業和軍事價值的簡短任務。它們還使用定量指標來驗證結果。你的系統能否準確地將這句話從俄語翻譯成英語，轉錄這段音頻片段，或識別這些文件中的字母？研究人員不僅要做出基於有前途但不完整技術的浮誇聲明。為了獲得資助，他們必須提供基準測試改進的具體證據。

這些基準測試競賽通過將 AI 研究人員引導至共同的問題，統一了一個混亂的領域。研究小組不再自行選擇項目，而是由 DARPA 資助研究人員從事特定任務，如數字識別或語音轉文本，從而塑造了該領域的集體議程。新的資助制度的競爭性質意味著在基準測試中不太成功的 AI 方向被擠出了市場。例如，第一次基準測試競賽就表明，可以從數據中學習的「機器學習」算法在很大程度上優於過去手工編寫的基於規則的方法。

不久之後，公開的排行榜出現了，提供了關於哪些算法在每個基準測試中保持最高分的實時反饋，使研究人員能夠從過去的成功中學習。隨著任務的解決，更複雜的任務取而代之。單詞翻譯演變成段落翻譯，最終發展到多語言翻譯。數字識別讓位於圖像中的物體識別，然後是視頻中的物體識別。

在 2010 年代初期，在基準測試說服研究人員全力投入一種受人腦啟發的機器學習方法——人工神經網絡或「深度學習」之後，進展加速了，這也是當今生成式 AI 的基礎。在短短幾年內，語音轉文本算法就為現代 AI 助手提供了動力，而腫瘤識別算法開始在某些癌症的檢測上超越放射科醫生。基準測試似乎已經破解了邁向日常生活中可用 AI 的第一步。

到本世紀末，該領域驚訝地發現，他們在基準測試任務上的進展已經催生了能夠生成流暢、符合社會規範文本的深度學習算法，例如劇本和詩歌。這些能力並沒有出現在基準測試中，因為基準測試的設計初衷並不是為了發現它們。這一發現催生了生成式 AI 的革命，導致了像 ChatGPT、Claude 等如今主導市場的大型語言模型的出現。這是該領域最偉大的勝利。然而，隨著這項新技術的出現，該領域面臨著新的危機。

簡而言之，我們現在試圖自動化的任務不再有明確的基準。沒有「正確」的 PowerPoint、營銷活動、科學假設或詩歌。與物體識別不同，後者有正確或錯誤的答案，這些是複雜、創意、多維且基於過程的問題，即使是最艱難的基準測試也無法客觀地衡量進展。

因此，ChatGPT、Claude、Gemini 和 Copilot 的新模型，其評估方式「氛圍測試」與具體基準測試一樣重要。我們目前陷入了兩種不足的方法之間：舊式的基準測試精確地衡量狹窄的能力，而定性評估則試圖捕捉這些系統的實際能力，但無法產生清晰、定量的進展證據。研究人員正在探索新的評估系統來彌合這些觀點，但這是一個非常艱難的問題。

目前的投資假設在未來三到五年內將實現顯著的自動化。但如果沒有可靠的評估方法，我們就無法知道基於 LLM 的技術是否正在引導我們走向真正的自動化，還是重蹈德雷福斯謬誤的覆轍，走上一條死胡同。這就是未來基礎設施與泡沫之間的區別。目前，很難說我們正在建造哪一個。

伯納德·科赫（Bernard Koch）是芝加哥大學社會學助理教授，研究評估如何塑造科學、技術和文化。 大衛·彼得森（David Peterson）是普渡大學社會學助理教授，研究 AI 如何改變科學。

「歷史製造」（Made by History）欄目由專業歷史學家撰寫和編輯，帶領讀者深入了解新聞事件背後。在此處了解更多關於 TIME 的「歷史製造」欄目。所表達的觀點不一定反映 TIME 編輯的觀點。

OpenAI 和 TIME 之間存在許可和技術協議，允許 OpenAI 訪問 TIME 的檔案。

— Hacker News

你的個人知識庫

解釋對泡沫擔憂的人工智慧歷史