
為何大眾對人工智慧的看法如此分歧
2026年史丹佛人工智慧指數報告揭示了專家與大眾之間巨大的認知鴻溝,這主要是因為AI在程式編寫等技術任務上表現卓越,但在日常應用中卻依然表現不穩且充滿矛盾。
這篇文章最初發表於我們的 AI 每週通訊《The Algorithm》。若想第一時間在收件匣收到此類文章,請在此訂閱。
在一個永不停歇的行業中,史丹佛大學的 AI 指數(年度關鍵結果與趨勢回顧)是一個讓人喘息的機會。(畢竟,這是一場馬拉松,而非短跑。)
於今日發布的今年度報告充滿了令人震驚的數據。這份報告的一大價值在於提供了數據,來支撐你可能已經有的直覺,例如美國比其他任何國家都更全力投入 AI:美國擁有 5,427 座數據中心(且持續增加中),這是其他任何國家的 10 倍以上。
報告還提醒我們,AI 產業所依賴的硬體供應鏈存在一些主要的瓶頸。這或許是最引人注目的事實:「單一公司台積電(TSMC)幾乎製造了每一顆領先的 AI 晶片,這使得全球 AI 硬體供應鏈依賴於台灣的一家晶圓代工廠。」一家代工廠!這簡直太瘋狂了。
但我從 2026 年 AI 指數中得到的主要啟示是,目前的 AI 現狀充滿了矛盾。正如我的同事 Michelle Kim 在她今天關於該報告的文章中所言:「如果你有關注 AI 新聞,你可能會感到暈頭轉向。AI 是淘金熱。AI 是泡沫。AI 正在搶走你的工作。AI 甚至連時鐘都不會看。」(史丹佛的報告指出,Google DeepMind 最頂尖的推理模型 Gemini Deep Think 在國際數學奧林匹亞競賽中獲得了金牌,但有一半的時間無法讀取類比時鐘。)
Michelle 在報導報告亮點方面做得非常出色。但我想要停留在一個我揮之不去的問題上:為什麼現在要確切了解 AI 的發展現況會如此困難?
最大的鴻溝似乎存在於專家與非專家之間。「AI 專家與一般大眾對這項技術的發展軌跡看法截然不同,」AI 指數的作者寫道。「在評估 AI 對工作的影響時,73% 的美國專家持積極態度,而大眾僅有 23%,差距達 50 個百分點。在經濟和醫療保健方面也出現了類似的分歧。」
這是一個巨大的差距。到底發生了什麼事?專家知道哪些大眾不知道的事?(這裡的「專家」是指參加過 2023 年和 2024 年 AI 會議的美國研究人員。)
我懷疑部分原因在於專家與非專家的觀點建立在非常不同的經驗之上。「你對 AI 的敬畏程度,與你使用 AI 進行編碼的頻率完全成正比,」一位軟體開發人員前幾天在 X 上發文表示。這或許是句玩笑話,但確實有其道理。
來自頂尖實驗室的最新模型在編寫程式碼方面比以往任何時候都更出色。因為像編碼這樣的技術任務有對錯之分,與開放式任務相比,訓練模型執行這些任務更容易。更重要的是,能夠編碼的模型被證明是有利可圖的,因此模型製造商正投入大量資源來改進它們。
這意味著,使用這些工具進行編碼或其他技術工作的人,正在體驗這項技術最完美的一面。而在這些使用場景之外,情況就變得參差不齊。大型語言模型(LLM)仍然會犯愚蠢的錯誤。這種現象被稱為「鋸齒狀前沿」(jagged frontier):模型在某些事情上非常擅長,而在其他事情上則不那麼擅長。
深具影響力的 AI 研究員 Andrej Karpathy 也有一些看法。「從我的 [動態時報] 來看,對 AI 能力理解的差距正在擴大,」他在回覆該則 X 貼文時寫道。他指出,進階使用者(指將 LLM 用於編碼、數學或研究的人)不僅緊跟最新模型的步伐,而且通常願意每月支付 200 美元來使用最頂尖的版本。「截至今年,這些領域最近的進步簡直令人震驚,」他繼續說道。
由於 LLM 仍在快速進步,支付費用使用 Claude Code 的人,實際上所使用的技術,與六個月前嘗試使用免費版 Claude 來規劃婚禮的人完全不同。這兩群人是在雞同鴨講。
這讓我們處於什麼境地?我認為存在兩個現實。是的,AI 比許多人意識到的要好得多。同時,是的,它在許多人關心的許多事情上仍然相當糟糕(而且可能保持現狀)。任何在任何一方對未來下注的人都應該記住這一點。