newsence
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

想了解人工智慧的現狀嗎?看看這些圖表就知道了。

想了解人工智慧的現狀嗎?看看這些圖表就知道了。

MIT Technology Review·大約 4 小時前

史丹佛大學人本人工智慧研究院發布的 2026 年 AI 指數報告,透過數據穿透市場雜音,揭示了 AI 在模型性能、採納速度與經濟影響上的飛速發展,同時也指出了能源消耗、基準測試失效以及監管滯後等嚴峻挑戰。

如果你有在關注 AI 新聞,你可能會感到一陣暈頭轉向。AI 是淘金熱、AI 是泡沫、AI 會搶走你的工作、AI 甚至看不懂時鐘。史丹佛大學以人為本人工智慧學院(HAI)今日發布了《2026 年 AI 指數報告》(AI Index),這份 AI 的年度成績單為這些喧囂提供了一些清晰的見解。

儘管有人預測 AI 的發展可能會遇到瓶頸,但報告指出,頂尖模型的表現仍在持續提升。人們採納 AI 的速度比當初採納個人電腦或網際網路還要快。AI 公司的營收增長速度超過了以往任何一次技術繁榮時期的公司,但他們同時也在數據中心和晶片上投入了數千億美元。旨在衡量 AI 的基準測試、旨在監管 AI 的政策以及就業市場,都在苦苦追趕。AI 正在全力衝刺,而我們其他人還在找鞋子。

這種高速發展是有代價的。全球 AI 數據中心現在的耗電量可達 29.6 十億瓦(GW),足以供應整個紐約州在用電高峰期的需求。光是運行 OpenAI 的 GPT-4o,其年度用水量就可能超過 1,200 萬人的飲水需求。與此同時,晶片供應鏈異常脆弱。美國擁有全球大部分的 AI 數據中心,而台灣的一家公司——台積電(TSMC),則製造了幾乎每一顆領先的 AI 晶片。

數據顯示,這項技術的演進速度超出了我們的管理能力。以下是今年報告中的一些關鍵要點。

美國與中國幾乎平手

根據 Arena 的數據,在一場具有巨大地緣政治利益的長期激烈競爭中,美國和中國在 AI 模型的性能上幾乎並駕齊驅。Arena 是一個社群驅動的排名平台,允許用戶比較大型語言模型在相同提示詞下的輸出。2023 年初,OpenAI 憑藉 ChatGPT 保持領先,但隨著 Google 和 Anthropic 發布各自的模型,這一差距在 2024 年縮小。2025 年 2 月,由中國實驗室 DeepSeek 開發的 AI 模型 R1,曾短暫追平美國頂尖模型 ChatGPT。截至 2026 年 3 月,Anthropic 處於領先地位,緊隨其後的是 xAI、Google 和 OpenAI。DeepSeek 和阿里巴巴等中國模型僅略微落後。由於頂尖 AI 模型在排名上的差距微乎其微,它們現在正轉向成本、可靠性和實際用途方面的競爭。

該指數指出,美中兩國擁有不同的 AI 優勢。雖然美國擁有更強大的 AI 模型、更多的資本以及估計 5,427 個數據中心(是其他任何國家的 10 倍以上),但中國在 AI 研究論文、專利和機器人技術方面處於領先地位。

隨著競爭加劇,OpenAI、Anthropic 和 Google 等公司不再公開其訓練代碼、參數數量或數據集大小。該報告的合著者、南加州大學計算機科學家 Yolanda Gil 表示:「我們在預測模型行為方面還有很多事情不了解。」她說,缺乏透明度使得獨立研究人員難以研究如何讓 AI 模型變得更安全。

AI 模型進步神速

儘管有預測稱發展將進入高原期,但 AI 模型仍在不斷進步。在某些衡量標準下,它們在旨在測試博士級科學、數學和語言理解能力的測試中,表現已達到或超過了人類專家的水平。SWE-bench Verified(一項針對 AI 模型的軟體工程基準測試)顯示,頂尖得分從 2024 年的 60% 左右躍升至 2025 年的近 100%。2025 年,一個 AI 系統甚至獨立生成了天氣預報。

「我很驚訝這項技術能持續改進,而且完全沒有進入高原期的跡象,」Gil 說。

然而,AI 在許多其他領域仍面臨挑戰。由於模型是透過處理海量文本和圖像而非體驗物理世界來學習的,因此 AI 展現出「參差不齊的智能」。機器人仍處於早期階段,僅能成功完成 12% 的家務勞動。自動駕駛汽車則發展得更遠:Waymo 目前已在美國五個城市運行,而百度的小度(Apollo Go)車輛正在中國接送乘客。AI 也正在擴展到法律和金融等專業領域,但目前還沒有任何模型能主導該領域。

但我們測試 AI 的方式已經失效

這些進步報告應持保留態度。史丹佛大學的報告指出,隨著模型迅速突破上限,旨在追蹤 AI 進展的基準測試正難以跟上步伐。有些基準測試結構不良——一個測試模型數學能力的流行基準測試竟然有 42% 的錯誤率。其他的則可以被操縱:例如,當模型使用基準測試數據進行訓練時,它們可以在不變得更聰明的情況下獲得高分。

由於 AI 的實際用途很少與測試方式相同,因此強大的基準測試表現並不總是能轉化為現實世界的性能。而對於 AI 代理和機器人等複雜的互動技術,基準測試幾乎還不存在。

AI 公司分享的模型訓練資訊也越來越少,獨立測試有時得出的結論與公司報告的內容大相徑庭。Gil 說:「許多公司沒有公布其模型在某些基準測試中的表現,特別是負責任 AI(responsible-AI)的基準測試。模型在基準測試中表現數據的缺失,或許本身就說明了一些問題。」

AI 開始影響就業

在進入主流視野不到三年的時間裡,全球已有超過一半的人使用 AI,其採納速度超過了個人電腦或網際網路。估計有 88% 的組織現在使用 AI,五分之四的大學生也在使用。

目前仍處於部署的早期階段,AI 對就業的影響難以衡量。儘管如此,一些研究表明 AI 正開始影響某些行業的年輕工作者。根據史丹佛大學經濟學家 2025 年的一項研究,自 2022 年以來,22 至 25 歲軟體開發人員的就業人數下降了近 20%。這種下降可能不完全歸咎於 AI,因為更廣泛的宏觀經濟狀況也可能是原因之一,但 AI 似乎確實發揮了作用。

雇主表示,招聘可能會繼續收緊。根據麥肯錫公司(McKinsey & Company)2025 年的一項調查,三分之一的組織預計 AI 將在未來一年縮減其員工規模,特別是在服務、供應鏈運作和軟體工程領域。根據該指數引用的研究,AI 在客戶服務領域將生產力提高了 14%,在軟體開發領域提高了 26%,但在需要更多判斷力的任務中尚未看到此類增長。總體而言,現在要了解 AI 更大的經濟影響還為時過早。

人們對 AI 的情感很複雜

根據該指數引用的 Ipsos 調查,全球民眾對 AI 既感到樂觀又感到焦慮:59% 的人認為它帶來的益處多於弊端,而 52% 的人表示它讓他們感到緊張。

值得注意的是,根據皮尤(Pew)的一項調查,專家和公眾對 AI 未來的看法截然不同。最大的差距在於工作的未來:雖然 73% 的專家認為 AI 將對人們的工作方式產生積極影響,但只有 23% 的美國公眾持此觀點。專家對 AI 在教育和醫療領域的影響也比公眾更樂觀,但雙方都一致認為 AI 將損害選舉和人際關係。

根據另一項 Ipsos 調查,在所有受訪國家中,美國人對政府適當監管 AI 的信任度最低。擔心聯邦 AI 監管力度不足的美國人,比擔心監管過度的美國人更多。

政府正努力監管 AI

世界各國政府都在努力監管 AI,但去年取得了一些小進展。歐盟《人工智慧法案》的首批禁令生效,禁止在預測性警務和情緒識別中使用 AI。日本、韓國和義大利也通過了國家 AI 法律。與此同時,美國聯邦政府轉向放寬監管,川普總統發布了一項行政命令,試圖限制各州監管 AI 的權力。

儘管聯邦政府採取了這些行動,美國各州議會仍通過了創紀錄的 150 項與 AI 相關的法案。加州頒布了具有里程碑意義的立法,包括 SB 53 法案,該法案要求 AI 模型開發者必須進行安全披露並提供舉報人保護。紐約州通過了《RAISE 法案》,要求 AI 公司公布安全協議並報告重大安全事故。

但 Gil 表示,儘管立法活動頻繁,監管仍落後於技術發展,因為我們並不真正了解它是如何運作的。「各國政府對監管 AI 持謹慎態度,因為……我們對許多事情還不夠了解,」她說。「我們還沒有很好地掌握這些系統。」

https://technologyreview.com/2026/04/13/1135675/want-to-understand-the-current-state-of-ai-check-out-these-charts/