Anthropic 經濟指數:理解 AI 使用情況的新型基礎指標

Anthropic 經濟指數:理解 AI 使用情況的新型基礎指標

Anthropic Research·

Anthropic 推出五項經濟基礎指標,用以追蹤 Claude 如何影響不同職業與國家的勞動生產力、任務複雜度以及技能需求。

Anthropic 經濟指數:理解 AI 使用的新基石

Anthropic 經濟指數:理解 AI 使用的新基石

人工智慧真的讓人的工作速度變快了嗎?AI 最擅長支援哪類任務?它又會如何改變人類職業的本質?

在 Anthropic,我們持續衡量現實世界的 AI 使用情況,以回答這類問題。我們保護隱私的分析方法讓我們能深入了解 Claude.ai 上的對話(捕捉消費者端的使用)以及我們的第一方 API(主要捕捉企業端的使用)。1 在過去的報告中,我們按職業和薪資水平評估了 AI 任務,深入研究了軟體開發,並調查了各國及美國各州的 AI 使用情況。

我們現在為「經濟指數」增加了新的細節層次。在第四份報告中,我們引入了所謂的「經濟原語」(economic primitives):一套五個簡單、基礎的衡量指標,用以追蹤 Claude 隨時間推移產生的經濟影響。我們最初的指標集包括:任務複雜度、技能水平、用途(工作、教育或個人使用)、AI 自主性以及成功率。2 我們透過要求 Claude 針對本報告樣本中的每一段對話回答一組共同問題,來得出這些原語。

這些原語提供了 AI 潛在經濟影響的領先指標,並讓我們能回答關於 AI 如何改變工作的更複雜問題。我們最新的報告抽樣了 2025 年 11 月的對話(主要使用 Claude Sonnet 4.5),利用這些原語探索了一系列原本無法回答的問題——包括 Claude 在更複雜任務中的成功率如何變化,以及迄今為止對 Claude 的使用是否預示著對許多工作產生淨「去技能化」(net-deskilling)效應。

您可以在此閱讀第四份經濟指數報告。以下我們摘要其結果。

我們從經濟原語中學到了什麼

我們將經濟原語應用於個別任務、職業,以及我們觀察到的變化可能產生的總體影響。(我們的完整方法論——包括我們如何測試原語準確性的細節——詳見完整報告的第二章。)

任務

AI 加速了哪些任務,加速了多少?

我們發現,越複雜的任務被 Claude 加速的程度越高。我們透過 Claude 估計理解對話輸入所需的受教育年限來衡量:在 Claude.ai 中,需要高中學歷(12 年)的提示任務被加速了 9 倍,而需要大學學位(16 年)的任務則被加速了 12 倍。(在 API 上,加速效果更為顯著。)這些結果暗示,AI 的生產力增益目前正累積在需要較高人力資本的任務中,這與白領專業人士更傾向在工作中使用 AI 的證據一致。

當我們根據任務成功率進行調整時,這一趨勢依然存在(儘管程度較弱)。Claude 成功完成需要大學學位任務的比例為 66%,而需要高中以下學歷的任務成功率為 70%。這降低但並未消除整體效應:Claude 對任務加速的影響隨複雜度增加而提升的速度,遠快於複雜度與成功率下降的相關性。

圖片

Claude 支援任務的時間跨度為何?

METR 對 AI 任務跨度的衡量顯示,越長的任務對 AI 模型來說越難完成。但隨著模型進步,AI 模型可以工作的時間長度正在穩步增加:這一衡量指標已成為 AI 進步的關鍵指標。

我們能利用經濟原語來補充 METR 的分析。在下圖中,我們展示了 Claude 在 Claude.ai 和 API 上,相對於人類完成相同任務所需時間的任務級成功率:

圖片

METR 的基準測試顯示,Claude Sonnet 4.5(我們分析中的模型)在 2 小時的任務上達到 50% 的成功率。相比之下,我們自己的 API 數據發現,Claude 在耗時近兩倍(約 3.5 小時)的任務上成功率為 50%,而在 Claude.ai 上,持續時間則長得多——約 19 小時。但這可能不像表面上看起來那麼矛盾:我們的方法論在某些重要方面與 METR 不同。在我們的樣本中,用戶可以將複雜任務分解為較小的步驟,建立反饋迴路讓 Claude 修正方向。而且我們的樣本並非固定任務集,而是包含一種選擇偏差:用戶會把更有信心能成功的任務交給 Claude。

我們的分析顯示,Claude 的有效時間跨度可能與使用一致任務集的研究結果有所不同。我們將在未來的報告中持續追蹤此指標。

Claude 的工作性質在不同國家有何差異?

我們發現,在處於不同經濟發展階段的國家,Claude 完成的任務類型截然不同。在人均 GDP 較高的國家,Claude 更多被用於工作或個人用途;而處於光譜另一端的國家,則更傾向將其用於教育課程作業。這符合一個簡單的「採用曲線」故事:低收入國家的 AI 使用在教育和少數工作任務中佔很大比例,而隨著國家變得富裕,AI 使用會向個人用途多樣化發展。

這些結果與微軟最近的研究一致,該研究將教育領域的 AI 使用與較低的人均收入聯繫起來,而將休閒領域的 AI 使用與較高收入聯繫起來。我們最近與盧安達政府及技術培訓提供商 ALX 的合作正是基於此考量:參與者從培養 AI 素養開始,我們正在試行一項計劃,為部分畢業生提供為期一年的 Claude Pro 訪問權限,支持從教育用途向更廣泛應用的轉型。

圖片

職業

覆蓋範圍

在我們 2025 年 1 月數據的第一份報告中,我們發現樣本中 36% 的工作至少有四分之一的任務使用了 Claude。彙整各份報告的數據後,這一比例已上升至 49%。但一旦我們考慮到 Claude 的成功率(我們根據工人執行該任務的頻率和所需時間進行加權),對於哪些工作受 AI 影響最大的情況,我們得到了不同的結論。

在下圖中,我們在 X 軸繪製了早期的職業任務覆蓋率,在 Y 軸繪製了我們新的調整後衡量指標。雖然兩者確實相關,但我們現在發現,某些職業(如數據輸入員和放射科醫師)受 AI 的影響比單純任務覆蓋率所顯示的要大得多,而其他職業(如教師和軟體開發人員)受影響程度則相對較小。

圖片

即便如此,我們修正後的評估仍有局限:我們僅評估在 Claude.ai 上執行的任務,且目前尚不清楚這些對話如何對應到現實世界的變化。這是我們計劃在未來進一步挖掘的領域。

任務內容

我們提出的另一個問題是,AI 覆蓋的任務代表的是特定職業中較高技能還是較低技能的部分。利用我們為每項任務建立的技能水平估計,我們發現 Claude 相對更有可能覆蓋需要較高教育水平的任務——具體而言,是平均需要 14.4 年教育(相當於美國副學士學位)的任務,而全經濟體的平均值為 13.2 年(如下圖所示)。這與我們早先發現 Claude 更頻繁被白領工人使用的結果一致。

圖片

作為一項實驗,我們估計了移除這些由 Claude 覆蓋的任務會如何改變人們工作的任務組成。作為第一階效應,這平均而言會使工作「去技能化」,因為它移除了那些高教育要求的任務。技術作家、旅行社代理人和教師等職業將受到影響(我們在報告中有進一步討論),儘管少數職業(如房地產經理)會看到相反的效應。

我們不一定預測這種去技能化一定會發生:即使 AI 完全自動化了它目前支援的任務,勞動力市場也可能以本分析未考慮的方式進行動態調整。(當然,隨著模型改進,AI 覆蓋的任務組成也會改變。)即便如此,我們認為這為 AI 在不久的將來可能對職業產生的最直接影響提供了有用的信號。3

總體影響

在我們早期的研究中,我們估計 AI 的廣泛採用可能使美國未來十年的勞動力生產力增長每年提高 1.8 個百分點——約為趨勢增長率的兩倍。我們的新原語讓我們能重新審視這項分析。

僅基於我們對任務加速的估計,我們複製了早期 1.8 個百分點增長的發現(即使加入 API 數據後也是如此)。但當我們考慮到任務可靠性時——即當我們根據任務成功的概率調整任務級時間節省的估計時,Claude.ai 上完成任務的估計值下降了約三分之一(降至每年 1.2 個百分點),而對於 API 上通常更具挑戰性的任務,估計值下降稍多(降至 1.0 個百分點)。

即使是每年 1 個百分點的勞動力生產力增長依然顯著:這將使美國生產力增長回到 1990 年代末和 2000 年代初的水平。而且,正如我們在早期研究中提到的,這個頂層估計並未考慮到 AI 模型變得更強大,或工作中的 AI 使用變得更複雜的可能性——這可能會將數字推得更高。事實上,自我們調查以來,隨著 Claude Opus 4.5 的發布,Claude 已變得更加強大。

先前衡量指標的更新

除了我們的原語,我們還針對先前報告中一直追蹤的指標收集了新一輪數據。這讓我們能梳理出 2025 年 1 月至 11 月期間 AI 使用的趨勢。在這裡,我們發現結果與先前分析相比僅有微小演變,這指向了 Claude 使用分佈的不均衡。

首先,我們發現 Claude 的使用仍然高度集中在某些任務中:儘管我們的樣本包含 Claude.ai 上 3,000 個獨特的工作任務,但前十大任務就佔了 24%,這一比例從 2025 年 1 月的 21% 穩步上升。具體而言,電腦和數學任務繼續主導 Claude 的使用:它們約佔 Claude.ai 所有對話的三分之一,以及我們 API 流量的近一半。

其次,我們的新報告發現,「增強」(augmentation,52% 的對話)已超過「自動化」(automation,45%),成為 Claude.ai 上最受歡迎的互動模式。這與我們 8 月樣本中看到的情況相反(當時自動化以 49% 對 47% 領先),但當我們從更長的時間跨度評估此問題時,我們仍看到自動化在任務中的佔比緩慢上升:去年 1 月增強以 55% 對 41% 領先,3 月則為 55% 對 42%。

第三,我們最新的分析顯示,AI 使用的地理集中度(如我們上次討論的)依然明顯。美國、印度、日本、英國和韓國在 Claude.ai 的整體使用上仍處於領先地位,且採用情況仍能由人均 GDP 得到很好的解釋。即便如此,在美國,我們觀察到了較大的變化:Claude 的使用在美國各州之間的分佈明顯變得更加均勻。事實上,如果這一趨勢持續下去,我們的模型預測 Claude 的使用將在兩到五年內在全美範圍內趨於平等。我們在報告中更詳細地討論了這個模型。

結論

我們最新的經濟指數報告最直接的結論是,AI 對全球勞動力的影響仍然高度不均:AI 的使用仍集中在特定的國家和職業,且正如任務覆蓋率證據所示,它對某些職業的影響方式與其他職業截然不同。

更廣泛地說,這份報告為我們未來的調查提供了一個新的基準。隨著 Claude 的進步,我們預期它將被要求承擔更困難的任務,並可能取得更大的成功。我們也預期,隨著任務變得更可靠,它們可能會從 Claude.ai 轉向 API(即從主要是消費者轉向主要是企業)——如果這種情況發生,鑑於企業採用對 AI 生產力影響的重要性,這將為我們提供另一個關於未來經濟影響的可能指標。透過我們的原語,我們將能夠衡量這些變化如何開始影響現實世界的結果,包括人們工作的本質,以及哪些人(及何處)在這個快速技術轉型時期最可能受到影響。

與此同時,研究人員、記者和公眾可以利用我們的數據來啟發他們的研究和思考,並為我們可能需要的潛在政策應對提供經驗基礎。關於上述各個領域的更多細節,請參閱我們的完整報告。

Anthropic Research

相關文章

  1. Anthropic 經濟指數:理解 AI 使用的新基石

    3 個月前

  2. Anthropic 經濟指數報告:學習曲線

    大約 1 個月前

  3. 經濟研究:追蹤人工智慧對生產力與全球經濟的影響

    大約 2 個月前

  4. Anthropic 經濟指數報告:經濟基本要素

    3 個月前

  5. 宣佈啟動 Anthropic 經濟指數調查

    1 天前