Anthropic 經濟指數：理解 AI 使用情況的新型基礎指標

Anthropic Research·3 個月前

Anthropic 推出五項經濟基礎指標，用以追蹤 Claude 如何影響不同職業與國家的勞動生產力、任務複雜度以及技能需求。

Anthropic 經濟指數：理解 AI 使用的新基石

人工智慧真的讓人的工作速度變快了嗎？AI 最擅長支援哪類任務？它又會如何改變人類職業的本質？

在 Anthropic，我們持續衡量現實世界的 AI 使用情況，以回答這類問題。我們保護隱私的分析方法讓我們能深入了解 Claude.ai 上的對話（捕捉消費者端的使用）以及我們的第一方 API（主要捕捉企業端的使用）。1 在過去的報告中，我們按職業和薪資水平評估了 AI 任務，深入研究了軟體開發，並調查了各國及美國各州的 AI 使用情況。

我們現在為「經濟指數」增加了新的細節層次。在第四份報告中，我們引入了所謂的「經濟原語」（economic primitives）：一套五個簡單、基礎的衡量指標，用以追蹤 Claude 隨時間推移產生的經濟影響。我們最初的指標集包括：任務複雜度、技能水平、用途（工作、教育或個人使用）、AI 自主性以及成功率。2 我們透過要求 Claude 針對本報告樣本中的每一段對話回答一組共同問題，來得出這些原語。

這些原語提供了 AI 潛在經濟影響的領先指標，並讓我們能回答關於 AI 如何改變工作的更複雜問題。我們最新的報告抽樣了 2025 年 11 月的對話（主要使用 Claude Sonnet 4.5），利用這些原語探索了一系列原本無法回答的問題——包括 Claude 在更複雜任務中的成功率如何變化，以及迄今為止對 Claude 的使用是否預示著對許多工作產生淨「去技能化」（net-deskilling）效應。

您可以在此閱讀第四份經濟指數報告。以下我們摘要其結果。

我們從經濟原語中學到了什麼

我們將經濟原語應用於個別任務、職業，以及我們觀察到的變化可能產生的總體影響。（我們的完整方法論——包括我們如何測試原語準確性的細節——詳見完整報告的第二章。）

任務

AI 加速了哪些任務，加速了多少？

我們發現，越複雜的任務被 Claude 加速的程度越高。我們透過 Claude 估計理解對話輸入所需的受教育年限來衡量：在 Claude.ai 中，需要高中學歷（12 年）的提示任務被加速了 9 倍，而需要大學學位（16 年）的任務則被加速了 12 倍。（在 API 上，加速效果更為顯著。）這些結果暗示，AI 的生產力增益目前正累積在需要較高人力資本的任務中，這與白領專業人士更傾向在工作中使用 AI 的證據一致。

當我們根據任務成功率進行調整時，這一趨勢依然存在（儘管程度較弱）。Claude 成功完成需要大學學位任務的比例為 66%，而需要高中以下學歷的任務成功率為 70%。這降低但並未消除整體效應：Claude 對任務加速的影響隨複雜度增加而提升的速度，遠快於複雜度與成功率下降的相關性。

Claude 支援任務的時間跨度為何？

METR 對 AI 任務跨度的衡量顯示，越長的任務對 AI 模型來說越難完成。但隨著模型進步，AI 模型可以工作的時間長度正在穩步增加：這一衡量指標已成為 AI 進步的關鍵指標。

我們能利用經濟原語來補充 METR 的分析。在下圖中，我們展示了 Claude 在 Claude.ai 和 API 上，相對於人類完成相同任務所需時間的任務級成功率：

METR 的基準測試顯示，Claude Sonnet 4.5（我們分析中的模型）在 2 小時的任務上達到 50% 的成功率。相比之下，我們自己的 API 數據發現，Claude 在耗時近兩倍（約 3.5 小時）的任務上成功率為 50%，而在 Claude.ai 上，持續時間則長得多——約 19 小時。但這可能不像表面上看起來那麼矛盾：我們的方法論在某些重要方面與 METR 不同。在我們的樣本中，用戶可以將複雜任務分解為較小的步驟，建立反饋迴路讓 Claude 修正方向。而且我們的樣本並非固定任務集，而是包含一種選擇偏差：用戶會把更有信心能成功的任務交給 Claude。

我們的分析顯示，Claude 的有效時間跨度可能與使用一致任務集的研究結果有所不同。我們將在未來的報告中持續追蹤此指標。

Claude 的工作性質在不同國家有何差異？

我們發現，在處於不同經濟發展階段的國家，Claude 完成的任務類型截然不同。在人均 GDP 較高的國家，Claude 更多被用於工作或個人用途；而處於光譜另一端的國家，則更傾向將其用於教育課程作業。這符合一個簡單的「採用曲線」故事：低收入國家的 AI 使用在教育和少數工作任務中佔很大比例，而隨著國家變得富裕，AI 使用會向個人用途多樣化發展。

這些結果與微軟最近的研究一致，該研究將教育領域的 AI 使用與較低的人均收入聯繫起來，而將休閒領域的 AI 使用與較高收入聯繫起來。我們最近與盧安達政府及技術培訓提供商 ALX 的合作正是基於此考量：參與者從培養 AI 素養開始，我們正在試行一項計劃，為部分畢業生提供為期一年的 Claude Pro 訪問權限，支持從教育用途向更廣泛應用的轉型。

職業

覆蓋範圍

在我們 2025 年 1 月數據的第一份報告中，我們發現樣本中 36% 的工作至少有四分之一的任務使用了 Claude。彙整各份報告的數據後，這一比例已上升至 49%。但一旦我們考慮到 Claude 的成功率（我們根據工人執行該任務的頻率和所需時間進行加權），對於哪些工作受 AI 影響最大的情況，我們得到了不同的結論。

在下圖中，我們在 X 軸繪製了早期的職業任務覆蓋率，在 Y 軸繪製了我們新的調整後衡量指標。雖然兩者確實相關，但我們現在發現，某些職業（如數據輸入員和放射科醫師）受 AI 的影響比單純任務覆蓋率所顯示的要大得多，而其他職業（如教師和軟體開發人員）受影響程度則相對較小。

即便如此，我們修正後的評估仍有局限：我們僅評估在 Claude.ai 上執行的任務，且目前尚不清楚這些對話如何對應到現實世界的變化。這是我們計劃在未來進一步挖掘的領域。

任務內容

我們提出的另一個問題是，AI 覆蓋的任務代表的是特定職業中較高技能還是較低技能的部分。利用我們為每項任務建立的技能水平估計，我們發現 Claude 相對更有可能覆蓋需要較高教育水平的任務——具體而言，是平均需要 14.4 年教育（相當於美國副學士學位）的任務，而全經濟體的平均值為 13.2 年（如下圖所示）。這與我們早先發現 Claude 更頻繁被白領工人使用的結果一致。

作為一項實驗，我們估計了移除這些由 Claude 覆蓋的任務會如何改變人們工作的任務組成。作為第一階效應，這平均而言會使工作「去技能化」，因為它移除了那些高教育要求的任務。技術作家、旅行社代理人和教師等職業將受到影響（我們在報告中有進一步討論），儘管少數職業（如房地產經理）會看到相反的效應。

我們不一定預測這種去技能化一定會發生：即使 AI 完全自動化了它目前支援的任務，勞動力市場也可能以本分析未考慮的方式進行動態調整。（當然，隨著模型改進，AI 覆蓋的任務組成也會改變。）即便如此，我們認為這為 AI 在不久的將來可能對職業產生的最直接影響提供了有用的信號。3

總體影響

在我們早期的研究中，我們估計 AI 的廣泛採用可能使美國未來十年的勞動力生產力增長每年提高 1.8 個百分點——約為趨勢增長率的兩倍。我們的新原語讓我們能重新審視這項分析。

僅基於我們對任務加速的估計，我們複製了早期 1.8 個百分點增長的發現（即使加入 API 數據後也是如此）。但當我們考慮到任務可靠性時——即當我們根據任務成功的概率調整任務級時間節省的估計時，Claude.ai 上完成任務的估計值下降了約三分之一（降至每年 1.2 個百分點），而對於 API 上通常更具挑戰性的任務，估計值下降稍多（降至 1.0 個百分點）。

即使是每年 1 個百分點的勞動力生產力增長依然顯著：這將使美國生產力增長回到 1990 年代末和 2000 年代初的水平。而且，正如我們在早期研究中提到的，這個頂層估計並未考慮到 AI 模型變得更強大，或工作中的 AI 使用變得更複雜的可能性——這可能會將數字推得更高。事實上，自我們調查以來，隨著 Claude Opus 4.5 的發布，Claude 已變得更加強大。

先前衡量指標的更新

除了我們的原語，我們還針對先前報告中一直追蹤的指標收集了新一輪數據。這讓我們能梳理出 2025 年 1 月至 11 月期間 AI 使用的趨勢。在這裡，我們發現結果與先前分析相比僅有微小演變，這指向了 Claude 使用分佈的不均衡。

首先，我們發現 Claude 的使用仍然高度集中在某些任務中：儘管我們的樣本包含 Claude.ai 上 3,000 個獨特的工作任務，但前十大任務就佔了 24%，這一比例從 2025 年 1 月的 21% 穩步上升。具體而言，電腦和數學任務繼續主導 Claude 的使用：它們約佔 Claude.ai 所有對話的三分之一，以及我們 API 流量的近一半。

其次，我們的新報告發現，「增強」（augmentation，52% 的對話）已超過「自動化」（automation，45%），成為 Claude.ai 上最受歡迎的互動模式。這與我們 8 月樣本中看到的情況相反（當時自動化以 49% 對 47% 領先），但當我們從更長的時間跨度評估此問題時，我們仍看到自動化在任務中的佔比緩慢上升：去年 1 月增強以 55% 對 41% 領先，3 月則為 55% 對 42%。

第三，我們最新的分析顯示，AI 使用的地理集中度（如我們上次討論的）依然明顯。美國、印度、日本、英國和韓國在 Claude.ai 的整體使用上仍處於領先地位，且採用情況仍能由人均 GDP 得到很好的解釋。即便如此，在美國，我們觀察到了較大的變化：Claude 的使用在美國各州之間的分佈明顯變得更加均勻。事實上，如果這一趨勢持續下去，我們的模型預測 Claude 的使用將在兩到五年內在全美範圍內趨於平等。我們在報告中更詳細地討論了這個模型。

結論

我們最新的經濟指數報告最直接的結論是，AI 對全球勞動力的影響仍然高度不均：AI 的使用仍集中在特定的國家和職業，且正如任務覆蓋率證據所示，它對某些職業的影響方式與其他職業截然不同。

更廣泛地說，這份報告為我們未來的調查提供了一個新的基準。隨著 Claude 的進步，我們預期它將被要求承擔更困難的任務，並可能取得更大的成功。我們也預期，隨著任務變得更可靠，它們可能會從 Claude.ai 轉向 API（即從主要是消費者轉向主要是企業）——如果這種情況發生，鑑於企業採用對 AI 生產力影響的重要性，這將為我們提供另一個關於未來經濟影響的可能指標。透過我們的原語，我們將能夠衡量這些變化如何開始影響現實世界的結果，包括人們工作的本質，以及哪些人（及何處）在這個快速技術轉型時期最可能受到影響。

與此同時，研究人員、記者和公眾可以利用我們的數據來啟發他們的研究和思考，並為我們可能需要的潛在政策應對提供經驗基礎。關於上述各個領域的更多細節，請參閱我們的完整報告。

— Anthropic Research