人工智慧何時能轉變經濟？

Lesswrong·6 個月前

人工智慧對經濟的影響目前受限於其智力下限與不可靠性，因為高昂的人類驗證成本阻礙了大規模自動化，直到錯誤率降至接近零的水平為止。

這篇文章的 Substack 版本請見：
https://andreinfante.substack.com/p/when-will-ai-transform-the-economy

這是一個常見的 Twitter 爭論縮影：

「嘿，看來語言模型可以完成很多類似人類的認知任務，看看這個令人印象深刻的例子！這看起來像是會改變經濟的東西。」

「好吧，聰明人，這些東西已經問世好幾年了。為什麼經濟還沒轉型？」

這確實讓我感到有些神祕。這些模型能做令人印象深刻的事——解決編程任務、應對數學和邏輯謎題，以及回答詳細的科學問題。中位數水平的人類幾乎完全無法做到這些事，而最好的語言模型通常能做得非常好。這似乎是一個指標，顯示語言模型應該處於有利地位，可以成群結隊地取代人類知識工作者。

然而，即使是積極採用語言模型的行業（例如軟體工程），到目前為止也沒有看到就業或生產力發生巨大變化。即使考慮到滯後指標，許多早期關於立即經濟轉型和大規模失業的預測也尚未實現。

從個人經驗來看，如果我隨手丟一個隨機的小問題給 AI，它通常會讓我大吃一驚（特別是考慮到速度）。但如果我嘗試用它來解決我實際工作中真正的問題，持續一段時間後，它的光環就會開始消退。作為一名軟體工程師，這些工具確實對我有幫助（特別是在我不擅長的領域，如網頁開發）。但它們並非革命性的。我的生產力並沒有提高十倍。

緩解這種明顯緊張關係的一種方法，是從「天花板」和「地板」的角度重新定義問題。這些模型具有相當高的智能天花板（它們有時能完成的最高複雜度任務），優於大多數人類。然而，它們的智能地板（它們有時會失敗的最簡單任務）卻相當低：它們會犯下你預期幼兒或有認知障礙的人才會犯的錯誤。這種組合使得它們令人印象深刻，但不可靠。

這種組合在人類身上非常罕見！人類的天花板和地板之間的差距通常不會那麼大。我認為這就是為什麼這些東西如此兩極分化的原因之一。人們往往執著於其表現分佈的底端或頂端，並以此將其貶低為淺薄的胡言亂語，或是過度吹捧其短期潛力，而忽視了其局限性。人們想把對人類的假設投射到非人類系統上：要麼認為不可靠意味著那些令人印象深刻的表現一定是假的，要麼反之亦然。

用圖形表示，這個想法看起來會像這樣：

案例研究：自動化翻譯模型

讓我們用一個簡單的模型來看看這種不可靠性對 AI 經濟影響意味著什麼。

假設你有一家公司，僱人翻譯非虛構類書籍。公司可以僱用人類以每小時 60 美元的價格近乎完美地完成這項任務，完成一本典型的 5000 句的書需要 300 小時，成本為 18,000 美元。這些人類也可以審核機器生成的方案，並在發現錯誤時進行修正。如果翻譯恰好是完美的，這段時間僅用於仔細審核兩者（假設需要 100 小時或 6000 美元，比隨便讀一遍兩份文本長約 10 倍）。如果翻譯不完美，則需要額外成本來重做每個錯誤的部分。當然，公司也可以選擇運行機器翻譯，然後直接將未經檢查的作品發送出去。對於每一句混入出版書籍的錯誤翻譯，公司需承擔 50 美元的預期未來業務損失名譽成本（我承認這個數字完全是隨意的，如果你反對，請參閱敏感性分析）。假設與人力成本相比，機器的成本低到可以忽略不計（這通常是事實，且不會大幅改變結論）。我們假設公司在每個階段都會選擇能使總成本最小化的策略。

在這種情況下，提高天花板對你幫助不大：模型需要聰明到足以正確翻譯一個句子，但一旦達到了那個水平，額外的天花板就變得無關緊要了。關鍵全在於地板：模型出錯的頻率有多高？讓我們看看不同策略隨模型準確率變化的表現。

這是一張敏感性分析圖表，你可以看到最優策略如何隨著錯誤成本的變化而轉移。

在準確率較低時，使用機器翻譯反而會讓事情變得更糟。對於「僅限機器」策略，將垃圾機器輸出未經精煉就發布的成本高得離譜；而對於「混合」策略，清理所有錯誤實際上會讓人類翻譯員的速度變慢。但當機器的句子準確率達到 50% 時，在這個模型中，混合策略就能為你節省約 20% 的成本。這種狀況隨著準確率進入 90% 以上而穩步改善，此時「僅限機器」策略從高空墜落並隨著錯誤率趨近於零而勝出（較高的錯誤成本會提高發生這種取代所需的準確率，但永遠不會完全消除它）。在每個點都選擇最便宜的選項，你會在成本和人力利用率上看到類似的趨勢。

如你所見，從準確率略高於 35% 開始，你就會看到就業影響和成本節省，但最初這些影響是適度且連續的。只有當機器幾乎完美時，你才會遇到巨大的不連續點。

這是一個動畫，說明在這個模型中，不斷增長的整體準確率如何影響具有不同驗證和錯誤成本的任務。你可以看到，上升的水位線迅速迫使大多數任務進入混合模式，在 98% 左右消除了「僅限人類」的任務。從那裡開始，「僅限機器」的模式隨著可靠性每增加一個「9」而穩步增長。

我要提醒的是，混合模式的就業影響並非顯而易見。如果公司已經處理了大部分可用需求，你會看到這些效率提升導致裁員，正如大多數人直覺預期的那樣。但是，如果存在大量對價格敏感的需求（那些想翻譯書但負擔不起的人），每個項目的勞動力減少將被數量的增加所抵消：公司會翻譯更多的書，同時每本書需要的勞動力更少，使得總勞動力需求保持持平或上升。這不僅僅是經濟理論中的假設情景，當編譯器被發明時，程式設計師身上就發生了這種情況。每個程式設計師的生產力都大幅提高（完成大多數軟體所需的小時數比微碼時代少得多），而對程式設計師的需求不但沒有下降，反而爆炸式增長。

話雖如此，「後勞動力」模式的勞動力影響實際上非常直接。一旦你達到了那個神奇的質量門檻，每項任務所需的勞動力會突然降至零，我們假設的公司會解僱所有翻譯員，無論它處理的業務量有多少。你可以想像這樣一個場景：在經濟自動化的早期階段，就業實際上是上升的（雖然顯然會在需求曲線斜率不同的行業之間發生大量轉移和更迭），然後隨著模型的底層進展在許多行業達到關鍵門檻，就業開始崩潰。

顯然，這是一個簡化的模型。在現實生活中，任務的難度或成本並非同質的，這會使圖表變得模糊並磨平尖銳的過渡。此外，在現實生活中，翻譯的質量可能是多樣的而非二元的合格/失敗，每項錯誤的成本不一定是線性的，而且人類翻譯員也不是完美的——無論是在翻譯還是在捕捉錯誤方面。其他行業也有各自的複雜性：與許多其他任務相比，語言模型相當適合翻譯的結構。

但我認為這個漫畫模型的廣泛動態是非常具有啟發性的：模型要發揮作用存在一個最低質量門檻，在混合模式中會經歷一段很長的時間，效率隨著模型質量緩慢而穩步地增長，然後突然轉向後勞動力模式，公司不再為該特定任務僱用人類。

你可以在自動駕駛汽車的進展中看到一些類似的動態。開發一個可以在沒有干預的情況下行駛某些演示路線的模型是相當容易實現的：你可以對預期看到的情況進行過擬合，可靠性可以相當低，但在大多數時間仍然有效。目前已有許多公司做到了這一點，包括 2010 年的 Waymo。這讓你進入了特斯拉 FSD 和類似產品目前在商業上提供的模式，即該技術成為一個相當不錯的駕駛輔助功能。隨著所需干預率的下降，這種功能變得更有價值，但僅限於一定程度——只要你車裡還需要一個警覺的人，它就仍然只是一個駕駛輔助功能。此外，進一步降低錯誤率變得越來越困難。製造錯誤率極低的機器學習系統是可能的，但並不容易。每一個「9」都比前一個更昂貴且更耗時。

然而，在那些首次演示駕駛的十五年後，Waymo 終於達到了一個錯誤率極低的點，以至於可以完全撤掉車內的人類安全監控員。突然間，你擁有了一種新型的後勞動力商業模式，其價值潛力巨大——一個可以 24 小時運行、勞動力成本極低、服務完美一致且駕駛安全的自動駕駛車隊。這對應於圖表中的第二個拐點。

這並不能完美對應我們的翻譯例子，因為存在成本不同的糾錯層級，而且在翻譯案例中，自動化技術最初比單純運行離線語言模型要昂貴得多。此外，駕駛失敗的成本比幾乎任何其他行業都高，這迫使你必須磨出更多昂貴的「9」。但你仍然可以看到相同的基本動態在起作用。

我認為在許多行業中，我們正處於曲線的第一個拐點附近。要麼稍微落後於它，早期的 AI 整合還不足以節省淨時間；要麼就在它之後，它們在權衡之下提供了適度的進展。再加上採用的滯後以及對新工具（有些奇特）屬性的缺乏了解，這使得對經濟增長的整體影響幾乎可以忽略不計。

然而，模型顯然在改進，我預計這一趨勢將持續一段時間。我猜測在五年內，許多領域內的經濟影響將是實質性的，並且可以從頂層統計數據中衡量出來，除非發生改變經濟基準的某些外部衝擊（例如戰爭或重大經濟衰退）。

當我闡述這個論點時，我有點擔心它太過瑣碎或顯而易見，不值得如此詳細地爭論。然而，我也覺得我看到許多知識淵博的人在討論時並沒有做出這些區分，或者沒有專門思考任務自動化的機制，或者為什麼當前模型在現實世界的使用中表現不佳。所以我認為寫下來是值得的，即使你們中的一些人可能會覺得不以為然。

預測模型改進

這項分析沒有告訴我們的一件事是，達到曲線的第二個膝部（事情變得真正奇怪的那個點）需要多少實際時間。作為經濟體中的一員，了解這一點會很有用！不幸的是，預測 AI 的進展是出了名的具有挑戰性。1966 年，麻省理工學院媒體實驗室的 Seymour Papert 讓幾名研究生在暑假結束前解決計算機視覺問題，這幾乎為未來的 AI 預測奠定了基調。如果你在尋找對未來模型能力嚴謹、高度準確的預測，你是得不到的。

我們擁有的是 METR，它衡量模型在任務上的表現與人類完成相同任務所需時間的關係，並注意到了一個相當一致的趨勢。模型可以完成的任務長度（以人類時間計，在基準測試背景下）大約每半年翻一倍。我認為，就目前而言，這種預測是我們擁有的關於未來幾年模型改進情況的最佳信號。

作為參考，50% 的準確率大約是模型在特定領域開始具有經濟價值的起點。

這裡有各種注意事項：METR 是在不同領域平均不相似的表現——有些領域比其他領域強得多。有些任務非常難以進行基準測試，因此權重偏低（例如，體力任務在這裡被完全排除，目前比知識工作的表現弱得多）。由於各種原因，當前模型在基準測試任務上的表現客觀上優於現實世界任務。考慮到所有這些因素，可能會將圖表上的線條稍微向下平移，但我懷疑這不會對斜率產生太大影響。無論如何，趨勢似乎暗示，在幾年內，這些模型應該會達到在混合使用案例中對大多數知識工作至少有適度用處的程度。

LDJ 努力將這些趨勢推演到更高的準確率，並得到了這張圖表。

需要明確的是，我真的不會過度依賴這個。這是推論的推論，而且產生這些趨勢的情況隨時可能在兩個方向上發生變化（算力飽和、新的架構和算法等）。但這裡隱含的預測是，到 2030 年代初到中期，模型將能以 99% 的可靠性（深入混合模式並在某些任務中完全取代人類）完成大部分實質性的、耗時數小時的知識工作任務，具體取決於你想如何抵消圖表以考慮基準測試的過度表現。它還聲稱，截至目前，模型可以可靠地（99%）完成人類在幾秒鐘內能完成的大多數任務。這兩者對我來說似乎都是合理的，儘管我認為任何人都不應該對這種預測非常有信心。

結論

綜上所述，這一切描繪了一種技術，它目前令人印象深刻的程度遠高於其實用性。

然而，它也描繪了一場經濟轉型，與過去可以類比的例子相比，這場轉型可能會非常迅速。工業革命通常被認為歷時 150 年。計算機革命，從圖靈的 Bombe 到大多數美國家庭都擁有聯網電腦，大約花了 60 年。如果目前的趨勢持續下去，AI 革命可能只需要 15 年。

（雖然，再次強調，信心程度較低——無論是 10 年還是 30 年都不會令人震驚。）

— Lesswrong

你的個人知識庫

人工智慧何時能轉變經濟？

案例研究：自動化翻譯模型

預測模型改進

結論