
AI 能力的提升並非以犧牲經濟實惠性為代價
我認為 AI 推理成本的上升反映的是模型在完成更長任務,而非相對於其取代的人力勞動變得更貴,目前前沿模型在 50% 可靠性水平下的任務成本僅約為人力成本的 3%,且並未隨能力提升而增加。
METR 的前沿時間跨度大約每隔幾個月就會翻倍,這提供了實質證據,表明 AI 很快就能自動化許多任務甚至工作。但每項任務的推論成本也大幅上升,而自動化需要 AI 勞動力變得經濟實惠,而不僅僅是具備可能性。^([1]) 許多人看到前沿模型背後不斷增長的算力帳單,便斷定自動化很快將變得負擔不起。
我認為這誤讀了數據。推論成本的上升反映的是模型在完成更長的任務,而不是模型相對於其取代的人類勞動力變得更貴。目前的前沿模型在 50% 可靠性跨度下完成任務的成本約為人類成本的 3%,且這一比例並未隨著能力的提升而增加。因此,成本並非能力之外的額外瓶頸,我們應該預期自動化出現的時間點與 METR 能力趨勢線預測的相近。
我將「成本比」(cost ratio)定義為:解決一項任務的平均 AI 軌跡推論成本,除以完成同一任務的人類成本。利用 METR 的數據,我檢視了成本比隨時間變化的趨勢。我展示了三點:
- 在歷代前沿模型中,各模型在 50% 可靠性時間跨度下的成本比並未增加。
- 在模型成功完成的任務中,較長任務的成本比並不比短任務高。
- 當將每項任務的 AI 支出限制在人類成本的一小部分時,時間跨度的增長趨勢幾乎沒有放緩(即使限制在 1/32 倍,大約每 3 個月仍會翻倍)。
透過提供額外算力來提高成本比,可能會轉化為更長的時間跨度,但那將是當前趨勢之外的額外增益,而非導致趨勢的原因。因此,與外推 METR 的數據相比,增加推論時的支出將會顯著縮短 AI 的時間線。
Toby Ord 在他關於此主題的文章中得出了相反的結論;他認為有中度證據顯示,在 AI 能力的前沿,「每小時成本正呈指數級增長」。在附錄 A 中,我論證了 Ord 用來得出此結論的方法論是不可靠的,並導致對模型每小時成本的嚴重高估。
感謝 Toby Ord、Buck Shlegeris、Agustín Covarrubias、Alex Mallen、Alexa Pan、Tim Hua、Aniket Chakravorty、Arun Jose 和 Francis Rhys Ward 對早期草稿提出的有用建議。特別感謝 Ryan Greenblatt 提供的靈感,啟發了這篇文章。
本文中的所有圖表均使用此處的代碼生成。
來自 METR 的證據
在本文中,我分析了來自 METR 的公開時間跨度數據。我透過代幣數量(使用 OpenRouter 定價)估算 AI 推論成本,並除以數據集中提供的每項任務的人類成本,以此計算成本比。所有計算均採用 METR 的任務權重。我做了一些建模假設來填補 METR 數據集中的空白(見腳註)。^([2]) 這些假設不應影響我的整體結論,因為它們不應顯著影響模型間的趨勢。
我的分析存在重要的局限性,我將在展示證據後進行討論。
模型 50% 時間跨度下的成本比並未增加
為了調查成本比是否隨著模型的改進而上升,我檢視了每個模型在 50% 可靠性時間跨度下的成本比。對於每個模型,我選擇了該模型成功完成、且長度介於計算出的時間跨度 0.79 倍至 1.29 倍之間的任務(即正負 0.1 個數量級)。^([3]) 我繪製了所選任務組中的成本比中位數。
圖 1:各模型 50% 時間跨度附近(時間跨度的 0.79 倍至 1.29 倍之間)成功完成任務的成本比中位數,附帶四分位距。隨著歷代模型的時間跨度從幾分鐘增加到幾小時,成本比仍遠低於 1(虛線),且沒有上升趨勢。*
成本比在不同模型間未顯示出上升趨勢,且保持在遠低於 1 的水平。隨著模型 50% 時間跨度的指數級增長,企業可以廉價地使用它們來完成更長的任務。
我篩選成功的任務是為了證明成本並非能力之外的額外限制。如果成功的任務具有成本效益,那麼企業可以設定一個較低的成本上限,同時仍能捕捉到大部分的成功。有人可能會擔心這會低估成本,因為模型傾向於在廉價任務上成功。但即使在 80% 時間跨度(模型完成大部分任務的水平)下,成本比仍遠低於 1(圖 B3)。納入失敗案例也不會改變這一點(圖 B4)。^([4]) 這意味著企業可以有利可圖地自動化廣泛的任務,而不僅僅是少數廉價的子集。
時間跨度的進步並非由昂貴的長任務驅動
有人可能會對圖 1 提出反駁,認為即使每個模型 50% 時間跨度「處」的成本比沒有增加,但這些 50% 時間跨度的提升是來自於高成本比的長任務成功。如果這是真的,我們預期在成功完成的任務中,成本比會隨任務長度而上升。我證明了這是錯誤的:在成功的任務中,成本比並不隨任務長度上升。^([5])
圖 2:僅針對成功嘗試(排除 1.5 分鐘以下的任務)在不同模型下的任務時長與成本比關係。陰影區域顯示加權四分位距。成本比並未隨任務長度增加,反而有所下降,儘管這可能反映了一種選擇效應,即模型僅在相對廉價的長任務中取得成功。*
這並不意味著模型在處理較長任務時效率更高。這裡存在強大的選擇效應:模型通過的長跨度任務遠遠較少,且可能僅在那些恰好相對廉價的任務上成功。但由於只有成功才能推動時間跨度前進,關鍵在於較長的成功任務是否昂貴,而數據顯示並非如此。
固定成本下的進步速度同樣快
檢視 AI 進步負擔能力的另一種方法是詢問:如果企業將 AI 支出限制在人類成本的一小部分,進步會放緩多少?
我對「可負擔的 50% 時間跨度」進行建模,即模型有超過 50% 的機率既能完成任務,又能在給定成本比下完成任務的最大任務長度。如果在低成本比下進步依然迅速,那麼我們可以預期 AI 很快就能廉價地完成長任務。我測試了一系列上限,從人類成本的 1/4 到 1/32,以觀察更緊縮的預算是否會顯著減緩趨勢。
我分別對「可負擔性」和「通過率」進行建模。我將通過率作為任務長度的函數擬合一條邏輯回歸曲線(logistic curve),並對任何通過任務的可負擔機率擬合另一條邏輯曲線。^([6]) 我這樣做是因為通過率隨任務長度下降,但可負擔性卻上升(見圖 2)。擬合單一邏輯曲線將無法捕捉這些相反的趨勢。
將通過率邏輯曲線和可負擔性邏輯曲線相乘,即可得到某長度任務既能通過又可負擔的機率:
mjx-container[jax="CHTML"] {
line-height: 0;
}
mjx-container [space="1"] {
margin-left: .111em;
}
mjx-container [space="2"] {
margin-left: .167em;
}
mjx-container [space="3"] {
margin-left: .222em;
}
mjx-container [space="4"] {
margin-left: .278em;
}
mjx-container [space="5"] {
margin-left: .333em;
}
mjx-container [rspace="1"] {
margin-right: .111em;
}
mjx-container [rspace="2"] {
margin-right: .167em;
}
mjx-container [rspace="3"] {
margin-right: .222em;
}
mjx-container [rspace="4"] {
margin-right: .278em;
}
mjx-container [rspace="5"] {
margin-right: .333em;
}
mjx-container [size="s"] {
font-size: 70.7%;
}
mjx-container [size="ss"] {
font-size: 50%;
}
mjx-container [size="Tn"] {
font-size: 60%;
}
mjx-container [size="sm"] {
font-size: 85%;
}
mjx-container [size="lg"] {
font-size: 120%;
}
mjx-container [size="Lg"] {
font-size: 144%;
}
mjx-container [size="LG"] {
font-size: 173%;
}
mjx-container [size="hg"] {
font-size: 207%;
}
mjx-container [size="HG"] {
font-size: 249%;
}
mjx-container [width="full"] {
width: 100%;
}
mjx-box {
display: inline-block;
}
mjx-block {
display: block;
}
mjx-itable {
display: inline-table;
}
mjx-row {
display: table-row;
}
mjx-row > * {
display: table-cell;
}
mjx-mtext {
display: inline-block;
text-align: left;
}
mjx-mstyle {
display: inline-block;
}
mjx-merror {
display: inline-block;
color: red;
background-color: yellow;
}
mjx-mphantom {
visibility: hidden;
}
_::-webkit-full-page-media, _:future, :root mjx-container {
will-change: opacity;
}
mjx-math {
display: inline-block;
text-align: left;
line-height: 0;
text-indent: 0;
font-style: normal;
font-weight: normal;
font-size: 100%;
font-size-adjust: none;
letter-spacing: normal;
border-collapse: collapse;
word-wrap: normal;
word-spacing: normal;
white-space: nowrap;
direction: ltr;
padding: 1px 0;
}
mjx-container[jax="CHTML"][display="true"] {
display: block;
text-align: center;
margin: 1em 0;
}
mjx-container[jax="CHTML"][display="true"][width="full"] {
display: flex;
}
mjx-container[jax="CHTML"][display="true"] mjx-math {
padding: 0;
}
mjx-container[jax="CHTML"][justify="left"] {
text-align: left;
}
mjx-container[jax="CHTML"][justify="right"] {
text-align: right;
}
mjx-mi {
display: inline-block;
text-align: left;
}
mjx-c {
display: inline-block;
}
mjx-utext {
display: inline-block;
padding: .75em 0 .2em 0;
}
mjx-mo {
display: inline-block;
text-align: left;
}
mjx-stretchy-h {
display: inline-table;
width: 100%;
}
mjx-stretchy-h > * {
display: table-cell;
width: 0;
}
mjx-stretchy-h > * > mjx-c {
display: inline-block;
transform: scalex(1.0000001);
}
mjx-stretchy-h > * > mjx-c::before {
display: inline-block;
width: initial;
}
mjx-stretchy-h > mjx-ext {
/* IE / overflow: hidden;
/ others */ overflow: clip visible;
width: 100%;
}
mjx-stretchy-h > mjx-ext > mjx-c::before {
transform: scalex(500);
}
mjx-stretchy-h > mjx-ext > mjx-c {
width: 0;
}
mjx-stretchy-h > mjx-beg > mjx-c {
margin-right: -.1em;
}
mjx-stretchy-h > mjx-end > mjx-c {
margin-left: -.1em;
}
mjx-stretchy-v {
display: inline-block;
}
mjx-stretchy-v > * {
display: block;
}
mjx-stretchy-v > mjx-beg {
height: 0;
}
mjx-stretchy-v > mjx-end > mjx-c {
display: block;
}
mjx-stretchy-v > * > mjx-c {
transform: scaley(1.0000001);
transform-origin: left center;
overflow: hidden;
}
mjx-stretchy-v > mjx-ext {
display: block;
height: 100%;
box-sizing: border-box;
border: 0px solid transparent;
/* IE / overflow: hidden;
/ others */ overflow: visible clip;
}
mjx-stretchy-v > mjx-ext > mjx-c::before {
width: initial;
box-sizing: border-box;
}
mjx-stretchy-v > mjx-ext > mjx-c {
transform: scaleY(500) translateY(.075em);
overflow: visible;
}
mjx-mark {
display: inline-block;
height: 0px;
}
mjx-mfrac {
display: inline-block;
text-align: left;
}
mjx-frac {
display: inline-block;
vertical-align: 0.17em;
padding: 0 .22em;
}
mjx-frac[type="d"] {
vertical-align: .04em;
}
mjx-frac[delims] {
padding: 0 .1em;
}
mjx-frac[atop] {
padding: 0 .12em;
}
mjx-frac[atop][delims] {
padding: 0;
}
mjx-dtable {
display: inline-table;
width: 100%;
}
mjx-dtable > * {
font-size: 2000%;
}
mjx-dbox {
display: block;
font-size: 5%;
}
mjx-num {
display: block;
text-align: center;
}
mjx-den {
display: block;
text-align: center;
}
mjx-mfrac[bevelled] > mjx-num {
display: inline-block;
}
mjx-mfrac[bevelled] > mjx-den {
display: inline-block;
}
mjx-den[align="right"], mjx-num[align="right"] {
text-align: right;
}
mjx-den[align="left"], mjx-num[align="left"] {
text-align: left;
}
mjx-nstrut {
display: inline-block;
height: .054em;
width: 0;
vertical-align: -.054em;
}
mjx-nstrut[type="d"] {
height: .217em;
vertical-align: -.217em;
}
mjx-dstrut {
display: inline-block;
height: .505em;
width: 0;
}
mjx-dstrut[type="d"] {
height: .726em;
}
mjx-line {
display: block;
box-sizing: border-box;
min-height: 1px;
height: .06em;
border-top: .06em solid;
margin: .06em -.1em;
overflow: hidden;
}
mjx-line[type="d"] {
margin: .18em -.1em;
}
mjx-c::before {
display: block;
width: 0;
}
.MJX-TEX {
font-family: MJXZERO, MJXTEX;
}
.TEX-B {
font-family: MJXZERO, MJXTEX-B;
}
.TEX-I {
font-family: MJXZERO, MJXTEX-I;
}
.TEX-MI {
font-family: MJXZERO, MJXTEX-MI;
}
.TEX-BI {
font-family: MJXZERO, MJXTEX-BI;
}
.TEX-S1 {
font-family: MJXZERO, MJXTEX-S1;
}
.TEX-S2 {
font-family: MJXZERO, MJXTEX-S2;
}
.TEX-S3 {
font-family: MJXZERO, MJXTEX-S3;
}
.TEX-S4 {
font-family: MJXZERO, MJXTEX-S4;
}
.TEX-A {
font-family: MJXZERO, MJXTEX-A;
}
.TEX-C {
font-family: MJXZERO, MJXTEX-C;
}
.TEX-CB {
font-family: MJXZERO, MJXTEX-CB;
}
.TEX-FR {
font-family: MJXZERO, MJXTEX-FR;
}
.TEX-FRB {
font-family: MJXZERO, MJXTEX-FRB;
}
.TEX-SS {
font-family: MJXZERO, MJXTEX-SS;
}
.TEX-SSB {
font-family: MJXZERO, MJXTEX-SSB;
}
.TEX-SSI {
font-family: MJXZERO, MJXTEX-SSI;
}
.TEX-SC {
font-family: MJXZERO, MJXTEX-SC;
}
.TEX-T {
font-family: MJXZERO, MJXTEX-T;
}
.TEX-V {
font-family: MJXZERO, MJXTEX-V;
}
.TEX-VB {
font-family: MJXZERO, MJXTEX-VB;
}
mjx-stretchy-v mjx-c, mjx-stretchy-h mjx-c {
font-family: MJXZERO, MJXTEX-S1, MJXTEX-S4, MJXTEX, MJXTEX-A ! important;
}
@font-face /* 0 */ {
font-family: MJXZERO;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Zero.woff") format("woff");
}
@font-face /* 1 */ {
font-family: MJXTEX;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Regular.woff") format("woff");
}
@font-face /* 2 */ {
font-family: MJXTEX-B;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Bold.woff") format("woff");
}
@font-face /* 3 */ {
font-family: MJXTEX-I;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Math-Italic.woff") format("woff");
}
@font-face /* 4 */ {
font-family: MJXTEX-MI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Italic.woff") format("woff");
}
@font-face /* 5 */ {
font-family: MJXTEX-BI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Math-BoldItalic.woff") format("woff");
}
@font-face /* 6 */ {
font-family: MJXTEX-S1;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size1-Regular.woff") format("woff");
}
@font-face /* 7 */ {
font-family: MJXTEX-S2;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size2-Regular.woff") format("woff");
}
@font-face /* 8 */ {
font-family: MJXTEX-S3;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size3-Regular.woff") format("woff");
}
@font-face /* 9 */ {
font-family: MJXTEX-S4;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size4-Regular.woff") format("woff");
}
@font-face /* 10 */ {
font-family: MJXTEX-A;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_AMS-Regular.woff") format("woff");
}
@font-face /* 11 */ {
font-family: MJXTEX-C;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Calligraphic-Regular.woff") format("woff");
}
@font-face /* 12 */ {
font-family: MJXTEX-CB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Calligraphic-Bold.woff") format("woff");
}
@font-face /* 13 */ {
font-family: MJXTEX-FR;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Fraktur-Regular.woff") format("woff");
}
@font-face /* 14 */ {
font-family: MJXTEX-FRB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Fraktur-Bold.woff") format("woff");
}
@font-face /* 15 */ {
font-family: MJXTEX-SS;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Regular.woff") format("woff");
}
@font-face /* 16 */ {
font-family: MJXTEX-SSB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Bold.woff") format("woff");
}
@font-face /* 17 */ {
font-family: MJXTEX-SSI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Italic.woff") format("woff");
}
@font-face /* 18 */ {
font-family: MJXTEX-SC;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Script-Regular.woff") format("woff");
}
@font-face /* 19 */ {
font-family: MJXTEX-T;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Typewriter-Regular.woff") format("woff");
}
@font-face /* 20 */ {
font-family: MJXTEX-V;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Vector-Regular.woff") format("woff");
}
@font-face /* 21 */ {
font-family: MJXTEX-VB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Vector-Bold.woff") format("woff");
}
mjx-c.mjx-c1D443.TEX-I::before {
padding: 0.683em 0.751em 0 0;
content: "P";
}
mjx-c.mjx-c28::before {
padding: 0.75em 0.389em 0.25em 0;
content: "(";
}
mjx-c.mjx-c70::before {
padding: 0.442em 0.556em 0.194em 0;
content: "p";
}
mjx-c.mjx-c61::before {
padding: 0.448em 0.5em 0.011em 0;
content: "a";
}
mjx-c.mjx-c73::before {
padding: 0.448em 0.394em 0.011em 0;
content: "s";
}
mjx-c.mjx-cA0::before {
padding: 0 0.25em 0 0;
content: "\A0";
}
mjx-c.mjx-c26::before {
padding: 0.716em 0.778em 0.022em 0;
content: "&";
}
mjx-c.mjx-c66::before {
padding: 0.705em 0.372em 0 0;
content: "f";
}
mjx-c.mjx-c6F::before {
padding: 0.448em 0.5em 0.01em 0;
content: "o";
}
mjx-c.mjx-c72::before {
padding: 0.442em 0.392em 0 0;
content: "r";
}
mjx-c.mjx-c64::before {
padding: 0.694em 0.556em 0.011em 0;
content: "d";
}
mjx-c.mjx-c29::before {
padding: 0.75em 0.389em 0.25em 0;
content: ")";
}
mjx-c.mjx-c3D::before {
padding: 0.583em 0.778em 0.082em 0;
content: "=";
}
mjx-c.mjx-c2223::before {
padding: 0.75em 0.278em 0.249em 0;
content: "\2223";
}
mjx-c.mjx-c22C5::before {
padding: 0.31em 0.278em 0 0;
content: "\22C5";
}
mjx-c.mjx-c48::before {
padding: 0.683em 0.75em 0 0;
content: "H";
}
mjx-c.mjx-c75::before {
padding: 0.442em 0.556em 0.011em 0;
content: "u";
}
mjx-c.mjx-c6C::before {
padding: 0.694em 0.278em 0 0;
content: "l";
}
mjx-c.mjx-c79::before {
padding: 0.431em 0.528em 0.204em 0;
content: "y";
}
mjx-c.mjx-c20::before {
padding: 0 0.25em 0 0;
content: " ";
}
mjx-c.mjx-c63::before {
padding: 0.448em 0.444em 0.011em 0;
content: "c";
}
mjx-c.mjx-c74::before {
padding: 0.615em 0.389em 0.01em 0;
content: "t";
}
mjx-c.mjx-c65::before {
padding: 0.448em 0.444em 0.011em 0;
content: "e";
}
mjx-c.mjx-c2D::before {
padding: 0.252em 0.333em 0 0;
content: "-";
}
mjx-c.mjx-c6B::before {
padding: 0.694em 0.528em 0 0;
content: "k";
}
mjx-c.mjx-c62::before {
padding: 0.694em 0.556em 0.011em 0;
content: "b";
}
mjx-c.mjx-c67::before {
padding: 0.453em 0.5em 0.206em 0;
content: "g";
}
mjx-c.mjx-c69::before {
padding: 0.669em 0.278em 0 0;
content: "i";
}
mjx-c.mjx-c6E::before {
padding: 0.442em 0.556em 0 0;
content: "n";
}
mjx-c.mjx-c35::before {
padding: 0.666em 0.5em 0.022em 0;
content: "5";
}
mjx-c.mjx-c30::before {
padding: 0.666em 0.5em 0.022em 0;
content: "0";
}
可負擔的 50% 時間跨度,是指 p(通過 & 可負擔) 大於或等於 50% 的最長任務長度。
圖 3:Claude 4 Opus 在四個成本閾值(人類成本的 1/32、1/16、1/8、1/4)下的因子分解模型。紅點表示失敗或超出成本的任務,綠點表示通過且可負擔的任務。每個面板將可負擔通過率(紅色)分解為通過機率(藍色)和通過後的可負擔性(綠色虛線)。垂直虛線標記了可負擔的 50% 時間跨度。更嚴格的成本約束僅適度縮短了跨度。*
在不同的最大成本比下,翻倍時間始終相似。
圖 4:2024 年後四個成本閾值下的可負擔 50% 時間跨度:無限制、1/4、1/8 和 1/32 人類成本。各閾值的翻倍時間介於 3.0 到 3.3 個月之間,且 R² 值均很高。更嚴格的成本約束過濾掉了一些模型,但並未顯著減緩趨勢。*
更嚴格的成本閾值過濾掉了一些模型,但已有足夠多的近期模型通過了最嚴格的閾值,使翻倍時間維持在 3 個月左右。
我的方法論局限性
對於上述分析,這些數據存在一些重要的弱點:
- AI 可能在任何給定長度下不成比例地在較便宜的任務上成功,這意味著我觀察到的成本比反映的是最便宜的子集,而非具代表性的工作量。我透過關注成本比的趨勢而非絕對水平,以及檢視更高可靠性閾值(此時選擇效應較弱)下的成本比,來盡量減少這種影響。^([7])
- 模型在這些基準測試中的主要目標是完成任務而非最小化成本。我的方法假設這些任務是以最低成本完成的,但某些任務可能本可以用更低的成本解決(例如,透過不同的提示詞)。因此,與針對成本優化的架構或提示相比,我可能顯著高估了某些任務的成本。
- METR 指出,架構差異使得模型間的成本比較變得困難。遺憾的是,我找不到固定架構的數據,因此沒有簡單的方法來修正這一點。然而,架構差異需要改變數倍的成本,才能對成本趨勢產生明顯影響。
- AI 可能因為過擬合而在基準任務上具有優勢,這可能會降低絕對成本。^([8]) 但這只有在過擬合不成比例地降低較長或較短時間跨度的成本時,才會影響我觀察到的趨勢,而我沒有理由預期會發生這種情況。
我認為這些因素可能會輕微影響我的結果,但不太可能改變整體趨勢。
推論擴展只會讓進步更快
如果企業願意提高成本比(提高到 1,甚至更高),他們可能會解鎖更強大的能力。在某些領域,AI 可能比人類勞動力更快或質量更高,因此額外的成本可能是值得的。
英國 AISI 顯示,較新的模型從額外的推論算力中獲得的收益更大。在某些領域(如 ARC-AGI),性能會隨著測試時算力的大幅增加而顯著提升,正如 o3 在不同成本閾值下的表現以及 Ryan 的結果所證明的。METR 顯示,額外的代幣預算可以改善模型的 50% 時間跨度(請注意,這是每項任務代幣的上限,因此與成本比不完全類同),儘管在 Claude Code 架構下這種提升相當有限。
隨著時間推移,隨著模型在使用測試時算力方面變得更強,我們應該預期額外推論算力帶來的收益會增長。AI 提供商已經開始以溢價提供增加的測試時算力,例如 GPT-5.4 pro 和 Claude 的擴展思考(extended thinking)。隨著企業自動化更多勞動力,他們可能會越來越多地選擇這些高級版本而非基礎模型。
目前尚不清楚透過增加測試時支出能帶來多少改進,但考慮到實現 METR 時間跨度所需的成本相對較低,大幅增加支出在經濟上可能是可行的。任何增益都將疊加在 METR 觀察到的趨勢之上。
結論
數據顯示,觀察到的 AI 代理能力提升並非來自成本比的上升。METR 的趨勢線預測了 AI 可以廉價完成的任務長度。
我認為企業將能夠負擔得起部署模型來完成其 50% 或 80% 時間跨度的任務。在這些跨度下,許多任務會失敗,但在約 3% 的成本比下,企業可以將每次嘗試的支出限制在遠低於人類成本的水平,重試已識別的失敗,且仍能獲利地實現自動化。而且,更推測性地說,如果企業能預測哪些任務會成功,他們就可以選擇性地自動化那些任務。
在某些領域,提高成本比可能會使 AI 代理的能力大幅增強,但這種可能性只會縮短達成任何能力里程碑的時間線,而非延長。第一批具備人類水平智能的 AI 成本可能高於人類勞動力,但廉價的人類水平 AI 應該緊隨其後。
附錄 A:為什麼我與 Ord 的結果不同
Toby Ord 分析了同樣的問題並得出了非常不同的結果。我認為這可以用他計算每小時成本的方式來解釋,這導致了嚴重的過高估計。在本附錄末尾,我也解釋了為什麼我的分析優於他的其他次要原因。
Ord 的結果來自他對這張由 METR 發布(附帶他的註釋)的圖表的分析。
圖 A1:不同模型所達成的時間跨度與所用代幣成本的比較。每個模型以恆定的代幣預算運行一次,並透過將所有未完成的運行計為失敗來計算每個成本閾值下的性能。o3 和 GPT-5 的成本是使用 OpenAI o1 的成本數據估算的。Toby Ord 在圖中添加了飽和點註釋,對角線表示持平的每小時成本。*
Ord 使用這張圖來尋找 AI 在其「飽和點」(即增加總預算不會顯著增加模型 50% 時間跨度的點)處的每小時成本。
我不認為 Ord 的方法計算了任何任務集的真實每小時 AI 成本。Ord 使用以下方法計算飽和點的每小時成本:
其中每項任務預算(per-task budget)是可以花在任何單一任務上的最大金額。
例如,我的數據顯示 GPT-5 在 1-2 小時任務上的中位成本為 1.29 美元,但 Ord 的方法需要 10 美元以上的預算才能達到該範圍的時間跨度。原因在於,飽和點處的 50% 時間跨度受到顯著長於該跨度本身的通過任務的影響(見圖 A2)。因此,每項任務預算必須足夠大,以支付達成飽和點所需的最昂貴任務,即使其每小時成本很低,其絕對成本也很高。將這個膨脹的預算除以較短的 50% 時間跨度,會產生膨脹的每小時成本。實際上,每小時成本是由通過一個 4 小時任務的價格除以一個 1.6 小時的跨度來決定的。
圖 A2:隨著成本上限上升,GPT-5 的跨度從約 30 秒增長到約 3.5 小時。下方圖表將此增長按反事實歸因進行分解:在每個成本階梯,我移除每個時長桶中新通過的運行,並重新擬合邏輯曲線以衡量其在 p50 偏移中的份額。早期增長(1 美元以下)由短任務(<4 分鐘,4-16 分鐘)驅動。在 10 美元以上,4-16 小時的任務(紫色)佔主導地位;正是極長任務上的昂貴成功,將跨度從約 2 小時推向約 3.5 小時的平台期。(我更新後的數據與圖 A1 中的時間跨度不同,但與 METR 更新後的時間跨度一致。)*
圖 A3:將每個模型所需的預算除以其時間跨度,得出隱含的每小時費率。Ord 的方法隱含各模型在其整體 50% 時間跨度下的費率為 5-59 美元/小時(紅色),但各模型跨度時長附近成功任務的實際加權平均和中位每小時成本要低得多(橙色、綠色)。相對於中位數,高估程度達 9-64 倍。誤差線顯示 90% 自助法(bootstrap)置信區間。為簡單起見,我忽略了飽和點,僅尋找達到模型無限制 50% 時間跨度之 95% 所需的成本。*
這導致對絕對成本的嚴重高估,可能達一個數量級或更多,且其噪聲極大(高估 9 倍到 64 倍不等),因此也很難得出關於趨勢的結論。^([9])
我認為還有其他較次要的原因使我的分析優於 Ord 的分析:
- 即使對於極長任務(遠超模型 50% 時間跨度)的成本比較高,企業也可以選擇不將模型用於這些任務。更相關的指標是模型在 50% 或 80% 時間跨度「處」的任務成本,我在圖 1 和附錄 B 中顯示這些成本很低。
- Ord 關於成本比呈上升趨勢的發現,很大程度上依賴於 o3 和 GPT-5 的每小時成本高於其他模型。但在圖 A1 中,這些模型的代幣成本是用 o1 的代幣成本估算的,而 o1 是一個特別昂貴的模型。
- Ord 的分析使用的模型比我的少且舊,因此可能較不能反映趨勢。
附錄 B:時間跨度處的額外成本圖表
50% 時間跨度
我證明了成本比與時間跨度的整體趨勢,並不十分依賴於我是否包含時間跨度遠超模型 50% 跨度的任務。
圖 B1:與圖 1 相同,但採用更窄的任務選擇帶(±0.05 個數量級)。趨勢保持不變。*
圖 B2:與圖 1 相同,但採用更寬的任務選擇帶(±0.2 個數量級)。趨勢保持不變。*
80% 時間跨度
圖 B3:與圖 1 相同,但在每個模型的 80% 時間跨度處測量。成本比仍低於人類成本且無上升趨勢,儘管 o1-preview 和 o1 在此閾值下明顯更貴。*
包含失敗案例
圖 B4:與圖 1 相同,但在成本計算中包含了失敗的嘗試。對於即使在失敗時也會消耗大量資源的推理模型(o1-preview, o1, o3),成本比中位數有所上移,而大多數其他模型基本保持不變。*
附錄 C:80% 可負擔時間跨度
圖 C1:與圖 3 相同,但在 80% 可靠性閾值下測量。不同成本閾值下的翻倍時間(2.8-3.1 個月)相似,儘管更嚴格的閾值過濾掉了更多模型,留下的數據點較少。
-
^(^)對於某些應用(例如物理危險或機密應用),即使 AI 比人類貴,也可能被用來取代人類。但我仍然認為 AI 勞動力昂貴會顯著減緩許多領域的採用。
-
^(^)對於 METR 的數據,我沒有大多數模型的確切推論成本,因此我根據每次運行的總代幣數量乘以該模型在 OpenRouter 上的每代幣輸入和輸出價格的簡單平均值來估算成本。請注意,OpenRouter 的價格可能與直接 API 價格不同(例如 Claude 3.5 Sonnet 在 OpenRouter 上為每百萬代幣 $6/$30,而在 Anthropic 的 API 上為 $3/$15)。由於數據僅記錄了總代幣數(沒有輸入/輸出明細),這假設輸入和輸出代幣比例大致相等。我針對 METR 記錄了確切成本的幾項任務測試了這一假設,發現它是一個合理的近似值。OpenRouter 上沒有某些模型的定價:對於 Claude 3 Opus,我使用了 Anthropic 的歷史 API 定價;對於 o1-preview 和 Claude 3.5 Sonnet (Old),我使用了其當前世代等效模型(分別為 o1 和 Claude 3.5 Sonnet (New))的定價。GPT-4 0314 和 o1-preview 的某些運行缺乏代幣計數,因此被排除在成本分析之外。
-
^(^)圖表的整體形狀對此參數並不十分敏感。我在附錄 B 中展示了這一點。
-
^(^)失敗的嘗試較難解讀,因為失敗並未告訴我們成功需要多少代幣,但即使包含失敗案例也沒有任何上升趨勢,這表明選擇效應並未掩蓋成本上升。
-
^(^)我排除了 1 分鐘 30 秒以下的任務,因為它們主要運行在不同的架構(swaa/generate)上,與用於較長任務的代理架構可比性較低。我在圖 3 和圖 4 中也這樣處理。
-
^(^)我嘗試了許多擬合方法,邏輯曲線在留出數據點(withheld datapoints)上的準確度最高。
-
^(^)為了避免選擇效應,人們可能會只比較所有模型都能成功完成的任務。但弱模型只能完成極短的任務,因此這只能告訴我們 5 分鐘任務的成本。相反,我感興趣的是每個模型能力前沿處的成本。
-
^(^)Ord 還使用類似的方法計算了模型最具成本效益的「甜蜜點」(sweet spots)。雖然影響可能較小,但我懷疑甜蜜點分析也存在類似問題,因為 Ord 的方法仍然會膨脹較短時間跨度下的成本。