Claude Opus 4.5 達成約 4 小時 49 分鐘的 50% 時間跨度

Lesswrong·4 個月前

METR 報告指出 Claude Opus 4.5 達到了約 4 小時 49 分鐘的 50% 時間跨度紀錄，但其 80% 時間跨度仍停留在 27 分鐘。這顯示模型處理長任務的能力有所提升，可能反映出進步主要源於基準性能的改善。

包含 Claude Opus 4.5 的更新版 METR 圖表已於 3 小時前由 METR 在 X 上發布（來源）：

相同的圖表，但未使用對數座標（來源）：

來自 METR 在 X 上的討論串（來源）：

我們估計，在我們的任務中，Claude Opus 4.5 的 50% 時間跨度（50%-time horizon）約為 4 小時 49 分鐘（95% 置信區間為 1 小時 49 分鐘至 20 小時 25 分鐘）。雖然我們仍在對其他近期模型進行評估，但這是我們迄今為止發布的最高時間跨度。

我們不認為置信區間的高上限反映了 Opus 的實際能力：我們目前的任務套件中沒有足夠的長任務來確信地界定 Opus 4.5 50% 時間跨度的上限。我們正在努力更新我們的任務套件，並希望很快能分享更多細節。

根據我們與 Opus 4.5 互動的經驗、該模型在特定任務（包括一些不在我們時間跨度套件中的任務）上的表現，以及其基準測試表現，如果進一步調查顯示 Opus 具有 20 小時以上的 50% 時間跨度，我們會感到驚訝。

儘管其 50% 時間跨度很高，但 Opus 4.5 的 80% 時間跨度僅為 27 分鐘，與過去的模型相似，且低於 GPT-5.1-Codex-Max 的 32 分鐘。其 50% 與 80% 時間跨度之間的差距反映了較平緩的邏輯斯諦成功曲線（logistic success curve），因為 Opus 在較長任務上的成功率有顯著差異。

您可以在此處找到關於我們目前方法論的更多細節，以及對 Opus 4.5 和其他模型的時間跨度估計：https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

自 GPT-5.1-Codex-Max 發布以來，80% 時間跨度基本上保持持平（27-32 分鐘），但在 50% 時間跨度上出現了巨大的跳躍，且帶有極大的誤差線。

我認為 Daniel Kokotajlo 最近的短評在此提供了一個有用的框架。他將進步建模為增加截距（基準性能）或斜率（模型將時間預算轉化為性能的能力）。如果進步主要來自截距的上升，那麼對時間跨度長度的指數擬合可能會無限期持續。但如果進步來自斜率的增加，當 AI 的斜率接近人類斜率時，交叉點最終會衝向無窮大。

80% 時間跨度持平而 50% 時間跨度攀升，可能是截距主導進步的證據。

— Lesswrong

你的個人知識庫

Claude Opus 4.5 達成約 4 小時 49 分鐘的 50% 時間跨度