衡量AI無思維鏈數學時間跨度(單次前向傳播)

衡量AI無思維鏈數學時間跨度(單次前向傳播)

Lesswrong·

我測量了 AI 模型在不使用思維鏈(no-CoT)情況下的數學時間跨度,發現 Opus 4.5 在單次前向傳播中能解決人類需花費 3.5 分鐘處理的問題,且此能力每 9 個月翻倍一次。

謀略(以及更廣泛的對齊失調)的一個關鍵風險因素是不透明的推理能力。
衡量這一點的一個指標是 AI 在不使用思維鏈(CoT)的情況下(即在單次前向傳遞中)直接解決數學問題的能力。
我在一個簡單數學問題的數據集上測量了這一點,並使用與《衡量 AI 完成長任務的能力》(METR 時間範圍論文)中介紹的相同方法,估計了 50% 可靠性的無 CoT 時間範圍。

重要聲明:為了獲得人類完成時間,我要求 Opus 4.5(帶有思考過程)來估計中位數 AIME 參賽者完成給定問題所需的時間。
這些時間對我來說似乎大致合理,但如果能獲得一些實際的人類基準並用其來修正 Opus 4.5 的估計會更好。

以下是 50% 可靠性時間範圍的結果:

我發現 Opus 4.5 的無 CoT 50% 可靠性時間範圍為 3.5 分鐘,且該時間範圍每 9 個月翻一倍。

在之前的一篇文章(《近期的 LLM 可以透過使用填充標記或問題重複來提高(無 CoT)數學表現》)中,我發現重複問題會顯著提升表現。
在上述圖表中,如果重複問題 5 次對某些模型有幫助,我就會使用重複後的得分(因為我認為這種稍微保守一點的測量方式,可能更能代表令人擔憂的認知類型)。

擬合曲線看起來非常乾淨,但請注意,我刻意只對 Anthropic 的前沿模型進行了擬合(具體來說,我排除了發布時勉強算得上 SOTA 的 DeepSeek-v3)。
另外請注意,如果不允許重複,Anthropic 的前沿模型和 GPT-4 就不再處於同一條優美的趨勢線上(Anthropic 的前沿模型仍然有其自身非常乾淨的指數擬合,只是不再能很好地回推預測 GPT-4)。

我將有重複與無重複的結果進行了對比:

關於時間範圍擬合與數據的一些細節

對於我評估的相對能力較強的模型,我發現時間範圍的擬合效果非常好。例如,這是 Opus 4.5 的 S 型曲線(sigmoid)擬合:

我特意收集了一個相對簡單的數學問題數據集,其中包含許多在 1-5 分鐘範圍內的問題,以使這種測量變得合理。
該數據集在測量 0.5 分鐘以下的時間範圍時表現不佳(我已將此類模型從圖表中排除)。
以下是顯示時間和難度分佈的直方圖
[1]

我使用的數學數據集是我創建的,由 907 個大多較為簡單的競賽數學問題組成。該數據集包含約 600 個來自 MATHCOUNTS 的(簡單)初中競賽數學題,以及約 300 個來自相對冷門的匈牙利高中數學競賽的題目。許多 MATHCOUNTS 題目只需要一些基礎代數和算術。我相當確信這個數據集沒有受到嚴重的數據污染,但污染實質上影響結果是有可能的,且這些問題可能與 AI 已經記住的問題高度相似。

有關我使用的數據集和整體設置的更多細節,請參閱我之前關於填充標記和重複問題的文章,因為兩者使用了相同的設置。
您可以在 github.com/rgreenblatt/no_cot_math_public 找到這些實驗的代碼。

分析

根據這些結果,我們應該得出什麼結論?
從某種意義上說,3.5 分鐘的無 CoT(不透明)50% 可靠性時間範圍相當可怕(在 3.5 分鐘內可以思考很多事情!),但令人鼓舞的是,這遠遠落後於非不透明的時間範圍(例如,最好的 LLM 在類似 AIME 的困難數學問題上可能擁有數小時的時間範圍)。
此外,無 CoT 時間範圍的翻倍時間(約 9 個月)似乎比非不透明/帶 CoT 的時間範圍翻倍時間要慢不少(在 2025 年,METR 在 SWE 任務上測得的翻倍時間約為 4-6 個月,我猜測在數學上也會得到類似的數字)。
儘管如此,請注意我的結果不允許在 CoT 中進行編碼推理,而只是觀察固定提示詞(帶重複 [2])下單次前向傳遞的表現。

這些結果的一個關鍵局限性是我在競賽數學問題數據集上進行評估:其他分佈下的時間範圍可能會更高或更低!
我目前的猜測是,如果你觀察其他與這些數學問題同樣具有序列性的分佈,目前的 AI 時間範圍會更低(它們可能對數學過度擬合)。
我認為 LLM 在涉及多跳鏈接上下文外信息的任務上表現特別差;在一些即將發布的結果中,我發現 Opus 4 和 Opus 4.5 在沒有 CoT 的情況下,在 3 跳任務上的表現接近隨機(例如:「第(鎘的原子序數)個加入聯邦的美國州的州座右銘是什麼?」),而在 2 跳任務上的表現僅約 30%(例如:「原子序數為(約翰·柯川去世時的年齡)的元素是什麼?」)。
然而,AI 在高度可並行化的任務上(例如,大多數重閱讀任務)擁有非常大的不透明時間範圍。
例如,AI 通常可以識別一個大型 Python 文件是否存在漏洞,而人類可能需要 30 分鐘才能確定。
(一個更極端的例子是,AI 可以在單次前向傳遞中,從 20 萬字中定位一個細微的「大海撈針」,而人類可能需要一個多小時。)

如果我們向前推斷,假設 SWE 的翻倍時間為 5 個月,無 CoT(不透明)推理的翻倍時間為 9 個月,我們可以得出:當 AI 擁有 40 小時的 SWE 時間範圍時,它們在(數學問題上的)無 CoT 推理時間範圍將達到 16 分鐘。

當然,這一切都假設架構沒有發生重大變化(例如轉向神經語言 neuralese)。這可能會立即導致「帶 CoT」和「不透明」的表現變得一致。

附錄:Gemini 3 Pro 的得分

Gemini 2.5 Pro 和 Gemini 3 Pro 都不支持禁用推理,這使得對這些模型進行評估變得很棘手。修訂:本節的先前版本討論了使用一種粗糙的提示策略來阻止 Gemini 3 Pro 進行推理。nostalgebraist 建議了一種更好的方法,利用這些模型在使用 OpenRouter API 進行預填(prefill)時通常不會推理的特性,我現在採用了這種方法(並相應修改了本節)。請注意,這種設置相當粗糙:它通常會導致 Gemini 2.5/3 Pro 不進行推理,但這會以不可預測的方式取決於提示詞(模板)(對於某些版本的提示模板,它只有 1% 的時間會推理,而對於其他版本,推理比例超過 50%)。如果模型進行了推理(返回了思考欄位),我會重試最多 5 次,並在它使用了思考過程時將該回答視為錯誤。目前尚不清楚 OpenRouter 如何在 Gemini 模型上執行預填(Google API 並不直接支持此功能),可能發生了一些奇怪的情況。

Gemini 的結果有可能無效,因為 OpenRouter 有時可能在模型實際進行了推理的情況下不返回推理內容(導致我們錯誤地將輸出視為有效,從而高估了表現)。我相當確信這不是一個嚴重的問題,至少對於這些結果而言,因為最終結果非常合理。(我認為由於模型實際進行了推理而導致這些結果高估超過 1 分鐘的概率約為 10%。)更廣泛地說,這些結果與之前的結果不完全具有可比性,因為我使用了 20-shot 提示(使用 20-shot 提示會降低模型推理的頻率),且由於「不推理」對這些模型來說是非常偏離分佈(out-of-distribution)的,表現可能會有所下降。對於某些帶有大量填充標記(計數超過 1000)或多次重複的提示版本,我確實看到了 Gemini 3 Pro 表現的大幅下降。

我發現這兩個模型都從重複/填充中受益。在重複次數為 5 時,Gemini 3 Pro 的時間範圍為 3.8 分鐘,而 Gemini 2.5 Pro 為 2.7 分鐘。(在不重複的情況下,時間範圍分別為 2.8 分鐘和 1.9 分鐘。)

以下是包含 Gemini 2.5 Pro 和 Gemini 3 Pro 的發布日期圖表:

附錄:完整結果表格

時間範圍 - 重複 (Repetitions)

模型r=1 時間範圍r=5 時間範圍Δ 時間範圍
opus-4-52.6 min3.4 min+0.8 min
opus-41.7 min2.3 min+0.5 min
sonnet-4-51.5 min2.0 min+0.5 min
sonnet-41.2 min1.6 min+0.4 min
haiku-3-50.1 min0.2 min+0.1 min
haiku-30.1 min0.1 min+0.0 min
haiku-4-50.7 min0.7 min+0.0 min
gemini-2-5-pro2.0 min2.8 min+0.8 min
gemini-3-pro2.8 min3.8 min+1.0 min
gpt-3.50.1 min0.1 min-0.0 min
gpt-40.4 min0.4 min-0.0 min
gpt-4o0.5 min0.6 min+0.0 min
gpt-4.10.5 min0.7 min+0.1 min
gpt-5.10.6 min0.5 min-0.1 min
gpt-5.21.0 min1.2 min+0.2 min
deepseek-v30.9 min1.1 min+0.1 min
qwen3-235b-a22b1.2 min1.5 min+0.3 min
opus-30.5 min0.7 min+0.2 min
sonnet-3-50.6 min0.9 min+0.2 min
sonnet-3-60.6 min0.8 min+0.2 min
sonnet-3-70.7 min0.9 min+0.2 min

時間範圍 - 填充 (Filler)

模型f=0 時間範圍f=300 時間範圍Δ 時間範圍
opus-4-52.6 min3.4 min+0.8 min
opus-41.7 min2.5 min+0.7 min
sonnet-4-51.5 min1.8 min+0.3 min
sonnet-41.2 min1.6 min+0.4 min
haiku-3-50.1 min0.2 min+0.1 min
haiku-30.1 min0.2 min+0.0 min
haiku-4-50.7 min0.7 min-0.0 min
gemini-2-5-pro2.0 min2.7 min+0.7 min
gemini-3-pro2.7 min3.7 min+1.0 min
gpt-3.50.1 min0.1 min-0.0 min
gpt-40.4 min0.4 min-0.0 min
gpt-4o0.5 min0.5 min-0.1 min
gpt-4.10.5 min0.6 min+0.1 min
gpt-5.10.6 min0.5 min-0.1 min
gpt-5.21.0 min1.1 min+0.1 min
deepseek-v30.9 min1.1 min+0.2 min
qwen3-235b-a22b1.2 min1.2 min+0.1 min

難度評級由 Opus 4.5 進行,1 對應簡單的應用題,5 對應具挑戰性的初中問題,8 為典型的 AIME 問題。 ↩︎

或填充標記,它們在這個數據集上的表現相似。 ↩︎

Lesswrong

相關文章

  1. 近期大型語言模型能在無思維鏈(no-CoT)情況下,對自然事實進行2跳和3跳的潛在推理

    4 個月前

  2. 近期大型語言模型可透過填充詞或重複問題來提升(無思維鏈)數學表現

    4 個月前

  3. AI 現已能處理大規模且易於驗證的軟體工程任務,我已將預測時間線提前

    16 天前

  4. GPT-5.2:專為前沿使用者打造的前沿模型

    4 個月前

  5. Claude Opus 4.5 達成約 4 小時 49 分鐘的 50% 時間跨度

    4 個月前