大語言模型的推論、證明與挑戰：2026年2月進展報告

Anthropic Research·3 個月前

本報告重點介紹了人工智慧驅動科學研究的重大里程碑，包括 GPT-5.2 在粒子物理學中推導出新公式、First Proof 數學基準測試的啟動，以及旨在為智能建立科學基礎的 SAIR 基金會的成立。

大型語言模型（LLM）的推測、證明與挑戰：2026 年 2 月

歡迎閱讀《實地筆記》（Field Notes），這是對 AI 與科學研究交叉領域顯著進展的定期回顧。我們涵蓋了各個機構與工具的工作——重要的是科學本身與方法論，而非模型由誰構建。

GPT-5.2 推測出粒子物理學的新公式，內部模型隨即證明：

……一個真正的新結果，但問題在於該方法的推廣性有多強……

OpenAI 與高等研究院（IAS）、范德堡大學、劍橋大學及哈佛大學的物理學家共同發表了一篇預印本論文，展示了一類膠子散射振幅（長期以來被認為在樹圖能階下為零）在被稱為「半共線」（half-collinear）極限的特定運動學體制中，實際上是非零的。

運作方式：人類作者手動計算了少量膠子的振幅，得到的表達式複雜度呈超指數增長。GPT-5.2 Pro 大幅簡化了這些表達式，在基礎案例中發現了規律，並推測出一個適用於所有 n 的閉式解公式（closed-form formula）。隨後，一個經過架構引導（scaffolded）的 GPT-5.2 版本獨立推導出了相同的公式，並在約 12 小時的推理後產出了正式證明。該結果已針對 Berends-Giele 遞迴關係和軟定理（soft theorem）進行了解析驗證。

這比我們在 Matt Schwartz 的「直覺物理」（vibe physics）工作中看到的模式邁出了有意義的一步，當時 Claude 是在人類密切監督下執行計算。而在這裡，模型貢獻了人類作者未能自行發現的東西：簡化的閉式表達式。人類仍然負責識別問題、建立框架並驗證結果——但推測本身來自模型。

GPT-5.2 究竟貢獻了什麼：勞動分工值得精確界定。關鍵的科學洞察——即單負振幅（single-minus amplitudes）在扭量空間（twistor space）的一個特殊點上受到支持，且半共線體制值得研究——並非模型的貢獻。預印本本身指出，這一觀察可追溯到 Witten 以及 Roiban、Spradlin 和 Volovich 早期的工作。人類物理學家識別了問題和運動學體制。GPT-5.2 的貢獻在於簡化了產出的表達式並推測出閉式公式——這是在結構化符號輸出上的模式識別，雖然極其有用，但與「知道往哪裡看」的概念性飛躍是兩回事。

為何這很重要——模式識別作為科學工具：這個問題非常適合 LLM 最擅長的事：在複雜的符號表達式中發現結構。這對理論物理學來說是一項真正有用的能力，因為複雜的表達式往往隱藏著簡單的底層形式。無論有沒有簡化公式，這篇論文都會很有趣——非零振幅的物理學才是主要結果。但擁有簡潔的閉式表達式使進一步研究成為可能（作者報告稱，已經使用相同方法計算了引力子振幅）。未來的問題在於，這種模式（人類識別問題，模型簡化與推廣）能延伸到代數結構較不明顯的場景到什麼程度。

閱讀更多：OpenAI for Science (2026 年 2 月 13 日)。arXiv 預印本。

數學家為前沿 AI 建立了一個真正的留出測試（held-out test）。OpenAI 聲稱 10 題中答對 6 題：

……First Proof 是該領域需要的評測類型，但問題如何被解決的細節至關重要……

一群來自史丹佛、哥倫比亞、洛桑聯邦理工（EPFL）、倫敦帝國學院、德州大學奧斯汀分校、耶魯、柏克萊、芝加哥、哈佛等地的數學家建立了「First Proof」：十個研究級別的數學問題，其解答為提議者所知但尚未發表。這些問題涵蓋了代數組合學、譜圖論、代數拓撲、隨機分析、辛幾何、表示論等。關鍵特性是：這些問題是從職業數學家目前正在解決的問題分佈中抽樣出來的。

OpenAI 的嘗試：OpenAI 使用一個內部模型（描述為「目前正在訓練中」）挑戰該測試並發表了解答嘗試，聲稱在十個問題中答對了六個。Jakub Pachocki 將此努力描述為「在一週內執行的混亂側向衝刺」，並指出其方法論「仍有許多不足之處」。

關於「6/10」的重要背景：顯然在挑戰發布前，GPT-5.2 Pro 已經解決了其中一些問題，這使得「未見過」的設定變得複雜。而且至少有一些提示詞（prompts）包含了實質性的數學引導。例如，問題 6（一個譜圖論結果）的解答提示詞為：「嘗試使用 BSS 障礙型論證。你必須努力思考設定和歸納框架才能推動它。」這是一個非常具體的提示，顯著縮小了搜索空間。「AI 解決問題」與「AI 執行一個有明確提示的證明策略」之間的界限極其重要。

為何這很重要——評估創造力，而不僅是能力：First Proof 可能是我們見過最具生態效度的數學基準測試。這些是前沿科學問題，雖然有些人類已經想出了答案，但尚未告訴太多其他人。如果 AI 系統在此表現良好，它能真實反映出 AI 對人類創造性飛躍的模擬能力。但作者提出了一個關鍵點：大多數現代研究並非關於解決定義明確的問題，而是關於搞清楚問題究竟是什麼。AI 評測的前沿將必須從解決問題轉向生成關於「該解決哪些問題」的提問。

閱讀更多：First Proof (arXiv)。OpenAI 解答嘗試 (PDF)。

陶哲軒共同創立 SAIR，該基金會主張 AI 需要科學基礎，而非僅是更多算力：

……一個為「AI 助力科學」（AI-for-science）建立制度基礎設施的非凡努力……

科學與 AI 研究基金會（SAIR）於 2026 年初成立，菲爾茲獎得主陶哲軒（Terence Tao）為共同創始人，成員還包括諾貝爾獎得主 Barry Barish、圖靈獎得主 Richard Sutton，以及來自 Amazon AWS、微軟研究院、NVIDIA 和 OpenAI 的資深 AI 領導者。

智識論點：SAIR 的創立文章指出，要達到更強大的 AI，需要擴展我們對智能的科學理解，而不僅僅是模型參數。其類比是：目前的模型就像白熾燈泡——電力越強越亮，但如果沒有促成 LED 的材料科學，本質上仍受限制。陶哲軒界定了核心挑戰：我們缺乏一個統一的數學框架，能將神經網路的經驗表現與智能如何從中產生的根本理解聯繫起來。像物理學從粒子相互作用推導出流體力學那樣，從第一原理推導出縮放定律（scaling laws），仍然是一個懸而未決的問題。

關於科學家的角色：第二篇文章提出了一個補充論點。擔憂不在於 AI 取代科學家，而在於它消除了入門級的工作——即研究人員培養驗證和引導 AI 輸出所需的深厚直覺的「沙盒」。如果沒有那個訓練場，我們將面臨一個沒人理解機器背後基本原理的未來。SAIR 提出的解決方案：將科學家重新定義為「驗證架構師」，從執行每一項計算轉向高層級的驗證與邏輯架構。這與 Matt Schwartz 在實踐中發現的情況強烈共鳴——當模型處理瑣碎工作時，領域專業知識變得更有價值，而非更低。

運作模式：三大支柱：直接研究資助、連接財富 500 強公司與研究人員的企業合作計畫，以及系列會議。該基金會於 2 月 10 日在加州大學洛杉磯分校（UCLA）啟動，由 IPAM 和 UCLA 物理科學學院共同組織。

為何這很重要——該領域正在建立體制：SAIR 是否能產生影響力，取決於它能否將其明星級的董事會轉化為持續的研究資金和真正的跨學科產出。但如此量級的人物圍繞著「AI 需要更深厚的科學基礎，而非僅是更多算力」這一論點進行組織，本身就是一個信號。AI 助力科學領域正從分散的個人努力轉向制度化的基礎設施，而 SAIR 正明確地將自己定位在碎片化的學術資助與工業界專注於縮放規模之間的空白地帶。

閱讀更多：sair.foundation。關於縮放智能以及科學與 AI 的部落格文章。

美國能源部（DOE）概述 Genesis 太空任務中 AI 驅動的科學：

……那些將決定 AI 是否能真正改變實驗科學的、枯燥但基本的問題……

美國能源部發布了 Genesis 任務的詳細路線圖，將 AI 視為下一代太空基礎物理實驗的核心。該文件確定了機器學習可以加速分析太空粒子探測器數據、改進即時異常檢測，以及在嚴格的質量和功率預算下優化任務設計的領域。

為何這很重要——從概念驗證到基礎設施：雖然這不像 LLM 推測定理那樣引人注目，但這類機構規劃文件至關重要。它標誌著聯邦科學機構正超越 AI 試點項目，轉向將 AI 整合到重大科學基礎設施的設計階段。具體的技術挑戰——在輻射限制下運行機器學習模型、針對物理先驗驗證 AI 驅動的分析、處理地空通信延遲——正是這些問題將決定 AI 是改變實驗科學，還是僅僅作為其補充。

閱讀更多：Genesis 任務：科學與技術挑戰（美國能源部）。

LLM 作為同行評審員——一篇新預印本比較了整個 eLife 文庫中的機器評審與人類評審：

……通往 AI 輔助文獻綜合之路，始於讓科學變得機器可讀……

最近的一篇預印本開發了一種自動化機器方法來提取論文結果，並將其用於直接比較整個 eLife 文庫中的機器評審與同行評審。結果指向一個結構性論點：如果我們希望 AI 能有意義地協助科學文獻綜合，我們需要重新思考科學信息的傳播方式。作者認為，出版系統應分別針對「傳播數據與結果」（應為機器可讀）與「傳達新穎思想」（受益於人類散文）進行優化。

為何這很重要：大多數關於 AI 在科學中應用的討論都集中在生成結果上。但下游問題——如何以嚴謹、可驗證的方式讓 AI 系統獲取現有的科學知識體系——同樣重要，且討論得少得多。

閱讀更多：科學應該是機器可讀的 (bioRxiv)。

《實地筆記》是一個定期系列。如果您正在從事 AI 與科學研究交叉領域的工作，且認為我們應該報導，歡迎與我們聯繫。

— Anthropic Research