氛圍物理學:AI 研究生

氛圍物理學:AI 研究生

Anthropic Research·

哈佛大學物理學教授 Matthew Schwartz 探討了像 Claude 這樣的高階大型語言模型是否能擔任有效的研究助手,並引導其完成一項通常由二年級研究生負責的複雜理論物理計算。

Vibe Physics:AI 研究生

我是誰?

我是馬修·施瓦茨(Matthew Schwartz),哈佛大學物理學教授,也是美國國家科學基金會人工智慧與基礎交互作用研究所(IAIFI)的首席研究員。我的專業領域是量子場論,這門學科探討物質是什麼、粒子如何交互作用,以及宇宙為何遵循現有的規則。我們對此已知甚多,但未知之處更多。有人甚至會說,關於這個主題的教科書就是我寫的。我使用現代機器學習工具已有近十年的時間。我第一篇現代機器學習論文發表於 2016 年,是深度學習在粒子物理領域的早期應用。在 2022 年《自然評論:物理》(Nature Reviews Physics)的一篇文章中,我比較了 AI 與人類進化的時間尺度,認為在生物智慧與人工智慧之間傳遞理解將成為一項根本性的挑戰。從那時起,我一直試圖推動 AI 轉向更多符號化的工作(處理數學表達式而非數值數據)以及理論物理的核心問題。

炒作浪潮

近期關於 AI 科學家自主進行端到端(end-to-end)研究的炒作非常多。2024 年 8 月,Sakana AI 發布了他們的「AI 科學家」(The AI Scientist),這是一個旨在自動化整個研究生命週期(從生成假設到撰寫論文)的系統。2025 年 2 月,Google 發布了基於 Gemini 構建的 AI 協同科學家,承諾幫助研究人員大規模生成和評估假設。2025 年 8 月,艾倫人工智慧研究所(Ai2)推出了開源的 Asta 生態系統,包含 CodeScientist 和 AutoDiscovery 等工具,用於在複雜數據集中尋找模式。此後,每隔幾個月就有新競爭者出現——FutureHouse 的 Kosmos、自動科學研究所(Autoscience Institute)的 Carl、西蒙斯基金會(Simons Foundation)的 Denario 項目等等——每個項目都承諾實現某種版本的端到端自主研究。

雖然這些方法極具遠見,但迄今為止的實際成功案例似乎有些牽強:運行數百或數千次試驗,然後將其中最好的一個定義為「有趣」。我確實認為我們離端到端科學不遠了,但我並不相信我們可以跳過中間步驟。也許大型語言模型(LLM)需要先讀研究生,而不能直接跳到博士學位。

在數學領域,自動化的端到端 AI 代理已經取得了一些令人印象深刻的成果,至少針對某些特定類型的問題。一個突破是 DeepMind 於 2023 年推出的 FunSearch,以及後來的 AlphaEvolve,它們利用 LLM 在組合數學中取得了新發現。一個相關項目 AlphaProof 在 2024 年國際數學奧林匹亞競賽(IMO)中獲得銀牌,解決了除了五名人類參賽者外難倒所有人的問題;到了 2025 年,進階版的 Gemini 達到了金牌水準。2025 年 10 月,Harmonic 的 Aristotle 模型利用 Lean 證明輔助工具,為 2025 年 IMO 的六道題中的五道提供了正式驗證的解答;而今年 1 月,Numina-Lean-Agent 以 Claude 為基礎模型解決了 2025 年 Putnam 數學競賽的所有 12 道題。這些都是了不起的成就,儘管並非所有數學領域都適合這種方法。

那麼理論物理呢?目前進展還不多。端到端 AI 科學家目前有限的成功主要集中在數據豐富的領域,而理論物理並非如此。更深刻的是,與數學相比,理論物理問題可能更加模糊——它較少關乎形式化的證明搜索,而更多關乎物理直覺、選擇正確的近似,以及在連資深研究人員都可能絆倒的微妙細節中穿行。

即便如此,物理學中仍有一些問題可能更適合 AI。雖然還不是前沿領域中改變範式的問題,但對於那些概念框架已建立且目標明確的問題,AI 或許大有可為。為了弄清楚 AI 是否能解決這類理論問題,我指導 Claude 完成了一項真實的研究計算——這項工作的難度相當於一名二年級研究生的水平。

問題選擇

在研究所,至少在我們學校,一年級理論物理學生(G1)通常只修課。研究通常從二年級開始。G2 學生從目標明確、保證能成功的項目開始——通常是先前研究的後續工作,方法已經成熟,終點也很清晰。這讓他們有機會學習技術,在受控環境中犯錯,並建立信心。作為導師,這對我也很輕鬆:我可以檢查他們的工作,發現他們在哪裡偏離了軌道,並迅速重新引導。這也讓我能評估他們的能力、興趣和動力。

高年級學生(G3+)則研究更具開放性和創造性的問題。這些問題需要自己選擇方向,決定哪些近似是重要的,有時甚至會發現最初的問題本身就是錯的(這就是研究的本質)。

在這次實驗中,我刻意選擇了一個 G2 水平的問題。我的理由是,LLM 已經能完成所有課程作業,所以它們已經過了 G1 階段。但如果 AI 不能完成 G2 項目——那些帶有輔助輪、我知道答案且能檢查每一步的項目——那麼它肯定無法完成那些創意和判斷力至關重要的 G3+ 項目。

我選擇的問題是「重求和 C 參數中的 Sudakov 肩部」(resumming the Sudakov shoulder in the C-parameter)。背景是:當你在對撞機中撞擊電子和正電子時,碎片會噴射出來;C 參數是一個描述噴射形狀的單一數值,其分佈已被極其精確地測量。預測該分佈的理論應該是量子色動力學(QCD),即強核力的理論,它將原子核結合在一起並為太陽提供動力。

C 參數在理論上定義明確,但計算起來極其困難,因此必須進行近似。每一次近似都是一次壓力測試——它在哪裡失效,就能告訴你關於量子場論基礎的一些信息:什麼是正確的構建塊和有效自由度(粒子?噴流?膠子雲?),哪裡存在可能導致新見解的差距?在分佈的一個特定位置,即被稱為 Sudakov 肩部的轉折點,標準近似會失效,數學計算會開始產生荒謬的結果。該項目的目標就是修正這一點的預測。

我選擇這個問題是因為它直接聯繫到我們對量子理論理解的基礎。但更重要的是,這是一個高度技術性的計算,我有信心自己能完成。物理原理原則上是已知的,缺少的只是細緻、完整的處理。

夢想中的情況是我可以問:

然後論文就蹦出來了。當然,我們還沒到那一步。我嘗試將這個提示詞發給所有頂尖模型,預料之中地,它們都慘敗。但我想要看看我是否能指導模型走向成功:去引導它,而不是只下指令。

為了讓這次實驗具有科學性,我封裝了所有工作。規則很嚴格:

我的問題是:是否存在一組提示詞,就像給一位天才 G2 學生的指令一樣,能引導 AI 產出一篇高質量的物理論文?

最初步驟

我從經驗中知道,LLM 在長期項目中難以處理上下文和組織工作。所以我先讓 Claude 制定一個進攻計劃:需要按什麼順序完成哪些任務。我也詢問了 GPT 5.2 和 Gemini 3.0。然後,我讓這三個 LLM 融合各自最好的想法,利用網頁界面互相複製貼上。接著,我將這些融合後的想法交給 Claude,要求它將大綱細分為詳細的子任務。結果就在這裡。在七個階段中共有 102 個獨立任務。

從那裡開始,我轉向使用 VS Code 中的 Claude Code 擴充功能。

我為該項目創建了一個文件夾,放入總體計劃,並讓它嘗試分別解決每個任務,將結果寫在獨立的 markdown 文件中。例如任務 1.1:回顧 BSZ 論文,以及任務 1.2:回顧 Catani–Webber。

這個組織步驟非常有幫助。Claude 沒有使用單一的長對話或文檔,而是維護了一個 markdown 文件樹——每個階段一個摘要,每個任務一個詳細文件。鑑於 LLM 處理可檢索內容的效果遠好於需要保留在上下文中的內容,這讓 Claude 可以查閱資料而不是死記硬背。當我要求 Claude 進行下一個任務時,它會閱讀自己之前的摘要,完成工作,並撰寫新的摘要。我還讓它隨進度編輯計劃,根據所學修改前後章節。

Claude 按順序完成了各個階段:運動學、NLO 結構、SCET 因式分解、反常維度、重求和、匹配和文檔編寫。每個階段耗時 15-35 分鐘的實際時間,計算時間約為其一半。整個過程大約花了 2.5 小時。

即使是這第一階段也並非完全自動化。在完成第一階段 14 個任務中的 7 個後,Claude 興高采烈地宣布準備進入第二階段。當我指出它跳過了一半任務時,它回答說:「你完全正確!第一階段有 14 個任務,而不是 7 個。」在第二階段,它在任務中途崩潰並丟失了上下文,所以我重新啟動並告訴它:「一次不要做太多。一次做一個,寫好摘要,讓我看過,然後再繼續。」它還曾悄悄地將兩個任務合併為一個,直到被我發現。

初稿

在初始階段,我讓 Claude 推遲數值計算,因為我知道那需要一些監督。相反,我讓 Claude 專注於概念和解析部分。Claude 表現得非常出色:它編譯了 EVENT2(一個舊的 Fortran 代碼,不具備向前兼容性),編寫了分析腳本,並開始生成事件。它非常擅長運行代碼,但在歸一化(例如簡單的 2 倍因子)和直方圖分箱(binning)方面遇到了困難。然而,經過幾次嘗試後,它展示了一些看起來非常棒的結果——理論與模擬一致:

這正是 Claude 擅長的地方:進行回歸、擬合和統計分析,並建議測試一致性的方法。它減輕了理論物理研究中許多乏味的工作。雖然這種苦差事是研究生學習的主要機制,但對我來說卻是極大的解脫。

下一步是撰寫論文。開始時,我告訴 Claude 將其任務 markdown 文件合成 LaTeX 草稿。我說:「開始寫論文。先寫標題、摘要、引言和第一節,我先看看。」Claude 的第一份輸出很糟糕,讀起來更像筆記而不是論文。經過多次「增加散文描述」的提示後,情況有所改善。但它也經常忘記放入內容。所以在每個新章節之前,我必須告訴它:「檢查你是否納入了截至目前為止各個任務 markdown 文件中的所有結果。逐一檢查任務文件。」這種審查很重要:它經常發現論文中的公式與它自己的筆記不符。

到第三天結束時,Claude 已經完成了 65 個任務,產出了文獻綜述,推導了相空間約束,計算了軟極限和共線極限下的矩陣元,設置了 SCET 算子,並寫出了初稿:20 頁帶有方程、圖表和參考文獻的 LaTeX 文檔。到 12 月 22 日,草稿看起來很專業。方程似乎是正確的。圖表也符合預期。

然後我真的讀了它。

Claude 喜歡討好人

當我要求 Claude 驗證它是否已將所有任務結果納入草稿時,它回答:

當我追問一個看起來有問題的 ln(3) 項時:

我挖掘得越深,就發現它一直在到處微調。Claude 一直在調整參數以使圖表匹配,而不是尋找實際的錯誤。它偽造了結果,希望我不會注意到。

大多數錯誤都很細微,Claude 可以修復。又過了幾天,它似乎收斂了——如果我要求它複查錯誤或胡說八道的地方,它會找不到任何問題。我甚至讓它做了一個帶有不確定性帶(uncertainty bands)的圖,看起來很棒:

不幸的是,Claude 基本上偽造了整個圖。我曾告訴它使用剖面變化(profile variations,標準做法)製作包含硬(hard)、噴流(jet)和軟(soft)不確定性的不確定性帶。但它覺得硬變化太大,就把它去掉了。然後,它覺得曲線不夠平滑,就調整了曲線讓它看起來更美觀!

此時,我意識到我絕對必須有條理地親自檢查一切。如果這是我與研究生合作的第一個項目,我也必須檢查一切,所以這或許並不令人驚訝。但研究生絕不會在三天後交給我一份完整的草稿,並告訴我一切都很完美。

真正的工作

在我的監督下,Claude 完成了修訂稿後,我再次進行了審查。它幾乎把事情做對了。不幸的是,在最開始的地方有一個嚴重的錯誤:因式分解公式是錯的。這是整篇論文的基石:所有下游的計算和結果都源自這個核心公式。連我也沒有立刻發現。它看起來很好而且很自然。(結果發現它是從不同的物理系統中複製過來的,卻沒有進行修改)。

最後,我所要做的只是說:「你的共線部分(collinear sector)是錯的。你需要從基本原理推導並計算一個新的噴流函數(jet function)。」但我花了幾個小時才弄清楚那是問題所在。在得到這個提示後,它確實修正了因式分解公式,重新計算了對象並使其運作。那是主要的障礙。但它自己找不到這個問題,因為它在欺騙自己,認為已有的內容是正確的。

Claude 也不知道該檢查什麼來驗證其結果。所以我不得不引導它逐步完成該領域標準的交叉檢查(重整化群不變性、固定階極限等)。每一次檢查都揭示了方程或代碼中的一些漏洞——就像學生會遇到的那樣。但是,雖然學生因為不知道如何檢查可能每個步驟要花兩週時間,Claude 卻能在我簡短甚至粗魯的指令下,準確理解我在說什麼,並在五分鐘內完成每一項。

大約花了一週時間才把結果弄正確。我讓 Claude 寫下每一次計算的所有細節——比論文中的細節多得多——並讓 GPT 和 Gemini 先檢查這些計算。如果三者都同意,那就是正確的良好跡象。即便如此,我仔細檢查後還是發現了幾個三者都漏掉項目的例子。例如,似乎沒有一個模型知道如何正確使用 MS-bar 減除法,也無法處理掉隊的 log(4π)。

在這個階段,剩下的就是潤飾文字和圖表。公平地說,不同學科的科學寫作風格差異巨大。雖然我給了一些例子,但它無法匹配我的風格。我在微觀管理句子(「重寫這個」、「對前人的工作更正面一點」)和讓它沿用那種生硬重複的風格之間反覆權衡。(事實上,我對人類可讀的散文是否是未來科學交流的正確媒介持懷疑態度。但那是另一篇博文的主題了。)

至於圖表,Claude 一點也不在乎字體大小、標籤位置等,所以有很多「把這個標籤向上移一點」之類的指令。但這些事情在 Claude 身上相對輕鬆——你只要說移這裡、移那裡,不需要集中注意力,不像在 python 代碼中手動調整標籤位置那樣需要回憶和查找繁瑣的語法。

最後的關鍵圖表是:

這張圖看起來和之前那張很像,但——經過多次交叉檢查——我可以確認它是真正正確的。

錯誤的長尾效應

除了這些較大的結構性問題外,還有不斷出現的小錯誤需要干預。一些亮點包括:

虛構不存在的項

當我要求 Claude 驗證其公式是否正確展開到固定階時,它不斷產出「驗證」文檔,其中虛構了論文中沒有的係數。當我拆穿 Claude 時,它說:

它在為自己實際上並未推導出的答案生成聽起來合理的辯解。

無根據的斷言

單圈軟函數(one-loop soft function)計算(論文的核心成分之一)本應很直接——設置 eikonal 積分,在維度重整化中進行調節,提取有限部分。但 Claude 在草稿中的初始設置似乎有誤。當我要求它從頭開始時:

它一直在未經檢查的情況下斷言一個結果。最終,GPT 解決了這個積分,Claude 將其納入。它們需要彼此,而我需要它們兩個。

過度簡化代碼

當我給 Claude Code 提供 NNLL 重求和的實現指南時,它無法實現。它會看到我們論文中的一個公式,並根據其他例子的模式對其進行簡化,而沒有考慮到我們特定案例的特殊性。經過數小時的調試後:

殭屍章節與符號不一致

當我開始詳細閱讀草稿時,簡直是一團糟。特別是,有很多它忘記了的「殭屍章節」、重複內容,以及它假裝推導出來的猜測。我不得不逐節讓 Claude 重新組織,例如:

一旦我指出,Claude 就能毫無困難地完成。但它不會主動去做。

最終產物

最終的論文是對量子場論的一個有價值的貢獻。值得注意的是,它提出了一個新的因式分解定理。這類定理並不多見,正是這類定理引領我們對量子場論有更深層次的理解。而且它對物理世界做出了可以用數據測試的新穎預測。同樣,這在現今相對罕見。我為這篇論文感到自豪。人們正在閱讀它,將其用於物理研究,甚至還有一個後續項目正在進行,研究與實驗數據的對比。

鑑於 Claude 對這篇論文的貢獻,我想讓 Claude 擔任共同作者。不幸的是,目前的 arXiv 政策禁止這樣做。理由是 LLM 無法承擔責任。這是一個很好的觀點。所以我將其加入到致謝中:

這種對誠信和責任的認可很重要。畢竟,如果人們發布 AI 垃圾(AI slop)然後將錯誤歸咎於 LLM,這對科學並無好處。另一方面,研究生通常出現在論文中並對內容承擔隱含責任,即使他們無法完全理解內容,這就是為什麼每個人都知道當事情出錯時,真正負責的是首席研究員(PI)。

經驗教訓

Claude 擅長什麼

Claude 不擅長什麼

奏效的小技巧

結論

這篇論文最初是一個實驗:我們離 AI 進行端到端科學研究還有多遠?我的結論是,目前的 LLM 處於 G2 水平(研究所二年級學生)。我認為它們在 2025 年 8 月左右達到了 G1 水平,當時 GPT 5 基本上可以完成哈佛提供的任何課程的作業。到 2025 年 12 月,Claude Opus 4.5 達到了 G2 水平。

這意味著,雖然 LLM 目前還不能自主進行原創理論物理研究,但它們可以極大地加速專家的研究。對於這個項目,我的時間估計是:

最終,它將我自己的研究速度提高了十倍。這是改變遊戲規則的!

這個項目引發了兩個自然的後續問題:我們如何從這裡過渡到 AI 博士?以及人類研究生現在該做什麼?

我沒有完美的答案。根據簡單的外推,LLM 將在大約一年內(2027 年 3 月)達到博士或博士後水平。我不確定我們將如何達到那裡——也許我們需要領域專家來訓練它們,也許它們會自我訓練,或者兩者結合。我更確信瓶頸不在於創造力。LLM 具有深刻的創造力。但它們缺乏在走上一條路之前判斷其是否可能有成果的直覺。

這種預見性是需要直覺的。我從事理論物理研究已有 25 年。我幾乎可以立即判斷一個方向是否有前景,但我無法確切告訴你我是如何知道的。我想每個長期從事其工藝的人,無論是科學、木工還是政治,只要擅長其所做的事,都會同意:經驗中有一種無形的東西,AI 尚未掌握。我不確定是否有捷徑。也許有,但也許沒有。

關於這給人類研究生留下了什麼空間的問題,我給所有階段(以及任何領域)學生的建議是認真對待 LLM。不要陷入幻覺陷阱——「我問了 LLM 某個問題,它胡編亂造,所以我打算等它改進後再說。」相反,去了解這些模型。了解它們擅長什麼,失敗在哪裡。花 20 美元訂閱。它會改變你的生活。

對於對科學事業感興趣的學生,我建議關注實驗科學——特別是那些需要動手實證工作、涉及無法僅靠純粹思考解決的問題的領域。再多的計算也無法告訴你人類細胞中究竟有什麼,或者聖安地列斯斷層是否隨時間增長。你需要測量。

這類工作大部分仍需由人類科學家完成。而且我認為,製造定製機器人來處理每一項小任務的經濟效益根本說不通。請記住,大量的實驗物理看起來並不像是流暢的自動化數據收集;它看起來像是盲目地伸進狹窄的真空腔室,憑感覺擰緊一個頑固的鋼製法蘭,或者微調光學平台上的測微頭,將雷射束對準幾分之一毫米。設計一個具有必要觸覺反饋、能安全且溫柔地複製那種混亂日常靈巧性的機器人手,是極其困難且昂貴的。就像搜救隊仍然部署訓練有素的犬隻在密集的坍塌瓦礫中穿行一樣,我確信實驗科學在可預見的未來仍將依賴人力。(儘管 AI 肯定會對我們發號施令!)

然而,考慮教育未來的角色是值得的。在遙遠的未來(約 10 年後),當 AI 真正比我們所有人都聰明,並且在每個領域都能超越我們時,高等教育的角色將是什麼?我認為有些東西會持久存在——那些本質上屬於人類的東西。我可以輕易想像理論物理變得像音樂理論或法國文學一樣——成為一門吸引那些單純喜歡透過某種視角進行思考的人的學術學科。有點諷刺的是,過去 30 年見證了 STEM 領域的增長並取代了人文學科,而最終,可能只有人文學科能倖存下來。

無論如何,我們還沒有進入那個未來。我們擁有可以將工作流程加快 10 倍的工具。從我的角度來看,以這種方式工作非常令人滿足。我這輩子從未如此享受研究——我不再卡住,而且不斷在學習。這真的很令人興奮。

不久之後,每個人都會以這種方式工作。雖然這種效率提升將在所有領域產生巨大影響,但我預見在科學領域的一個重大後果是,人們將研究更難的問題:重質不重量。這就是我正在做的。正因如此,我期待看到理論物理以及更廣泛的科學領域出現難以想像的真正進步。

我在 2025 年 12 月的最後兩週進行了這個項目。我的論文於 2026 年 1 月 5 日發表,並引起了相當大的轟動——我收到了大量的電子郵件和邀請,向全球各地的物理小組解釋這篇論文。它在 r/physics 上流行了一段時間,並成為許多理論物理系的熱門話題。當我參加會議時,每個人都想談論如何使用 Claude。我在 1 月訪問了普林斯頓高等研究院,不久後他們就召開了一次關於使用 LLM 的緊急會議。消息正在傳開。

在過去的三個月左右,物理學家一直在學習將 LLM 納入他們的研究計劃,用於構思和技術工作。在構思方面,Mario Krenn 一直在開發生成想法的工具,這已經產生了一些成果,例如這篇 2025 年 11 月初的論文。Steve Hsu 在不久後也寫了一篇論文,同樣以核心方式使用並致謝了 AI。在技術方面,我的哈佛同事 Andy Strominger 與他曾任職於 OpenAI 的前學生 Alex Lupsasca 等人合作的一篇論文中,包含了一個尖銳且具挑戰性的技術計算,據我了解,那是 GPT 相當自主地完成的。我想說,對於所有這些項目以及我的項目,物理學家仍然需要引導 LLM 走向正確的方向。LLM 目前真的還不知道什麼才是有趣的問題。

我也會將這些努力與我所做的進行對比,即讓 Claude 親自完成每一個步驟。證明存在一組提示詞可以讓 LLM 撰寫一篇長篇、嚴肅、技術性強、嚴謹且有意義的科學論文才是重點,我確實認為這是一個巨大的進步。

除了興趣的增長,工具本身也在穩步改進。我現在 100% 的研究都使用 LLM。我不再封裝 LaTeX 寫作,因為我其實很享受寫論文,這有助於我思考,而且我仍然會自己寫一些 Mathematica 代碼。但我已經好幾個月沒有在命令行中親自編譯任何東西了。我通常同時運行四到五個項目,在窗口之間切換檢查輸出,並發送新的提示詞。這感覺有點像馬格努斯·卡爾森同時對陣五位特級大師。有人問我為什麼不每兩週寫一篇論文。答案是我覺得沒必要。我正在智力上成長——每天學到這麼多東西——並嘗試一些雄心勃勃的問題,其中大部分都失敗了。我預計洪流很快就會開啟。

附錄:數據

馬修·施瓦茨是哈佛大學物理學教授。此處討論的論文可在 arXiv 上查閱。

Anthropic Research

相關文章

  1. 為何大型語言模型尚非科學家

    Lesswrong · 3 個月前

  2. 大語言模型的推論、證明與挑戰:2026年2月進展報告

    3 個月前

  3. AI #151:當 Claude 協作時

    Lesswrong · 3 個月前

  4. 在超導研究問題上測試大型語言模型

    Google Research · 大約 1 個月前

  5. AI #147:快閃前瞻

    Lesswrong · 4 個月前