為何大型語言模型尚非科學家

Lesswrong·3 個月前

本報告詳細介紹了我們利用 Gemini 2.5 Pro 與 Claude Code 構建自動化 AI 研究流程的嘗試，雖然成功產出一篇被 Agents4Science 2025 接收的論文，但也揭示了阻礙 LLM 成為完全獨立科學家的六大關鍵失效模式。

這是一篇轉載自我們報告網站的文章，主題為《為什麼大型語言模型（LLM）還不是科學家：來自四次自主研究嘗試的教訓》（Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts）。本報告詳述了我們由 LLM 撰寫的論文《一致性困境：為什麼強對齊會破壞黑箱越獄檢測》（The Consistency Confound: Why Stronger Alignment Can Break Black-Box Jailbreak Detection）背後的工作。該論文已被 Agents4Science 2025 錄取，這是首個要求 AI 作為主要作者的科學會議，並已通過 AI 與人類的雙重審查。

重點摘要 (TL;DR)

我們使用 Gemini 2.5 Pro 和 Claude Code 構建了 6 個 AI 代理（Agents），對應科學工作流的各個階段：從創意到假設生成、實驗執行、評估及論文撰寫。
我們在多代理強化學習（Multi-Agent RL）、世界模型（World Models）和 AI 安全等機器學習子領域的 4 個研究創意上測試了這些代理。其中 3 個創意在執行或評估階段失敗，僅有 1 個成功並發表於 Agents4Science 2025。
我們記錄了 6 種反覆出現的失敗模式：對訓練數據的偏見、壓力下的執行偏差、記憶/上下文退化、無視明顯失敗而宣稱成功的過度興奮，以及在領域智能和科學品味上的差距。
我們還推導出 4 項旨在構建更穩健 AI 科學家系統的設計原則，討論了未來自主科學在訓練與評估數據方面的局限性，並在 github.com/Lossfunk/ai-scientist-artefacts-v1 發布了所有提示詞（Prompts）、產出物和結果。

問題定義與系統概述

我們想看看目前的 LLM 在沒有大量引導或人類介入的情況下能走多遠。目標是：以最大程度的自主性，將一個研究創意從構思推向發表。

我們的系統由六個專門的代理組成（均使用具備長上下文能力的 Gemini 2.5 Pro），對應科學工作流的各個階段：創意生成、假設生成、實驗規劃、產出評估、修訂和論文大綱。Claude Code 則負責所有的程式碼實現和論文撰寫。

報告圖 1：自主研究流水線，展示了六個代理模組和共享文件系統產出物。

每個代理都會收到存儲庫狀態作為其提示詞上下文的一部分，並配備讀寫文件的工具。這使上下文工程保持極簡。代理會像研究員瀏覽自己的項目文件夾一樣，自行決定參考哪些文件。

報告圖 2：展示代理提示詞模板結構。

為了選擇研究創意，我們從三個機器學習子領域（世界模型、多代理強化學習和 AI 安全）的頂級會議中選取了 135 多篇論文作為語料庫。在運行了四個零樣本（zero-shot）LLM 評審員並諮詢種子論文作者關於可行性的建議後，我們縮小範圍至四個候選方案進行全流程執行。

報告圖 3：從 135+ 篇論文到通過論文混搭生成的 4 個候選創意的篩選漏斗。

在這四個候選方案中，有三個在執行或評估期間失敗。只有一個來自 AI 安全領域的方案完成了整個流程。

我們的 Agents4Science 2025 投稿

在四個候選方案中，只有 AI 安全的創意完成了流程，這並非巧合。其他三個方案需要訓練複雜的模型架構或精細的多代理協作。而這個方案專注於數據分析：對模型響應進行採樣並計算熵指標。沒有訓練循環，沒有梯度傳播。較簡單的實現意味著當問題出現時，它們是可修復的，而非致命的。

該創意是利用語義熵（Semantic Entropy，一種對幻覺檢測有效的方法）作為越獄嘗試的黑箱信號。直覺是：越獄提示詞會引發內部衝突，表現為響應的不一致性。初步實驗顯示該方法失敗了。系統並未放棄該創意，而是從「測試 SE 是否有效」轉向「調查 SE 為何失敗」。這一轉向引出了我們的核心發現：一致性困境（Consistency Confound）。對齊良好的模型會產生一致的、模板化的拒絕回答，而這恰恰被語義熵解釋為「安全」行為。越齊越強，檢測越難。

該論文被 Agents4Science 2025 接收。該會議在 254 篇有效投稿中錄取了 48 篇，我們的論文屬於「邊緣錄取」（borderline accept），通過了正確性檢查和程式碼審計。AI 和人類評審員都認可執行良好的負面結果也是一種貢獻。人類評審員指出，雖然貢獻主要是負面結果，但它識別出了「一個清晰且可復現的失敗模式」。

報告表 2：來自 AI 和人類評審員的 Agents4Science 2025 評分。

即便如此，作為 Agents4Science 投稿的一部分，我們必須完成一份 AI 參與清單，詳細說明每個階段的人類貢獻，而我們的貢獻僅達到 95% 的自主性。我們仍介入了創意選擇、執行期間的元提示（meta-prompt），以及在論文撰寫過程中抑制過於樂觀的言論。

觀察到的失敗模式與緩解措施

通過實驗，我們在多次嘗試中一致發現了六種失敗模式。這些模式揭示了當前 LLM 在自主研究方面的系統性局限。

1. 對訓練數據的偏見
模型默認使用其訓練數據中過時的庫和方法，無視明確的指令。Claude Code 反覆使用已棄用的 Modal 命令，並堅持使用如 hanabi-learning-env==0.5.2 等無人維護的軟體包，忽略了使用現代替代方案的指令。即使在報錯後，系統也會將問題診斷為庫的問題，然後退回到訓練數據中的版本，堅稱那是正確的方法。

2. 執行偏差（Implementation Drift）
面對技術障礙時，系統會逐漸簡化實現方案，而不是解決根本原因。當訓練循環超時，我們的可微樹搜索規劃器退化成了基礎的 Actor-Critic 方法。單個錯誤會觸發漸進式的簡化而非調試。在 WM-2 案例中，實現 Dreamer 基準線時的一個錯誤級聯導致最終完全放棄了核心研究貢獻。

3. 記憶與上下文問題
在長時程任務中，代理會遺失之前的決策、超參數和實驗配置。基準線實現使用的超參數與規劃中指定的完全不同。在撰寫論文時，代理完全忘記參考早期的上下文文件，產出的草稿讀起來就像一份沒有背景故事或動機的實驗列表。為了緩解這一點，我們引入了會話日誌提示詞（如下所示），要求 Claude Code 在每次會話結束時記錄決策和產出物，這是我們必須構建的幾種模擬記憶的抽象機制之一。

報告圖 7：用於跨會話維持上下文的會話日誌提示模板。

4. 過度興奮與「尤里卡」本能
儘管實驗明顯失敗，模型仍報告成功。退化的輸出（如 MAE=0、虛擬獎勵信號）被描述為「成功的假設驗證」。論文草稿做出了誇張的聲明，如「史上首次全面評估」，即便結果在統計上是無效的。這可能源於 RLHF 訓練，模型因表現得順從和有幫助而獲得獎勵，而非因科學懷疑論或檢測確認偏誤而獲獎。

報告圖 6：執行階段（上）和論文撰寫階段（下）的過度興奮與尤里卡本能。

5 & 6. 缺乏領域智能與科學品味
代理難以掌握資深研究員視為理所當然的默會知識（tacit knowledge）。它們未能意識到 Dreamer 需要在線學習（而非離線幀），或者對於 6 小時的 GPU 限制來說，50,000 層深度的參數在計算上是荒謬的。在一個案例中，當基準線性能低於既定基準 95% 時，系統仍繼續進行假設檢測，使任何對比分析在科學上都變得毫無意義。

除了研究執行層面，模型還忽略了實驗設計中的根本缺陷。假設過於簡單以至於無法得出結論，統計有效性被忽視（單種子實驗），且系統將種子論文的「未來工作」章節誤解為對作者從未打算採用的方法的認可。

AI 科學家系統的設計啟示

從這些失敗中，我們推導出構建更穩健 AI 科學家系統的四項設計原則：

先抽象，後落地：在工作流中逐步引入技術細節。過早的具體化會將模型錨定在過時的訓練數據模式中。保持構思的高層級，將實現細節留給執行階段。
驗證一切：在流水線的每個階段實施驗證。評估應基於原始數據和日誌，而非 LLM 的解釋。Goodfire 團隊將另一種做法稱為「P 值操縱與尤里卡幻想」。我們見過太多這種情況。
為失敗與恢復做規劃：設計多輪代理工作流，而非零樣本生成。將程式碼生成與執行分離。包含檢查點（checkpointing）和明確的失敗模式控制。科學發現是長期的，錯誤會累積。
記錄一切：跨運行維護全面的會話日誌和指標。這既支持自主執行也支持人類審查，並且在調試為什麼代理在三個會話前做出某個決策時變得至關重要。

局限性與討論

我們的工作有明顯的局限性：只有四個創意、三個機器學習子領域、沒有系統性的消融實驗，且失敗模式是通過觀察而非定量測量識別的。我們將此視為一個起點。

大局正變得清晰。OpenAI 的「AI for Science」計劃正在招聘「完全相信 AI 的世界級學者」與模型協作，而非取代他們。在加速科學發現的工作中，物理學家 Brian Keith Spears 報告稱，通過人機協作，工作流加速了 1000 倍；而菲爾茲獎得主 Timothy Gowers 則指出：「我們尚未達到 LLM 可能擁有解決難題的主要創意的階段。」我們的賭注是，我們將看到更多用於 A... 的代理和平台。

— Lesswrong

你的個人知識庫

為何大型語言模型尚非科學家