2025年大型語言模型現狀：進展、問題與預測

Sebastian Raschka'S Blog·4 個月前

這篇文章回顧了2025年大型語言模型領域的主要突破，重點分析了透過RLVR與GRPO技術崛起的推理模型，並預測推理時間擴展與持續學習將成為未來幾年的發展核心。

2025 年 LLM 發展現狀：進展、問題與預測

隨著 2025 年進入尾聲，我想回顧今年大型語言模型（LLM）領域一些最重要的發展，反思仍存在的局限與開放性問題，並分享對未來走向的一些看法。

正如我每年都會說的，2025 年對 LLM 和 AI 來說是極其充實的一年，而且今年完全沒有進展飽和或放緩的跡象。

1. 推理、RLVR 與 GRPO 之年

我想涵蓋許多有趣的話題，但讓我們從 2025 年 1 月開始按時間順序聊起。

規模化（Scaling）依然奏效，但在實踐中並未真正改變 LLM 的行為或感受（唯一的例外是 OpenAI 剛發布的 o1，它增加了推理軌跡）。因此，當 DeepSeek 在 2025 年 1 月發布 R1 論文，展示了可以透過強化學習開發出類推理行為時，這確實是一件大事。（在 LLM 的語境下，推理意味著模型會解釋其答案，而這種解釋本身通常會提高答案的準確性。）

1.1 DeepSeek 時刻

DeepSeek R1 因多種原因受到廣泛關注：

首先，DeepSeek R1 作為開源權重模型發布，表現非常出色，足以與當時最強的專有模型（ChatGPT、Gemini 等）媲美。

其次，DeepSeek R1 的論文促使許多人（尤其是投資者和記者）重新審視 2024 年 12 月發布的 DeepSeek V3 論文。這導致了一個修正後的結論：雖然訓練尖端模型依然昂貴，但成本可能比之前假設的低一個數量級，估計接近 500 萬美元，而非 5000 萬或 5 億美元。

DeepSeek R1 的補充材料估計，在 DeepSeek V3 之上訓練 DeepSeek R1 模型的成本僅需額外的 294,000 美元，這再次遠低於所有人的預期。

當然，這 500 萬美元的估計有許多前提。例如，它僅計算了最終模型運行的算力成本，並未計入研究人員的薪資以及與超參數調優和實驗相關的其他開發成本。

第三，也是最有趣的一點，該論文提出了結合 GRPO 算法的「可驗證獎勵強化學習」（RLVR），作為一種開發所謂推理模型並在後訓練階段改進 LLM 的新（或至少是改良的）算法路徑。

在此之前，監督式指令微調（SFT）和人類回饋強化學習（RLHF）等後訓練方法（目前仍是訓練流程的重要組成部分）受限於需要昂貴的人工撰寫回覆或偏好標籤。（當然，也可以用其他 LLM 合成生成，但這有點像「雞生蛋、蛋生雞」的問題。）

DeepSeek R1 和 RLVR 的重要之處在於，它們允許我們在大量數據上對 LLM 進行後訓練，這使其成為透過在後訓練期間擴展計算量（在算力預算允許的情況下）來改進和解鎖能力的絕佳候選方案。

RLVR 中的 V 代表「可驗證」（verifiable），這意味著我們可以使用確定性的方法來分配正確性標籤，而這些標籤足以讓 LLM 學習複雜的問題解決能力。（典型類別是數學和代碼，但將此想法擴展到其他領域也是可能的。）

我不想在這裡過於陷入技術細節，因為我想在這篇年度回顧文章中涵蓋其他方面。關於推理 LLM 和 RLVR，可以寫成整篇文章甚至書籍。例如，如果你有興趣了解更多，請查看我之前的文章：

理解推理 LLM

LLM 推理強化學習現狀

話雖如此，核心結論是：今年的 LLM 開發基本上由使用 RLVR 和 GRPO 的推理模型所主導。

基本上，在 DeepSeek R1 之後，每個主要的開源或專有 LLM 開發商都發布了其模型的推理（通常稱為「思考」）變體。

1.2 LLM 關注點

如果我要為每一年簡潔地總結 LLM 的開發重點（除了架構擴展和預訓練算力之外），我的清單會是這樣：

2022 RLHF + PPO
2023 LoRA SFT
2024 中期訓練 (Mid-Training)
2025 RLVR + GRPO

預訓練仍然是所有工作的必要基礎。除此之外，RLHF（透過 PPO 算法）當然是 2022 年最初帶給我們 ChatGPT 模型的功臣。

在 2023 年，大量的關注點集中在 LoRA 和類似 LoRA 的參數高效微調技術上，用於訓練小型自定義 LLM。

接著在 2024 年，所有主要實驗室開始透過專注於合成數據、優化數據混合、使用特定領域數據以及添加專用的長文本訓練階段，使他們的（預）訓練流程變得更加複雜。我在當時的 2024 年文章中總結了這些不同的方法（當時我將這些技術歸類在預訓練下，因為那時還沒有「中期訓練」這個詞）：

當時，我將這些視為預訓練技術，因為它們使用相同的預訓練算法和目標。今天，這些在常規通用數據預訓練之後、稍微更專門的預訓練階段，通常被稱為「中期訓練」（作為常規預訓練與後訓練——包括 SFT、RLHF 以及現在的 RLVR——之間的橋樑）。

那麼，你可能會問接下來是什麼？

我認為明年我們會看到（更）多對 RLVR 的關注。目前，RLVR 主要應用於數學和代碼領域。

下一個邏輯步驟是，不僅將最終答案的正確性作為獎勵信號，還要在 RLVR 訓練期間評判 LLM 的解釋。這在過去多年的研究中被稱為「過程獎勵模型」（PRM）。然而，目前還不是非常成功。例如，引用 DeepSeek R1 論文的話：

4.2. 不成功的嘗試
[...] 總之，雖然 PRM 在對模型生成的 Top-N 回覆進行重新排名或輔助引導搜索方面表現出良好的能力（Snell et al., 2024），但與它在我們實驗的大規模強化學習過程中引入的額外計算開銷相比，其優勢有限。

然而，觀察上個月發布的 DeepSeekMath-V2 論文（我在之前的文章《從 DeepSeek V3 到 V3.2：架構、稀疏注意力和 RL 更新》中討論過），我認為未來我們會看到更多將「解釋評分」作為訓練信號的做法。

目前對解釋進行評分的方式涉及第二個 LLM。這引導出了我看到的 RLVR 另一個方向：擴展到數學和代碼之外的其他領域。

所以，如果你今天問我 2026 年和 2027 年的前景，我會這麼說：

2026 RLVR 擴展與更多的推理時間擴展 (Inference-time scaling)
2027 持續學習 (Continual learning)

除了上述的 RLVR 擴展外，我認為 2026 年將會有更多關注點放在推理時間擴展上。推理時間擴展意味著我們在訓練後，讓 LLM 生成答案時花費更多的時間和金錢，但這能帶來顯著的效果。

推理擴展並非新範式，LLM 平台已經在底層使用某些技術。這是延遲、成本與回覆準確性之間的權衡。然而，在某些準確性比延遲和成本更重要的應用中，極端的推理擴展完全是值得的。例如，正如最近的 DeepSeekV2-Math 論文所示，它將模型推向了挑戰性數學競賽基準測試的金牌級表現。

今年同事之間也有很多關於持續學習的討論。簡而言之，持續學習是指在不從頭開始重新訓練的情況下，讓模型學習新數據或知識。

這不是一個新想法，我很好奇為什麼今年會被頻繁提及，因為目前在持續學習方面還沒有任何新的或實質性的突破。持續學習的挑戰在於災難性遺忘（正如持續預訓練實驗所示，學習新知識意味著 LLM 在某種程度上會遺忘舊知識）。

儘管如此，既然這似乎是一個熱門話題，我確實期待在減少災難性遺忘以及使持續學習方法開發成為未來幾年重要進展方面取得更多成果。

2. GRPO：年度研究寵兒

在昂貴的 LLM 時代，學術研究在近年來一直頗具挑戰性。當然，儘管預算較小（或正因為預算小），學術界仍能做出成為主流並成為 LLM 進步與突破關鍵支柱的重要發現。

近年來受歡迎的例子包括 LoRA（LoRA: Low-Rank Adaptation of Large Language Models 2021）及相關的參數高效微調方法。

另一個是 DPO（Direct Preference Optimization: Your Language Model is Secretly a Reward Model）及相關的無獎勵模型對齊方法，作為人類回饋強化學習的替代方案。

在我的圈子裡，今年的研究亮點一直是 GRPO。雖然它是在 DeepSeek R1 論文中引入的，而非起源於學術界，但它仍為研究人員帶來了激動人心的一年：RLVR 和 GRPO 在概念上都很有趣，且根據規模的不同，實驗成本並非高不可攀。

因此，今年我在 LLM 研究文獻中看到了許多對 GRPO 的數學改進（來自公司和學術研究人員），這些改進後來被應用到尖端 LLM 的訓練流程中。例如，一些改進包括：

Olmo 3：

零梯度信號過濾 (DAPO by Yu et al., 2025)
主動採樣 (DAPO by Yu et al., 2025)
Token 級損失 (DAPO by Yu et al., 2025)
無 KL 損失 (DAPO by Yu et al., 2025 與 Dr. GRPO by Liu et al., 2025)
更高的裁剪值 (DAPO by Yu et al., 2025)
截斷重要性採樣 (Yao et al., 2025)
無標準差歸一化 (Dr. GRPO by Liu et al., 2025)

DeepSeek V3.2：

具有領域特定 KL 強度的 KL 調優（數學領域為零）
加權 KL
離策劃序列掩碼 (Off-policy sequence masking)
保留 top-p / top-k 的採樣掩碼
保留原始 GRPO 的優勢歸一化 (Advantage normalization)

我可以證實，這些 GRPO 技巧或修改在實踐中具有巨大影響。例如，在使用其中一些或多個修改後，錯誤的更新不再會破壞我的訓練運行，我也不再需要定期重新加載檢查點。

即使是非常短的運行，我也觀察到採用這些技巧帶來的巨大收益：

總之，如果你想嘗試一下，我在我的「從零開始構建推理模型」（Build A Reasoning Model (From Scratch)）存儲庫中有一個原始版本的 GRPO 腳本。（我很快會添加更多關於各項修改的消融研究。）

3. LLM 架構：分叉路口？

在 LLM 架構方面，尖端模型仍在使用老牌的解碼器式 Transformer。然而，今年開源權重 LLM 幾乎都趨向於使用混合專家（MoE）層，以及至少一種「效率優化」的注意力機制：分組查詢注意力（GQA）、滑動窗口注意力或多頭潛在注意力（MLA）。

除了這些相當標準的 LLM 架構外，我們還看到了更激進的效率優化，旨在使注意力機制隨序列長度線性擴展。例子包括 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets，以及 NVIDIA Nemotron 3 中的 Mamba-2 層。

總之，我不想在這裡詳述，因為我有一篇長達 1.3 萬字且最近更新的文章專門討論這些架構：大型 LLM 架構大比拼。

我的預測是，至少在未來幾年內，我們仍將繼續基於 Transformer 架構進行構建，至少在追求尖端建模性能方面是如此。

同時，我確實認為我們會看到越來越多像 Gated DeltaNet 和 Mamba 層這樣的效率與工程優化，因為在 LLM 訓練、部署和使用的規模下，對於那些仍在 LLM 服務上耗費巨資的公司來說，這從財務角度來看是非常合理的。

這並不意味著沒有其他替代方案。正如我在《超越標準 LLM》中所寫，文本擴散模型（Text Diffusion Models）是一個有趣的方法。目前它們屬於實驗性研究模型，但 Google 分享說他們將發布 Gemini Diffusion 模型。它不會在建模質量上與其尖端產品競爭，但在低延遲要求的任務（如代碼補全）中會非常快速且具吸引力。

此外，兩週前開源權重的 LLaDA 2.0 模型發布了。其中最大的 100B 參數模型是迄今為止最大的文本擴散模型，表現與 Qwen3 30B 相當。（是的，它整體上沒有推動尖端技術，但在擴散模型領域仍是一個值得注意的發布。）

4. 這也是推理擴展與工具調用之年

透過擴展訓練數據和架構來改進 LLM 是一個行之有效且（目前）依然有效的公式。然而，特別是在今年，這已不再是「唯一」足夠的配方。

我們在 GPT 4.5（2025 年 2 月）中看到了這一點，傳聞它比 GPT 4（以及後來發布的 GPT 5）大得多，而單純的規模化通常不再是最明智的前進方向。GPT 4.5 的能力可能優於 GPT 4，但增加的訓練預算被認為「性價比極低」。

相反，更好的訓練流程（更關注中期和後訓練）以及推理擴展驅動了今年的大部分進展。

例如，如前所述，在討論實現金牌級數學表現的 DeepSeekMath-V2 時，推理擴展是我們可以利用的槓桿之一，讓 LLM 按需解決極其複雜的任務（GPT Heavy Thinking 或 Pro 是其他例子；由於高延遲和高成本，將這些用於所有任務並不合理，但在某些例子中，如挑戰性的數學或編碼問題，高強度的推理擴展是合理的。）

另一個重大改進來自於在訓練 LLM 時考慮到工具調用（Tool Use）。如你所知，幻覺是 LLM 最大的問題之一。可以說，幻覺率正在持續改善，我認為這很大程度上歸功於上述的工具調用。例如，當被問及誰贏得了 1998 年世界盃足球賽時，LLM 不再試圖憑記憶回答，而是可以透過工具調用使用傳統搜尋引擎，從該主題的可靠網站（例如此例中的 FIFA 官網）中選擇並抓取資訊。數學問題、使用計算機 API 等也是如此。

例如，OpenAI 的 gpt-oss 模型是今年較早發布的開源權重模型之一，專門為工具調用而開發。

遺憾的是，開源生態系統尚未完全跟上，許多（如果不是大多數）工具仍預設在非工具調用模式下運行這些 LLM。原因之一是這是一個新興且不斷演進的範式，工具需要進行適配。另一個原因是出於安全性考慮，這是一個更難解決的問題（給予 LLM 不受限的工具調用權限可能會帶來安全風險或對系統造成其他破壞。我認為一個值得思考的問題是：你會信任一個新實習生在擁有如此大權限的情況下操作你的系統嗎？）

我確實認為，在未來幾年，在本地使用 LLM 時，啟用並允許工具調用將變得越來越普遍。

5. 年度詞彙：刷榜 (Benchmaxxing)

如果我要選一個描述今年 LLM 發展的詞彙或趨勢，那會是「刷榜」（Benchmaxxing）。

在這裡，刷榜意味著強烈專注於提升排行榜數字，有時甚至到了將基準測試表現視為目標本身，而非通用能力指標的程度。

一個突出的例子是 Llama 4，它在許多已建立的基準測試中得分極高。然而，一旦用戶和開發者上手使用，他們就意識到這些分數並未反映真實世界的能力和實用性。

正如流行語所說，如果測試集是公開的，那它就不是真正的測試集。現在的問題是，測試集數據不僅（有意或無意地）成為訓練語料庫的一部分，而且在 LLM 開發過程中經常被直接作為優化目標。

回想當年，即使公開測試集上的基準分數被誇大，至少模型排名通常還能維持。例如，參見下方 2019 年論文《ImageNet 分類器能推廣到 ImageNet 嗎？》中帶有註釋的圖表。

在 LLM 開發中，這已經到了一個基準數字不再是 LLM 性能可靠指標的程度。

然而，我確實認為基準測試仍是 LLM 必須跨越的必要門檻。也就是說，如果我看到一個 LLM 在基準測試 Y 上的得分低於 X，我就知道它不是一個好的 LLM。但是，如果它的得分高於 X，並不意味著它比另一個同樣得分高於 X 的 LLM 好得多。

另一個需要考慮的方面是，圖像分類器只有一個任務，即分類圖像。然而，LLM 被用於許多不同的任務：翻譯文本、總結文本、編寫代碼、腦力激盪、解決數學問題等等。評估圖像分類器（具有明確的分類準確性指標）比評估 LLM 在確定性和開放性任務上的表現要簡單得多。

除了在實踐中嘗試 LLM 並不斷生成新的基準測試外，目前對這個問題還沒有完美的解決方案。

順便說一句，如果你想了解更多關於 LLM 評估的主要類別，你可能會喜歡我的文章《從零開始理解 LLM 評估的 4 種主要方法》：

從零開始理解 LLM 評估的 4 種主要方法

6. 用於編碼、寫作與研究的 AI

既然這個話題經常被提及，我想分享一下我對 LLM 取代人類執行某些任務（甚至工作）的看法。

從高層次來看，我將 LLM 視為賦予某些專業人士「超能力」的工具。我的意思是，當 LLM 被妥善使用時，它們可以顯著提高個人生產力，並消除日常工作中的許多摩擦。這涵蓋了從相對平庸的任務（如確保章節標題的大小寫一致）到在大型代碼庫中尋找複雜 Bug。

6.1 編碼

今天，我仍然親自編寫大部分我「在意」的代碼。所謂「在意」，是指在那些我必須理解代碼且代碼必須正確的場景中。例如，如果我設置一個 LLM 訓練腳本，我會親自實現並仔細檢查訓練邏輯。這是為了：a) 確保它正在執行我認為它應該執行的操作；b) 保留我在這項任務中的知識和專業技能。然而，我現在會使用 LLM 來添加周圍更平庸的代碼，例如添加命令行 argparse 模板，以便我可以更方便地從命令行使用自己的代碼。

但我也越來越依賴 LLM 來發現問題、提出改進建議或對想法進行合理性檢查。同時，我想理解我正在構建的東西，作為個人目標，我旨在加深我的知識和技能，並繼續增長我的專業專長。

同時，LLM 對於我核心專業之外的任務極具價值。它們讓我能夠自動化那些我原本沒有時間或精力去處理的事情。一個例子是我最近寫的一個工具，用於將我的 Substack 文章提取並備份為 Markdown。（我用 Markdown 起草所有內容，但我經常直接在 Substack 編輯器中編輯和擴展文章，所以我的本地草稿並不總是最新的）。LLM 還幫我清理了網站上的 CSS，這些 CSS 累積了多年的重複和不一致。今年還有許多類似我使用 LLM 的案例。

簡而言之，我認為這裡的訣竅在於識別何時使用以及何時不使用 LLM。以及如何以一種幫助你增長專業知識且讓你感到滿足的方式來使用 LLM。

6.2 代碼庫與代碼庫

LLM 變得更擅長編寫代碼，但儘管我聽到其他人這麼說，我不認為代碼正在或將會變得轉瞬即逝或過時。LLM 賦予人們超能力來生成某些編碼項目，而這些項目原本需要他們付出巨大努力才能親自創建。

然而，純 LLM 生成的代碼庫無法取代專家精心打造的代碼庫。這些專家代碼庫甚至可能是人類編碼者自己使用 LLM 創建的。但關鍵點在於，在該領域擁有專業知識的人投入了大量時間和精力來創建、測試和完善它。其他人要複製它需要花費大量工作，所以如果它已經存在，為什麼不採用它呢？

簡而言之，我認為一個學習過良好設計模式和權衡取捨，並在其職業生涯中研究、見過並構建過許多平台的專家全端 Web 開發者，將能夠構建出比一個隨機提示 LLM 構建平台的普通人更好的平台。

很棒的一點是，現在普通人也可以構建一個平台，即使它不是最好的。然而，使用和提示 LLM 只能讓那個人走這麼遠，平台的質量可能會遇到瓶頸。因此，如果這個人真的在意改進平台，深入研究、學習他人如何構建平台，並帶著更多知識回來更有效地引導 LLM 改進平台設計，將會是一個好主意。

6.3 技術寫作與研究

與編碼類似，我不認為 LLM 會使技術寫作過時。撰寫一本好的技術書需要數千小時的工作以及對主題的深度熟悉。這個過程可能會涉及 LLM 來提高清晰度、檢查技術正確性、探索替代方案或運行小型實驗，但核心工作仍取決於人類的判斷和專業知識。

是的，LLM 可以使技術書籍變得更好。它們可以幫助作者發現錯誤、擴展參考資料，並總體減少花在平庸任務上的時間。這為真正需要創造力和經驗的深度工作騰出了更多時間。

從讀者的角度來看，我也不認為 LLM 取代了技術寫作。使用 LLM 學習某個主題對於快速提問和初學者級別的解釋效果很好。然而，當你想建立更深層次的理解時，這種方法很快就會變得混亂。

在那種情況下，與其自己浪費數小時試圖過濾關於一個你正在學習但（還）不是專家的主題的 LLM 回覆，遵循由專家設計的結構化學習路徑通常更有意義。（專家可能使用了也可能沒使用 LLM。）

當然，在參加課程或從書本學習時，使用 LLM 進行澄清提問或探索分支路徑仍然非常合理。讓它設計測驗或練習來實踐知識也是極好的。

總體而言，我認為 LLM 對作者和讀者來說都是雙贏。

但我認為這裡的訣竅在於學會識別何時使用以及何時不使用 LLM。例如，主要的缺點是當主題變得困難時，人們很容易立即求助於 LLM，因為自己先努力解決問題通常會帶來更深刻的學習。

我對研究的看法也大抵如此。LLM 對於尋找相關文獻、發現數學符號中的問題以及建議後續實驗非常有用。但讓人類研究人員坐在駕駛座上仍然是有意義的。

也許這裡的經驗法則如下：

如果這篇（研究）文章或書籍完全由人類生成，它可能還有進一步改進的空間。
而如果這篇（研究）文章或書籍只需提示 LLM 就能生成，那麼它可能不夠新穎和/或不夠深入。

6.4 LLM 與過勞 (Burnout)

LLM 仍然相當新穎且在不斷演進，我認為過度使用 LLM 還有一個較少被討論的缺點。例如，我認為如果模型完成了所有的「做」，而人類主要負責「監督」，工作可能會開始感到空洞。

當然，有些人真心喜歡專注於管理系統和編排工作流，這是一個完全合理的偏好。但對於那些喜歡親自實踐的人來說，我認為這種工作模式會加速過勞。（對於那些因為現在有了 LLM 而期望更快獲得更多成果的公司來說，情況可能更是如此。）

在與難題搏鬥並最終看到它奏效的過程中，有一種特殊的滿足感。當 LLM 一次性給出解決方案時，我不會有同樣的感覺。我想這類似於烹飪（這只是我想到的一個例子，我不是一個大廚）。如果你喜歡做披薩，使用預製麵團並只添加配料可能會消除大部分樂趣，烹飪就變成了一種達到目的的手段。這不一定是壞事，但我認為如果你在較長的一段時間（數月或數年）內每天花很多小時做這項工作，我可以看到這將如何讓人感到空虛並最終導致過勞。

所以，一個自私的觀點是，編寫代碼比閱讀代碼更有趣。你可能也會同意，創建 Pull Request 通常比審查它們更有趣（當然，這並非對每個人都成立）。

也許一個關於我們如何以可持續方式使用 AI 的良好、理想化（但不完美）的類比是西洋棋。

幾十年前，西洋棋引擎就超越了人類棋手，然而由人類進行的職業西洋棋比賽依然活躍且蓬勃發展。我不是西洋棋專家，但我會說這場遊戲可能甚至變得更豐富、更有趣了。

根據我所聽到的（例如基於卡斯帕羅夫的《深度思考》一書以及 Magnus Carlsen 參與的播客），現代棋手一直在使用 AI 來探索不同的想法、挑戰他們的直覺，並以以前根本不可能達到的深度分析錯誤。

我認為這是思考 AI 在其他形式智力工作中作用的一個有用模型。使用得當，AI 可以加速學習並擴大單個人能合理承擔的工作範圍。我認為我們應該更多地將其視為合作夥伴而非替代品。

但我也認為，如果 AI 被用來完全外包思考和編碼，它就有可能破壞動力和長期技能發展。

7. 優勢：私有數據

LLM 的通用編碼、知識問答和寫作能力在持續提升。這在很大程度上是因為透過訓練流程和範式（如 RLVR）的改進，以及推理擴展和工具調用的進步，規模化仍然能帶來正向的投資回報。

然而，這在某個時點會開始進入平台期（類似於我們在 GPT 4 到 GPT 4.5 開發中看到的情況），除非我們不斷發明新的訓練方法和/或架構（目前還沒有人知道這些會是什麼樣子）。

LLM 目前能夠解決許多通用任務和較容易實現的目標。但要讓它們在某些行業站穩腳跟，需要更多的領域專業化。我認為 LLM 提供商非常希望能獲得高質量的領域特定數據。目前看來，這將是一個挑戰。

例如，似乎大多數被接洽的公司都拒絕了此類交易，正是因為這些數據是私有的，且是其業務差異化的核心。（我從多個管道聽說過這一點，The Information 也有一篇關於此主題的文章。）

在我看來，這完全合理。我認為將有價值的私有數據（這可能在某天賦予公司優勢）出售給 OpenAI 或 Anthropic 可能有點短視。

目前，大規模的 LLM 開發成本極高且極具挑戰性，這就是為什麼只有少數幾家大公司在開發尖端 LLM。然而，我認為 LLM 開發正變得越來越商品化，因為 LLM 開發者頻繁在雇主之間流動，最終會被更大的金融機構、生物技術公司等聘用，這些公司有預算開發具有競爭力的內部 LLM，並從其私有數據中獲益。

這些 LLM 甚至不需要完全從頭開始訓練；許多尖端 LLM 如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在發布，並且可以被適配並進一步進行後訓練。

8. 從零開始構建 LLM 與推理模型

你可能想知道我今年都在忙些什麼。我的精力幾乎完全集中在與 LLM 相關的工作上。去年，我決定獨立並創辦自己的公司，主要是為了有更多時間從事自己的研究、書籍、Substack 寫作以及行業合作。

作為一名獨立研究員，諮詢項目是讓這種模式可持續的一部分。這包括日常開支（從雜貨到醫療保險），但也包括較不明顯的成本，如上述實驗所需的雲端算力。

隨著時間的推移，我的目標是進一步減少諮詢工作，花更多時間進行長篇研究和寫作，特別是我在這裡分享的技術深度探討。

我很幸運，許多公司都聯繫過我提供全職職位，如果獨立之路走不通，這將是一個可行的選擇，但目前我計劃保持獨立。

如果你覺得我的工作有用，且在能力範圍內，訂閱 Substack 或購買我的書籍將真正幫助這種工作模式持續下去，我非常感謝這些支持。

Ahead of AI 是一份讀者支持的出版物。要接收新文章並支持我的工作，請考慮成為免費或付費訂閱者。

我今年的個人亮點之一是關於我的書《從零開始構建大型語言模型》（Build A Large Language Model (From Scratch)）的正面回饋。我收到了來自全球各地公司和大學讀者的許多深思熟慮的信息。

回饋涵蓋了廣泛的使用案例，從大學教授採用本書作為教授 LLM 工作原理的主要教科書，到利用本書準備面試並獲得新職位的前學生，再到依靠本書作為在生產環境中實現自定義 LLM 敲門磚的工程師。

我也很高興得知這本書現在已被翻譯成至少九種語言。

許多讀者也問是否會有涵蓋更新、更高級主題的第二版。雖然我有考慮過，但我對降低書籍的易讀性持謹慎態度。例如，將標準的多頭注意力替換為更複雜的變體（如某些較新 DeepSeek 模型中使用的多頭潛在注意力），會顯著提高入門門檻。

因此，目前我傾向於保持原書不變，因為它對於想進入 LLM 領域的人來說效果非常好。對於對更高級材料感興趣的讀者，作為後續，我在這一年中向該書的 GitHub 存儲庫添加了大量的獎勵材料。我計劃隨著時間的推移繼續擴展這些材料。

此外，如你所知，我目前正在撰寫續作《從零開始構建推理模型》（Build A Reasoning Model (From Scratch)）。

第一本書《從零開始構建大型語言模型》專注於核心的大型語言模型架構和預訓練基礎。

推理模型這本書則從第一本書結束的地方開始。從預訓練的基礎模型出發，它探索了專門旨在提高推理能力的推理時間擴展方法和強化學習技術。

除了這個 Substack，我正在努力撰寫這本推理書，在許多方面，我認為這是我迄今為止考慮最周全、最精緻的一本書。

目前，我估計在每一章上花費大約 75-120 小時。如果你感興趣，我估計通常的分解如下：

3-5 小時：腦力激盪並修訂主題選擇
5-10 小時：構建內容結構
20 小時：編寫初始代碼
10-20 小時：運行額外實驗並閱讀最新文獻以獲取更多見解
10-20 小時：製作插圖
10 小時：撰寫初稿文本
10-20 小時：重寫並完善章節
5-10 小時：製作練習並運行實驗
2-5 小時：納入編輯和讀者的建議

目前，我正在完成第 6 章的一半，該章實現了用於訓練推理模型的可驗證獎勵強化學習（GRPO）代碼。

《從零開始構建推理模型》是一項非常艱苦的工作，但我非常享受其中的過程！我希望你和其他讀者會發現它像《從零開始構建大型語言模型》一樣有用。

9. 2025 年的驚喜與 2026 年的預測

我想以一些核心結論來結束這篇文章，重點關注那些讓我感到有些驚訝的事情，以及我對 2026 年的預測。

9.1 2025 年值得注意且令人驚訝的事情

讓我們從 2025 年的驚喜開始。如果一年前在 2024 年問我，我可能不會預料到這些發展：

數個推理模型已經在主要數學競賽中達到了金牌級表現（OpenAI 的未命名模型、Gemini Deep Think 以及開源權重的 DeepSeekMath-V2）。我對這件事發生並不感到驚訝，但我驚訝於它在 2025 年就發生了，而不是 2026 年。
Llama 4（或一般的 Llama）在開源權重社區幾乎完全失寵，Qwen 的受歡迎程度已超過 Llama（根據 Nathan Lambert 的 ATOM 項目報告的下載量和衍生作品數量衡量）。
Mistral AI 在其 2025 年 12 月宣佈的最新旗艦模型 Mistral 3 中使用了 DeepSeek V3 架構。
除了 Qwen3 和 DeepSeek R1/V3.2 之外，開源權重尖端模型的競賽中出現了許多額外的競爭者，包括 Kimi、GLM、MiniMax 和 Yi。
領先的實驗室已經將更便宜、高效的混合架構（Qwen3-Next、Kimi Linear、Nemotron 3）列為更大的優先事項，而非由獨立實驗室開發。
OpenAI 發布了一個開源權重模型（gpt-oss，我今年早些時候寫過一篇專門的文章）。
MCP（加入 Linux 基金會）已經成為代理式（Agent-style）LLM 系統中工具和數據訪問的標準（目前）；我原以為生態系統在 2025 年會保持更加碎片化，直到至少 2026 年。

9.2 2026 年的預測

我們可能會看到工業規模、面向消費者的擴散模型，用於廉價、可靠、低延遲的推理，Gemini Diffusion 可能會率先推出。
開源權重社區將緩慢但穩定地採用具有本地工具調用和日益增強的代理能力的 LLM。
RLVR 將更廣泛地擴展到數學和編碼之外的其他領域（例如化學、生物等）。
傳統的 RAG 將慢慢淡出作為文檔查詢的預設解決方案。開發者將更多地依賴更好的長文本處理能力，特別是隨著更好的「小型」開源權重模型的出現，不再需要在每次文檔相關查詢時都使用檢索。
許多 LLM 基準測試和性能進展將來自改進的工具和推理時間擴展，而非來自訓練或核心模型本身。這看起來像是 LLM 變得更好了，但這主要是因為周邊應用在改進。同時，開發者將更多地關注降低延遲，並使推理模型在不必要的地方消耗更少的推理 Token。別誤會，2026 年仍會推動尖端技術，但今年的進展比例將更多來自推理端而非單純的訓練端。

總結一下，我認為如果 2025 年有一個元教訓（Meta-lesson），那就是 LLM 的進步與其說是單一的突破，不如說是透過多個獨立槓桿在多個戰線上取得的改進。這包括架構調整、數據質量改進、推理訓練、推理擴展、工具調用等。

同時，評估仍然困難，基準測試並不完美，關於何時以及如何使用這些系統的良好判斷力仍然至關重要。

我對 2026 年的希望是，我們能繼續看到有趣的改進，但也能理解這些改進從何而來。這需要更好、更一致的基準測試，當然還有透明度。

感謝您的閱讀，感謝這一年來在評論區以及從 Substack Notes 到 GitHub 等各個平台上提供的深思熟慮的回饋和討論。

正面的回饋和詳細的對話真正激勵著我投入時間和精力撰寫長篇文章，並繼續深入挖掘 LLM 研究和實現細節。我從這些交流中學到了很多，希望你也一樣。

我非常期待隨著該領域在 2026 年的持續演進，繼續這些對話！

祝好，
Sebastian

10. 獎勵：精選 LLM 研究論文清單（2025 年 7 月至 12 月）

6 月，我向支持本 Substack 的付費訂閱者分享了一篇獎勵文章，其中包含我精選並收藏的研究論文清單。

LLM 研究論文：2025 年清單（1 月至 6 月）

同樣地，為了感謝所有熱心的支持者，我在下方準備了一份清單，列出了我在 2025 年 7 月至 12 月期間收藏並分類的所有有趣研究文章。我瀏覽了這些論文的摘要，但只閱讀了其中極小的一部分。然而，我仍然喜歡收集這些組織良好的清單，因為在處理特定項目時，我經常會回頭查閱它們。

然而，考慮到本文已經非常長，我將在另一篇單獨的文章中分享這份清單，鏈接如下：

非常感謝您訂閱我的 Ahead of AI 博客並在今年支持我的工作。我真的很感激。您的支持讓這項工作在現實意義上變得可行，並讓我能夠繼續投入所需的時間來寫作、實驗並深入思考這些話題！

— Sebastian Raschka'S Blog