DeepSeek 新模型 V4 值得關注的三大理由

MIT Technology Review·4 天前

中國人工智慧公司 DeepSeek 發布了其備受期待的新旗艦模型 V4 預覽版。該模型具備處理超長文本的能力，且與之前的模型一樣保持開源，這標誌著 DeepSeek 在提升記憶體效率以及減少對美國晶片依賴方面邁出了重要一步。

週五，中國人工智慧公司 DeepSeek 發佈了其備受期待的新旗艦模型 V4 的預覽版。值得注意的是，得益於能更高效處理大量文本的新設計，該模型處理長提示詞的能力較上一代大幅提升。與 DeepSeek 之前的模型一樣，V4 是開源的，這意味著任何人都可以下載、使用和修改。

V4 是 DeepSeek 自 2025 年 1 月推出推理模型 R1 以來最重要的發佈。R1 在有限的運算資源下訓練而成，憑藉其強大的性能和效率震驚了全球 AI 業界，使 DeepSeek 幾乎在一夜之間從一家鮮為人知的研究團隊變成了中國最知名的 AI 公司。它還引發了其他中國 AI 公司發佈開源權重模型的一波浪潮。

此後 DeepSeek 一直保持相對低調——但在本月初，該公司在其模型的網頁版中加入了「專家」和「極速」模式，實際上為 V4 的發佈埋下了伏筆，引發了外界猜測這些更新與即將推出的重大發佈有關。

雖然該公司已成為中國 AI 雄心的強大象徵，但其重返尖端前沿模型領域之際，正值數月來的嚴格審視——包括高層離職、先前模型發佈的延遲，以及來自美國和中國政府日益增加的監管。

那麼，V4 會像 R1 那樣撼動 AI 領域嗎？幾乎可以肯定不會，但以下是這次發佈具有重要意義的三大原因。

1. 它為開源模型開闢了新天地。

與之前的 R1 一樣，DeepSeek 聲稱 V4 的性能足以媲美市面上最頂尖的模型，而成本僅為其一小部分。這對於開發者和使用該技術的公司來說是個好消息，因為這意味著他們可以按照自己的需求獲取前沿的 AI 能力，而不必擔心成本飆升。

新模型分為兩個版本，均可在 DeepSeek 官網和應用程式中使用，API 接入也已向開發者開放。V4-Pro 是一款較大的模型，專為程式碼編寫和複雜的代理（agent）任務而設計；V4-Flash 則是較小的版本，旨在提供更快的運行速度和更低的成本。兩個版本都提供推理模式，模型可以仔細解析使用者的提示詞，並展示解決問題的每一個步驟。

對於 V4-Pro，DeepSeek 的收費標準為每百萬輸入 token 1.74 美元，每百萬輸出 token 3.48 美元，僅為 OpenAI 和 Anthropic 同類模型成本的一小部分。V4-Flash 甚至更便宜，每百萬輸入 token 約 0.14 美元，每百萬輸出 token 約 0.28 美元，使其成為目前最便宜的頂級模型之一。這將使其成為構建應用程式時極具吸引力的模型。

在性能方面，V4 較 R1 有了巨大的飛躍，這或許並不令人意外——它似乎是幾乎所有最新大型 AI 模型的強力替代方案。根據公司分享的結果，在主要基準測試中，DeepSeek V4-Pro 能與領先的閉源模型競爭，性能與 Anthropic 的 Claude-Opus-4.6、OpenAI 的 GPT-5.4 以及 Google 的 Gemini-3.1 相當。與阿里巴巴的 Qwen-3.5 或智譜 AI 的 GLM-5.1 等其他開源模型相比，DeepSeek V4 在程式碼、數學和 STEM 問題上均超越了它們，成為有史以來最強大的開源模型之一。

DeepSeek 還表示，V4-Pro 在代理程式碼任務的基準測試中名列最強開源模型之列，並在其他衡量執行多步驟問題能力的測試中表現出色。根據公司分享的基準測試結果，其寫作能力和世界知識也處於領先地位。

在隨模型發佈的技術報告中，DeepSeek 分享了一項針對 85 位資深開發者的內部調查結果：超過 90% 的人將 V4-Pro 列為其處理程式碼任務的首選模型。

DeepSeek 表示，它專門針對 Claude Code、OpenClaw 和 CodeBuddy 等流行的代理框架優化了 V4。

2. 它實現了一種全新的記憶效率方法。

V4 的關鍵創新之一是其長上下文窗口（模型一次可以處理的文本量）。兩個版本都能處理 100 萬個 token，這足以容納《魔戒》三部曲和《哈比人》的全部內容。該公司表示，這種上下文窗口大小現在已成為所有 DeepSeek 服務的預設配置，並與 Gemini 和 Claude 等模型的尖端版本所提供的規格相匹配。

但重要的不僅在於 DeepSeek 實現了這一跨越，還在於它是如何做到的。V4 對公司之前的模型架構進行了重大調整——特別是在注意力機制（attention mechanism）方面，這是 AI 模型幫助理解提示詞各部分之間關係的功能。隨著提示詞文本變長，這些比對的成本會大幅增加，使注意力機制成為長上下文模型的主要瓶頸之一。

DeepSeek 的創新在於讓模型對其關注的內容更具選擇性。V4 不再將所有先前的文本視為同等重要，而是壓縮舊資訊並專注於當前最可能重要的部分，同時仍完整保留鄰近的文本，以免遺漏重要細節。

DeepSeek 表示，這大幅降低了使用長上下文的成本。在 100 萬 token 的上下文中，V4-Pro 僅使用其前代模型 V3.2 所需運算能力的 27%，同時將記憶體佔用降至 10%。V4-Flash 的降幅甚至更大，僅使用 10% 的運算能力和 7% 的記憶體。在實踐中，這可以降低構建需要處理海量資料工具的成本，例如可以閱讀整個程式碼庫的 AI 程式碼助手，或是在分析長篇文檔檔案時不會不斷忘記前文的研究代理。

DeepSeek 對長上下文窗口的興趣並非始於 V4。在過去的一年半裡，該公司低調發表了一系列論文，探討 AI 模型如何「記住」資訊，並嘗試使用壓縮和數學技術來擴展 AI 模型實際能處理的範疇。

3. 它標誌著擺脫 Nvidia 艱難道路上的第一步。

V4 是 DeepSeek 首款針對中國國產晶片（如華為昇騰 Ascend）進行優化的模型——此舉使這次發佈成為一項測試，檢驗中國本土 AI 產業是否能開始減輕對美國晶片巨頭 Nvidia 的依賴。

這在很大程度上是預料之中的，因為《The Information》本月早些時候報導稱，DeepSeek 並未向 Nvidia 和 AMD 等美國晶片製造商提供 V4 的早期訪問權限，儘管提供發佈前訪問權限是為了讓晶片商在產品上市前優化對新模型的支援。據報導，該公司僅向中國晶片製造商提供了早期訪問權限。

週五，華為表示其基於昇騰 950 系列的昇騰超節點（supernode）產品將支援 DeepSeek V4。這意味著想要運行自己修改版 DeepSeek V4 的公司和個人將能輕鬆使用華為晶片。

路透社此前報導稱，中國政府官員建議 DeepSeek 在其訓練過程中整合華為晶片。這種壓力符合中國產業政策的更廣泛模式：戰略部門通常被推動，有時甚至是實質要求，以符合國家自給自足的目標。但在 AI 領域，這種緊迫性尤為突出。自 2022 年以來，美國的出口管制切斷了中國公司獲取 Nvidia 最強大晶片的管道，隨後還限制了獲取降級版中國市場專供晶片的管道。北京方面的回應是加速推動國產 AI 技術棧的發展，從晶片到軟體框架再到資料中心。

據報導，中國當局一直在推動資料中心和公共運算項目使用更多國產晶片，手段包括禁止使用外國製造晶片、採購配額，以及要求將 Nvidia 晶片與華為、寒武紀等公司的中國替代方案搭配使用。

儘管如此，取代 Nvidia 並非簡單地更換晶片。Nvidia 的優勢不僅在於晶片，還在於開發者多年來圍繞其建立的軟體生態系統。轉向華為昇騰晶片意味著需要改編模型程式碼、重建工具，並證明圍繞這些晶片構建的系統足夠穩定，可以投入正式使用。

需要明確的是，DeepSeek 似乎並未完全脫離 Nvidia。該公司的技術報告顯示，它正在使用中國晶片來運行模型的「推理」（即當有人要求模型完成任務時）。但清華大學計算機科學教授劉知遠告訴《麻省理工科技評論》，DeepSeek 似乎僅將 V4 的部分「訓練」過程適配了中國晶片。報告並未說明某些關鍵的長上下文功能是否已適配國產晶片，因此劉教授認為 V4 可能主要仍是在 Nvidia 晶片上訓練的。多位因議題政治敏感性而要求匿名的消息人士告訴《麻省理工科技評論》，中國晶片的性能目前仍不如 Nvidia 晶片，但更適合推理而非訓練。

DeepSeek 還將 V4 的未來成本與硬體轉型掛鉤。該公司表示，在華為昇騰 950 超節點於今年下半年開始大規模出貨後，V4-Pro 的價格可能會大幅下降。

如果這一策略奏效，V4 可能成為一個早期信號，表明中國正在成功構建一套平行的 AI 基礎設施。

— MIT Technology Review

其他收藏 · 0

你的個人知識庫

DeepSeek 新模型 V4 值得關注的三大理由

1. 它為開源模型開闢了新天地。

2. 它實現了一種全新的記憶效率方法。

3. 它標誌著擺脫 Nvidia 艱難道路上的第一步。