DeepSeek-V4:邁向高效百萬標記上下文智能
我們推出了 DeepSeek-V4 系列預覽版,包含兩款強大的混合專家語言模型,兩者均支援百萬標記的上下文長度,並在推理與編碼任務中展現出頂尖性能。
背景
DeepSeek 官方正式發布了 DeepSeek-V4 系列模型,包含擁有 1.6 兆參數的 Pro 版本以及 284 億參數的 Flash 版本。該系列採用混合專家模型架構,支援高達一百萬個標記的上下文長度,並透過大規模預訓練與獨特的兩階段後訓練流程,強化了模型在編碼、推理與代理任務上的表現,旨在挑戰當前頂尖的閉源模型地位。
社群觀點
Hacker News 社群對於 DeepSeek-V4 的發布展現出高度關注,普遍認為 DeepSeek 的研發節奏極快,目前與產業領先者的差距已縮短至僅約兩個月的時間。討論的核心集中在該模型的成本優勢與架構創新。在定價方面,參與者指出 Pro 版本的輸出成本明顯低於 GLM 或 Kimi 等競爭對手,而 Flash 版本更是極具競爭力。與近期發布的 GPT-5.5 相比,DeepSeek 的定價策略被視為一種「清流」,有網友估算即使在高強度使用的情況下,DeepSeek 的成本可能僅為 GPT-5.5 的一半,這對於需要處理大量標記的開發者而言具有極大的吸引力。
在技術層面上,社群成員特別提到了 DeepSeek 在神經網路架構上的優化,尤其是其採用的流形約束超連接殘差設計。這種架構創新被認為是模型能實現高效能的關鍵因素,雖然相關論文在數月前發布時並未引起廣泛討論,但隨著 V4 的推出,其技術價值重新受到重視。此外,關於模型命名與定位的轉變也引起了討論,網友觀察到過往代表推理能力的 R 系列似乎已整合進 V4 系列中,這反映了當前大模型發展的趨勢,即推理能力已成為標準配置,而非獨立的產品線。
儘管對技術規格感到興奮,社群中仍存在謹慎的聲音。部分評論者建議不要盲目相信官方提供的基準測試數據,而應等待第三方實測結果,以確認其在實際應用中是否真能與一線模型並駕齊驅。同時,DeepSeek 作為開源權重模型的強勢表現,也引發了關於產業競爭與監管的討論,有觀點認為這正是為何部分閉源模型廠商傾向於推動限制開源權重模型的原因。隨著量化版本的預期發布,社群對其在本地部署的潛力抱持高度期待。
延伸閱讀
留言中提到的技術背景與參考資料包括:
- 關於流形約束超連接(manifold-constrained hyper-connections, mHC)的學術論文,該技術為 DeepSeek-V4 架構優化的核心。
- DeepSeek 官方 API 定價文件,詳細列出了 Pro 與 Flash 版本的標記成本。
相關文章
其他收藏 · 0