Mamba-3：以推理效率為核心目標的新型狀態空間模型

Hacker News·19 天前

原文

Mamba-3 是一款以推理效率為首要目標的新型狀態空間模型，透過更具表現力的遞迴公式與複數狀態追蹤，在延遲表現上超越了 Mamba-2 以及 Llama-3.2-1B。

together.ai

mamba 3

背景

Mamba-3 是一款新型態的狀態空間模型（SSM），由卡內基美隆大學、普林斯頓大學、Cartesia AI 與 Together AI 合作開發。與前代 Mamba-2 優先考慮訓練速度的設計邏輯不同，Mamba-3 將核心目標轉向推理效率，透過更具表現力的遞歸公式、複數值狀態追蹤以及多輸入多輸出（MIMO）變體，試圖在維持固定狀態大小的同時，提升模型對資訊的壓縮與處理能力。

社群觀點

在 Hacker News 的討論中，社群對於 Mamba-3 的技術演進展現出兩極化的反應，焦點主要集中在學術術語的門檻以及模型設計目標的轉變。部分評論者對於技術文件過於艱澀的表達方式感到不滿，認為開發團隊應該使用更白話的語言來描述核心改進。例如，有意見指出，與其使用「更具表現力的遞歸公式」或「複數值狀態追蹤」等術語，不如直接說明 Mamba-3 的重點在於提升預測時的速度與效率，而非像前代那樣僅追求訓練過程的快慢。這種對「去術語化」的訴求反映出 LLM 領域在技術普及後，開發者對於溝通效率的期待。

然而，也有觀點為這種專業表述辯護，認為第一段的摘要已經清楚點出了設計初衷的轉變。支持者認為，原文精確地指出了 Mamba-3 是在犧牲部分訓練速度的前提下，換取更高的推理性能，這與單純描述「變得更快」有本質上的區別。這種設計取捨反映了當前 AI 產業的現狀：隨著後訓練階段與代理型工作流的興起，推理端的成本與延遲已成為比預訓練速度更迫切需要解決的瓶頸。

此外，社群也開始將 Mamba-3 與其他新興架構進行橫向對比。有使用者提到，期待將 Mamba-3 與 Inception 2 等文本擴散模型進行效能對比，因為後者在實際應用中已展現出極高的速度與品質。這種討論顯示出開發者社群不僅關注模型本身的架構創新，更在意這些線性架構模型在面對不同任務與硬體環境時，是否真能打破 Transformer 架構在推理端的限制，達成更優的品質與效率邊界。

延伸閱讀

留言中提到了 Inception 2，這是一款在實際應用中以速度和品質著稱的文本擴散模型，被視為衡量 Mamba-3 推理效能的潛在對照對象。

https://together.ai/blog/mamba-3