
加速 Gemma 4:透過多標記預測草稿模型實現更快的推理
我們正為 Gemma 4 系列發佈多標記預測草稿模型,透過使用專門的投機性解碼架構,這些草稿模型在不損害輸出品質或推理邏輯的情況下,實現了高達 3 倍的加速。
背景
Google 近期發布了 Gemma 4 系列模型的「多代幣預測」(Multi-Token Prediction, MTP)草稿模型,旨在解決大型語言模型在推論時受限於記憶體頻寬的瓶頸。透過投機採樣技術,開發者能在不犧牲輸出品質的前提下,於消費級硬體或行動裝置上獲得最高三倍的生成速度提升,進一步優化邊緣運算與工作站的響應效率。
社群觀點
在 Hacker News 的討論中,社群對於 Google 推廣 Gemma 4 MTP 技術的策略展現出兩極化的反應。部分開發者對此技術帶來的效能飛躍感到興奮,認為當生成速度突破每秒一百個代幣的門檻時,會產生一種質變的體驗,特別是在取代如 GPT-4o 等大型閉源模型進行特定任務微調時,小型模型展現了極高的實用價值。然而,也有評論者持懷疑態度,認為即便速度提升,這類小型模型在處理複雜邏輯時依然顯得力不從心,甚至被形容為「依然無用」。
針對 Google 的商業佈局,社群產生了有趣的辯論。有網友質疑 Google 為何不積極在自家 Vertex AI 雲端平台上推廣 Gemma 4 的推論服務,而是選擇將權重「扔過圍欄」讓開源社群自行處理。對此,有觀點分析這可能是為了避免與 Gemini 系列產品產生價格競爭,畢竟託管小型模型的商業效益可能不如大型模型。此外,將 Gemma 作為品牌推廣工具,讓其在各種硬體上廣泛運行,或許才是 Google 真正的戰略目標。
在技術實作層面,許多本地部署的愛好者分享了在 LM Studio 或 llama.cpp 等工具中使用 MTP 的挑戰。目前 MTP 的支援仍處於早期階段,開發者指出,要成功啟用投機採樣,草稿模型與目標模型必須在量化方式與供應商格式上高度對齊。此外,部分使用者發現視覺模型組件(mmproj)可能會干擾投機解碼的運作。社群也注意到,Gemma 4 採用的 MTP 模式與 NVIDIA Nemotron 等將 MTP 直接內置於模型架構的做法有所不同,這種架構上的差異引發了關於未來模型設計趨勢的討論。
最後,社群中不乏對技術演進的感性觀察。有資深使用者將目前的 AI 生成速度比作早期的撥接網路時代,認為從標準推論到 MTP 的加速,就像是從 300 baud 進化到 1200 baud。雖然現階段看似是巨大的進步,但隨著技術發展,未來的人們回頭看現在這種逐字蹦出的文字生成方式,或許會覺得不可思議地緩慢。
延伸閱讀
在討論串中,開發者提到了幾個關鍵的技術資源與實作進展。針對本地端部署,可以關注 llama.cpp 關於 MTP 整合的進度,特別是針對 Qwen 與 Gemma 模型的支援。此外,Google Gemma 的官方社群帳號也發布了關於 MTP 架構、KV 快取共享以及高效嵌入器技術細節的深度解析。對於想了解 Google 佈局 Gemma 模型背後邏輯的讀者,社群也推薦參考相關的分析影片以獲取更全面的視角。
相關文章