Flash-MoE:在僅有 48GB RAM 的 Mac 上執行 397B 參數模型
Flash-MoE 是一個純 C 與 Metal 實作的推論引擎,透過直接從 SSD 串流專家權重,讓 3970 億參數的混合專家模型能在 MacBook Pro 上以每秒 4.4 個標記的速度運行。
背景
Flash-MoE 是一個專為 Apple Silicon 平台開發的純 C 與 Metal 推論引擎,旨在讓配備有限記憶體的 MacBook 也能執行超大型模型。該專案透過 SSD 專家串流技術,成功在僅有 48GB RAM 的筆記型電腦上運行擁有 3970 億參數的 Qwen3.5-397B-A17B 模型,並在 4-bit 量化下達到每秒 4.4 個標記以上的生成速度。
社群觀點
針對這項技術突破,Hacker News 社群展開了熱烈的討論,焦點主要集中在硬體耐用性、實際效能表現以及硬體規格的極限。部分使用者對頻繁讀取 SSD 可能造成的硬體損耗表示擔憂,認為若將此技術用於高強度的長期運算,可能會縮短 Mac 內建 SSD 的壽命。然而,這項疑慮隨即遭到反駁,多位參與者指出 SSD 的損耗主要源於寫入操作,而 Flash-MoE 的機制本質上是純讀取工作負載,理論上並不會對硬體造成顯著磨損。此外,由於 Mixture-of-Experts (MoE) 架構在處理特定主題時,專家模組的切換可能具有一定的重複性,作業系統層級的快取機制能有效減少重複讀取的壓力。
在效能實測方面,已有社群成員分享在 M5 Pro 晶片(64GB RAM)上跑出了每秒 6.55 個標記的成績,證明了該引擎在最新硬體上的潛力。儘管如此,仍有評論者持保留態度,認為雖然技術展示令人印象深刻,但對於追求高吞吐量的專業用戶而言,每秒 4 個標記的速度在實際生產環境中可能仍嫌不足。更有觀點直言,若真的需要穩定的推論伺服器,購買配備充足實體記憶體的二手伺服器可能是更經濟且理性的選擇,而非在並非設計為推論伺服器的筆記型電腦上挑戰極限。
關於硬體頻寬的討論也十分深入。有使用者質疑作者宣稱的數據是否超越了硬體極限,因為一般認知中 Mac SSD 的最大頻寬約在每秒 8GB 左右,但作者的實驗數據似乎更高。對此,社群成員指出 M5 系列晶片的 SSD 速度確實有所提升,足以支撐這種高強度的資料串流。同時,也有人開始想像這種技術的延伸應用,例如在行動裝置 GPU 上實作類似的儲存串流機制,或是探討 Linux 系統是否能透過系統記憶體達成類似的效果,甚至有人打趣地提到,這或許是讓「唯讀記憶體(ROM)存放權重」這種復古概念回歸的契機。
延伸閱讀
- LocalLLaMA 討論串:Reddit 上針對此專案的技術細節與運行實測有更深入的交流。