Flash-MoE：在僅有 48GB RAM 的 Mac 上執行 397B 參數模型

Hacker News·14 天前

原文

Flash-MoE 是一個純 C 與 Metal 實作的推論引擎，透過直接從 SSD 串流專家權重，讓 3970 億參數的混合專家模型能在 MacBook Pro 上以每秒 4.4 個標記的速度運行。

github.com

flash moe

背景

Flash-MoE 是一個專為 Apple Silicon 平台開發的純 C 與 Metal 推論引擎，旨在讓配備有限記憶體的 MacBook 也能執行超大型模型。該專案透過 SSD 專家串流技術，成功在僅有 48GB RAM 的筆記型電腦上運行擁有 3970 億參數的 Qwen3.5-397B-A17B 模型，並在 4-bit 量化下達到每秒 4.4 個標記以上的生成速度。

社群觀點

針對這項技術突破，Hacker News 社群展開了熱烈的討論，焦點主要集中在硬體耐用性、實際效能表現以及硬體規格的極限。部分使用者對頻繁讀取 SSD 可能造成的硬體損耗表示擔憂，認為若將此技術用於高強度的長期運算，可能會縮短 Mac 內建 SSD 的壽命。然而，這項疑慮隨即遭到反駁，多位參與者指出 SSD 的損耗主要源於寫入操作，而 Flash-MoE 的機制本質上是純讀取工作負載，理論上並不會對硬體造成顯著磨損。此外，由於 Mixture-of-Experts (MoE) 架構在處理特定主題時，專家模組的切換可能具有一定的重複性，作業系統層級的快取機制能有效減少重複讀取的壓力。

在效能實測方面，已有社群成員分享在 M5 Pro 晶片（64GB RAM）上跑出了每秒 6.55 個標記的成績，證明了該引擎在最新硬體上的潛力。儘管如此，仍有評論者持保留態度，認為雖然技術展示令人印象深刻，但對於追求高吞吐量的專業用戶而言，每秒 4 個標記的速度在實際生產環境中可能仍嫌不足。更有觀點直言，若真的需要穩定的推論伺服器，購買配備充足實體記憶體的二手伺服器可能是更經濟且理性的選擇，而非在並非設計為推論伺服器的筆記型電腦上挑戰極限。

關於硬體頻寬的討論也十分深入。有使用者質疑作者宣稱的數據是否超越了硬體極限，因為一般認知中 Mac SSD 的最大頻寬約在每秒 8GB 左右，但作者的實驗數據似乎更高。對此，社群成員指出 M5 系列晶片的 SSD 速度確實有所提升，足以支撐這種高強度的資料串流。同時，也有人開始想像這種技術的延伸應用，例如在行動裝置 GPU 上實作類似的儲存串流機制，或是探討 Linux 系統是否能透過系統記憶體達成類似的效果，甚至有人打趣地提到，這或許是讓「唯讀記憶體（ROM）存放權重」這種復古概念回歸的契機。

Flash-MoE：在僅有 48GB RAM 的 Mac 上執行 397B 參數模型

背景

社群觀點

延伸閱讀