Ollama 預覽版現已支援 Apple Silicon 上的 MLX 框架

Hacker News·6 天前

我們正在預覽於 Apple Silicon 上執行 Ollama 的最快方式，由 Apple 的 MLX 機器學習框架驅動，這為 macOS 上的編碼代理與自動化任務解鎖了全新的效能表現。

背景

Ollama 官方宣布在 Apple Silicon 平台上正式導入 Apple 的 MLX 機器學習框架預覽版，旨在深度優化 Mac 用戶的本地推論體驗。透過 MLX 對統一記憶體架構的支援，新版本不僅顯著提升了生成速度與首字反應時間，更引入了 NVIDIA 的 NVFP4 格式以兼顧模型精度與記憶體效率，並針對編碼代理工具優化了快取機制。

社群觀點

針對 Ollama 轉向 MLX 框架，Hacker News 社群展開了關於本地推論前景與實用性的激烈辯論。支持者認為，在裝置端執行大型語言模型是未來的必然趨勢，這不僅能解決資料中心的供應瓶頸與高昂電費，更能保障隱私安全，避免使用雲端服務時被追蹤數據或淪為訓練素材。部分開發者分享了實際應用經驗，例如利用 M1 晶片搭配 MLX 框架執行 Qwen 模型進行日誌分析與知識圖譜構建，認為在特定任務下，本地模型的表現已足夠令人滿意。

然而，質疑聲浪同樣強大。反對者指出，雖然本地模型不斷進步，但雲端模型在運算吞吐量與智慧水準上始終保持領先，兩者將會同步成長而非互相取代。有觀點認為，目前本地小型模型的表現往往僅止於五分鐘的熱度測試，一旦進入複雜的開發場景，其回應品質仍難以與 Claude 或 GPT 等頂尖模型匹敵。此外，硬體門檻也是一大爭議點，儘管技術有所突破，但執行高品質模型仍需 32GB 以上的記憶體，這讓許多僅持有 16GB 設備的用戶望洋興嘆。

社群中也出現了對開源模型生態的憂慮。有討論提到，目前優質開源模型的湧現可能只是大企業互相制衡的產物，一旦市場泡沫破裂或創投要求獲利，這些免費資源可能會迅速枯竭。特別是中國 AI 實驗室因受限於晶片禁令，傾向於透過蒸餾技術發布開源模型來獲取關注，這種生態位階決定了本地開源模型可能長期處於追趕狀態。儘管如此，多數用戶仍對 Ollama 從原先調用 llama.cpp 轉向原生支援 MLX 表示肯定，認為這將帶來更優異的記憶體管理效率。

延伸閱讀

在討論過程中，有用戶提到除了 Ollama 之外，目前市場上還有其他支援 Turboquantization 技術的 MLX 推論引擎，例如 mlx-optiq，這類工具在效能優化上提供了不同的技術路徑。此外，針對編碼任務，社群也頻繁提及 Claude Code 與 OpenClaw 等工具與本地模型結合的可能性。

https://ollama.com/blog/mlx