newsence
Ollama 預覽版現已支援 Apple Silicon 上的 MLX 框架

Ollama 預覽版現已支援 Apple Silicon 上的 MLX 框架

Hacker News·6 天前

我們正在預覽於 Apple Silicon 上執行 Ollama 的最快方式,由 Apple 的 MLX 機器學習框架驅動,這為 macOS 上的編碼代理與自動化任務解鎖了全新的效能表現。

背景

Ollama 官方宣布在 Apple Silicon 平台上正式導入 Apple 的 MLX 機器學習框架預覽版,旨在深度優化 Mac 用戶的本地推論體驗。透過 MLX 對統一記憶體架構的支援,新版本不僅顯著提升了生成速度與首字反應時間,更引入了 NVIDIA 的 NVFP4 格式以兼顧模型精度與記憶體效率,並針對編碼代理工具優化了快取機制。

社群觀點

針對 Ollama 轉向 MLX 框架,Hacker News 社群展開了關於本地推論前景與實用性的激烈辯論。支持者認為,在裝置端執行大型語言模型是未來的必然趨勢,這不僅能解決資料中心的供應瓶頸與高昂電費,更能保障隱私安全,避免使用雲端服務時被追蹤數據或淪為訓練素材。部分開發者分享了實際應用經驗,例如利用 M1 晶片搭配 MLX 框架執行 Qwen 模型進行日誌分析與知識圖譜構建,認為在特定任務下,本地模型的表現已足夠令人滿意。

然而,質疑聲浪同樣強大。反對者指出,雖然本地模型不斷進步,但雲端模型在運算吞吐量與智慧水準上始終保持領先,兩者將會同步成長而非互相取代。有觀點認為,目前本地小型模型的表現往往僅止於五分鐘的熱度測試,一旦進入複雜的開發場景,其回應品質仍難以與 Claude 或 GPT 等頂尖模型匹敵。此外,硬體門檻也是一大爭議點,儘管技術有所突破,但執行高品質模型仍需 32GB 以上的記憶體,這讓許多僅持有 16GB 設備的用戶望洋興嘆。

社群中也出現了對開源模型生態的憂慮。有討論提到,目前優質開源模型的湧現可能只是大企業互相制衡的產物,一旦市場泡沫破裂或創投要求獲利,這些免費資源可能會迅速枯竭。特別是中國 AI 實驗室因受限於晶片禁令,傾向於透過蒸餾技術發布開源模型來獲取關注,這種生態位階決定了本地開源模型可能長期處於追趕狀態。儘管如此,多數用戶仍對 Ollama 從原先調用 llama.cpp 轉向原生支援 MLX 表示肯定,認為這將帶來更優異的記憶體管理效率。

延伸閱讀

在討論過程中,有用戶提到除了 Ollama 之外,目前市場上還有其他支援 Turboquantization 技術的 MLX 推論引擎,例如 mlx-optiq,這類工具在效能優化上提供了不同的技術路徑。此外,針對編碼任務,社群也頻繁提及 Claude Code 與 OpenClaw 等工具與本地模型結合的可能性。

https://ollama.com/blog/mlx