如何在本地運行 Qwen 3.5:完整指南
本文件提供了使用 Unsloth 優化的 GGUF 量化版本與 llama.cpp 在本地運行阿里巴巴全新 Qwen3.5 模型系列的全面指南。內容涵蓋了硬體需求、思考模式配置,以及針對 0.8B 到 397B 不同參數規模模型的具體推理教學。
背景
阿里巴巴近期發布了 Qwen 3.5 模型家族,涵蓋從 0.8B 到 397B 等多種參數規模,並特別強調其在長文本處理、多語言支持以及混合推理(Thinking Mode)方面的卓越表現。Unsloth 團隊隨即發布了針對該系列的優化指南,詳細說明了如何透過動態量化技術在消費級硬體上運行這些模型,並提供了不同硬體配置下的記憶體需求建議與推論參數設置。
社群觀點
在 Hacker News 的討論中,社群對於 Qwen 3.5 在中小型硬體上的實戰表現感到驚艷。許多使用者分享了在低階或舊款 GPU 上運行的成功經驗,例如有網友提到在僅有 8GB 顯存的 RTX 3050 上運行 35B-A3B 模型,其反應速度與處理編碼任務的能力非常實用。這種「小顯存跑大模型」的現象主要歸功於模型架構的優化與有效的量化技術,甚至有使用者認為 35B 模型的表現優於完全放入顯存的 4B 模型,即便部分運算需依賴系統記憶體,其推論品質的提升仍具備極高價值。
針對編碼與自動化任務,社群給予了高度評價。有開發者分享在 M4 Max 設備上使用 35B 版本處理 HTML 與 CSS 任務,其產出品質足以讓人在處理其他專案時,放心地將瑣碎的待辦事項交給模型完成。此外,9B 版本也被證實具備優異的 OCR 處理與文本格式化能力,甚至在 16GB 顯存的環境下,推論速度可達每秒 100 個 token,超越了許多線上 API 服務的體驗。這讓不少人感嘆,這是首次在消費級硬體上感受到本地模型具備真正的實用性。
然而,討論中也出現了一些技術挑戰與效能疑慮。部分使用者反映 Qwen 3.5 的推論速度似乎比前一代 Qwen 3 慢了約一半,且在特定的硬體環境(如舊款 1650 Ti)下,使用 llama.cpp 進行 GPU 加速時容易遇到記憶體分配錯誤的問題。此外,關於模型是否會陷入工具調用的無限循環,Unsloth 雖然聲稱已透過更新修復,但仍有早期使用者遇到類似狀況。對於量化版本的選擇,社群共識傾向於在 16GB 顯存環境下優先選擇 4-bit 量化的 27B 或 35B 模型,認為其邏輯推理能力已可與主流的商用模型相提並論。
延伸閱讀
在討論串中,使用者提到了幾個值得關注的工具與模型變體。除了 Unsloth 提供的動態量化 GGUF 檔案外,還有網友推薦使用 ik_llama.cpp 來獲得更好的推論速度。在模型選擇上,qwen3-coder-next 35B 被點名在編碼任務上有出色表現。此外,對於希望在 Windows 環境下更簡單運行模型的用戶,LM Studio 也是被多次提及的推薦工具。需要注意的是,目前 Qwen 3.5 的 GGUF 版本因為視覺組件(mmproj)的相容性問題,暫時無法直接在 Ollama 上運行,建議優先使用 llama.cpp 相容的後端。