如何在本地運行 Qwen 3.5：完整指南

Hacker News·29 天前

本文件提供了使用 Unsloth 優化的 GGUF 量化版本與 llama.cpp 在本地運行阿里巴巴全新 Qwen3.5 模型系列的全面指南。內容涵蓋了硬體需求、思考模式配置，以及針對 0.8B 到 397B 不同參數規模模型的具體推理教學。

unsloth.ai

qwen3

背景

阿里巴巴近期發布了 Qwen 3.5 模型家族，涵蓋從 0.8B 到 397B 等多種參數規模，並特別強調其在長文本處理、多語言支持以及混合推理（Thinking Mode）方面的卓越表現。Unsloth 團隊隨即發布了針對該系列的優化指南，詳細說明了如何透過動態量化技術在消費級硬體上運行這些模型，並提供了不同硬體配置下的記憶體需求建議與推論參數設置。

社群觀點

在 Hacker News 的討論中，社群對於 Qwen 3.5 在中小型硬體上的實戰表現感到驚艷。許多使用者分享了在低階或舊款 GPU 上運行的成功經驗，例如有網友提到在僅有 8GB 顯存的 RTX 3050 上運行 35B-A3B 模型，其反應速度與處理編碼任務的能力非常實用。這種「小顯存跑大模型」的現象主要歸功於模型架構的優化與有效的量化技術，甚至有使用者認為 35B 模型的表現優於完全放入顯存的 4B 模型，即便部分運算需依賴系統記憶體，其推論品質的提升仍具備極高價值。

針對編碼與自動化任務，社群給予了高度評價。有開發者分享在 M4 Max 設備上使用 35B 版本處理 HTML 與 CSS 任務，其產出品質足以讓人在處理其他專案時，放心地將瑣碎的待辦事項交給模型完成。此外，9B 版本也被證實具備優異的 OCR 處理與文本格式化能力，甚至在 16GB 顯存的環境下，推論速度可達每秒 100 個 token，超越了許多線上 API 服務的體驗。這讓不少人感嘆，這是首次在消費級硬體上感受到本地模型具備真正的實用性。

然而，討論中也出現了一些技術挑戰與效能疑慮。部分使用者反映 Qwen 3.5 的推論速度似乎比前一代 Qwen 3 慢了約一半，且在特定的硬體環境（如舊款 1650 Ti）下，使用 llama.cpp 進行 GPU 加速時容易遇到記憶體分配錯誤的問題。此外，關於模型是否會陷入工具調用的無限循環，Unsloth 雖然聲稱已透過更新修復，但仍有早期使用者遇到類似狀況。對於量化版本的選擇，社群共識傾向於在 16GB 顯存環境下優先選擇 4-bit 量化的 27B 或 35B 模型，認為其邏輯推理能力已可與主流的商用模型相提並論。

延伸閱讀

在討論串中，使用者提到了幾個值得關注的工具與模型變體。除了 Unsloth 提供的動態量化 GGUF 檔案外，還有網友推薦使用 ik_llama.cpp 來獲得更好的推論速度。在模型選擇上，qwen3-coder-next 35B 被點名在編碼任務上有出色表現。此外，對於希望在 Windows 環境下更簡單運行模型的用戶，LM Studio 也是被多次提及的推薦工具。需要注意的是，目前 Qwen 3.5 的 GGUF 版本因為視覺組件（mmproj）的相容性問題，暫時無法直接在 Ollama 上運行，建議優先使用 llama.cpp 相容的後端。

https://unsloth.ai/docs/models/qwen3.5