在 RTX 3090 上運行 Qwen3.5-27B 達到每秒 207 個標記的效能

Hacker News·

我們在 RTX 3090 上運行 Qwen3.5-27B 達到了每秒 207 個標記的處理速度。

背景

這篇討論源於開發者 GreenGames 分享的一項技術實驗,他們透過 C++ 與 ggml 框架,為 Qwen3.5-27B 模型構建了一套獨立的推論引擎。該實驗的核心在於利用 DFlash 投機解碼技術與 DDTree 驗證器,在單張 RTX 3090 顯示卡上實現了最高 207.6 tok/s 的生成速度,相較於傳統的自回歸解碼提升了五倍以上。這項成果試圖解決 Qwen3.5-27B 這種混合架構模型在消費級硬體上難以高效運行的痛點。

社群觀點

Hacker News 社群對此項成果的反應呈現兩極化。支持者認為這是一項令人振奮的硬體極限挑戰,特別是針對 RTX 3090 這類擁有 24GB 顯存的「平民神卡」,開發者透過 Q4_0 KV 快取壓縮與滾動緩衝區技術,成功將 128K 的超長上下文塞進單卡空間,這對於追求在地化 AI 部署的用戶具有極高的實用價值。部分留言指出,RTX 3090 目前在二手市場仍具備極高的性價比,是開發者進行本地 LLM 實驗的首選硬體,而這類針對特定架構優化的推論引擎,填補了 llama.cpp 或 vLLM 等主流框架在特定模型上的效能缺口。

然而,質疑的聲音也相當尖銳。多位資深評論者指出,該專案帶有濃厚的「AI 生成」色彩,認為其程式碼庫與說明文件可能是透過 Claude 等工具快速拼湊而成,缺乏深層的技術原創性。最核心的爭議點在於效能與品質的權衡,批評者認為 207 tok/s 僅是特定條件下的峰值數據,且該引擎目前僅支援「貪婪搜索」採樣,這會嚴重損害模型的輸出品質。雖然有觀點辯護稱投機解碼在數學上應與原始模型等價,但反對者反駁,當 KV 快取被過度壓縮至 Q4_0 且缺乏適當採樣參數時,實際生成的邏輯準確性會大幅下降,這種「犧牲品質換取速度」的做法在實際應用中可能並無意義。

此外,討論也延伸到了硬體生態的侷限性。有留言感嘆目前高效能推論依然高度依賴 CUDA,呼籲開發者應更多關注 Vulkan 或 Apple 的 Metal 框架,以打破 NVIDIA 的壟斷。對此,有意見認為 Apple 的 M 系列晶片憑藉統一記憶體架構,在運行大模型時具有天然優勢,但目前在軟體層面的優化速度仍不及 CUDA 社群。整體而言,社群雖然肯定開發者在單卡極限優化上的嘗試,但也提醒大眾應謹慎看待這類「數據驚人」的實驗專案,建議回歸 llama.cpp 等更成熟、經過廣泛驗證的開源社群貢獻。

延伸閱讀

  • z-lab Qwen3.5-27B-DFlash:該實驗參考的原始研究與模型實作。
  • Fast Inference from Transformers via Speculative Decoding:關於投機解碼技術原理的經典論文。
  • llama.cpp Pull Request #22105:社群中正試圖將類似技術整合進主流框架的相關討論。

Hacker News

相關文章

其他收藏 · 0