在 RTX 3090 上運行 Qwen3.5-27B 達到每秒 207 個標記的效能

Hacker News·大約 7 小時前

我們在 RTX 3090 上運行 Qwen3.5-27B 達到了每秒 207 個標記的處理速度。

背景

這篇討論源於開發者 GreenGames 分享的一項技術實驗，他們透過 C++ 與 ggml 框架，為 Qwen3.5-27B 模型構建了一套獨立的推論引擎。該實驗的核心在於利用 DFlash 投機解碼技術與 DDTree 驗證器，在單張 RTX 3090 顯示卡上實現了最高 207.6 tok/s 的生成速度，相較於傳統的自回歸解碼提升了五倍以上。這項成果試圖解決 Qwen3.5-27B 這種混合架構模型在消費級硬體上難以高效運行的痛點。

社群觀點

Hacker News 社群對此項成果的反應呈現兩極化。支持者認為這是一項令人振奮的硬體極限挑戰，特別是針對 RTX 3090 這類擁有 24GB 顯存的「平民神卡」，開發者透過 Q4_0 KV 快取壓縮與滾動緩衝區技術，成功將 128K 的超長上下文塞進單卡空間，這對於追求在地化 AI 部署的用戶具有極高的實用價值。部分留言指出，RTX 3090 目前在二手市場仍具備極高的性價比，是開發者進行本地 LLM 實驗的首選硬體，而這類針對特定架構優化的推論引擎，填補了 llama.cpp 或 vLLM 等主流框架在特定模型上的效能缺口。

然而，質疑的聲音也相當尖銳。多位資深評論者指出，該專案帶有濃厚的「AI 生成」色彩，認為其程式碼庫與說明文件可能是透過 Claude 等工具快速拼湊而成，缺乏深層的技術原創性。最核心的爭議點在於效能與品質的權衡，批評者認為 207 tok/s 僅是特定條件下的峰值數據，且該引擎目前僅支援「貪婪搜索」採樣，這會嚴重損害模型的輸出品質。雖然有觀點辯護稱投機解碼在數學上應與原始模型等價，但反對者反駁，當 KV 快取被過度壓縮至 Q4_0 且缺乏適當採樣參數時，實際生成的邏輯準確性會大幅下降，這種「犧牲品質換取速度」的做法在實際應用中可能並無意義。

此外，討論也延伸到了硬體生態的侷限性。有留言感嘆目前高效能推論依然高度依賴 CUDA，呼籲開發者應更多關注 Vulkan 或 Apple 的 Metal 框架，以打破 NVIDIA 的壟斷。對此，有意見認為 Apple 的 M 系列晶片憑藉統一記憶體架構，在運行大模型時具有天然優勢，但目前在軟體層面的優化速度仍不及 CUDA 社群。整體而言，社群雖然肯定開發者在單卡極限優化上的嘗試，但也提醒大眾應謹慎看待這類「數據驚人」的實驗專案，建議回歸 llama.cpp 等更成熟、經過廣泛驗證的開源社群貢獻。

你的個人知識庫

在 RTX 3090 上運行 Qwen3.5-27B 達到每秒 207 個標記的效能

背景

社群觀點

延伸閱讀