AutoRound:適用於高精度低位元大型語言模型的高階量化演算法
英特爾推出了 AutoRound,這是一款先進的量化工具包,透過符號梯度下降技術與廣泛的硬體相容性,實現了大型語言模型與視覺語言模型在極低位元寬度下的高精度推論。
背景
Intel 近期發布了名為 AutoRound 的開源量化演算法,旨在提升大型語言模型(LLM)與視覺語言模型(VLM)在低位元推論時的準確度。該技術透過符號梯度下降法,在 2 到 4 位元的極低位元寬下仍能維持高性能,並廣泛支援 CPU、GPU 及多種主流推理框架如 vLLM 與 SGLang。
社群觀點
在 Hacker News 的討論中,社群對於 AutoRound 展現出的數據提升持有兩極化的態度。部分用戶注意到,相較於傳統的量化方式,AutoRound 在 Q4_K_M 格式下能將準確度從原本的 99% 提升至接近 100%,雖然數值上的差距僅在 0.1 到 0.7 個百分點之間,但從相對誤差的角度來看,這幾乎是將精準度損失減半的重大進展。然而,這種「高保真度」的數據表現也引發了強烈的質疑。有評論者指出,量化領域長期存在學術誠信問題,許多論文宣稱能保留 99.9% 以上的準確度,往往是因為測試集早已包含在模型的訓練數據中,這種在已知數據上的測試並不能反映真實的泛化能力。
針對量化對模型造成的實質損害,社群展開了深入的辯論。反對者認為量化並非毫無代價,特別是在長文本處理或處理冷門程式語言、複雜數學邏輯等分布外數據時,低位元模型往往會出現明顯的「腦損傷」現象。即便是在 FP8 格式下都難以保證 99.8% 的準確度,更遑論 4 位元量化。此外,AutoRound 雖然提升了準確度,但其量化過程所需的時間成本遠高於傳統的 RTN 模式,這種以數十倍計算時間換取微小精準度提升的權衡,在實際生產環境中是否划算仍有待商榷。
討論中也提及了量化社群近期的負面爭議,特別是針對 Google 在 TurboQuant 項目中涉及的學術不端指控。有觀點認為,部分大型機構在量化技術上存在抄襲他人成果且未正確引用,甚至在技術細節上誤導公眾的行為。這使得開發者在評估如 AutoRound 這類新演算法時,會更加謹慎地審視其背後的實驗方法與數據真實性。不過,仍有實踐者分享了正面經驗,指出透過 AutoRound 量化的模型在長文本與視覺處理任務中表現優異,且能在有限的硬體資源下維持極高的推論速度。
延伸閱讀
在討論過程中,社群成員分享了數個關鍵資源。學術方面,SignRoundV2 論文詳細介紹了該演算法的理論基礎;針對量化誠信問題,OpenReview 平台上關於 RabitQ 與 TurboQuant 的爭議討論提供了對該領域研究現狀的深度反思。在模型應用上,Hugston 平台提供了經過 AutoRound 量化的 Qwen 系列模型,展示了在 35B 參數規模下僅需約 11GB 顯存即可運行的實作案例。
相關文章