微軟 BitNet:可在本地 CPU 運行的 1000 億參數 1 位元模型
微軟推出 BitNet,這是一種 1000 億參數的 1 位元模型架構,旨在透過大幅降低記憶體與運算需求,讓大型語言模型能在本地 CPU 上高效運行。
背景
微軟近期發布了 BitNet 的官方推理框架 bitnet.cpp,旨在支援 1-bit 大型語言模型(LLM)在 CPU 上的高效運行。這項技術基於 2023 年發表的論文,核心概念是將模型權重簡化為三進制(-1, 0, 1),從而大幅降低記憶體需求並改變運算邏輯。
社群觀點
針對微軟宣稱 BitNet 能在本地 CPU 上運行 100B 參數模型的說法,Hacker News 社群首先指出標題存在誤導性。多位網友提醒,目前官方釋出的模型最大僅為 10B 參數,所謂的 100B 指的是推理框架的理論支援能力,而非目前已有現成的 100B 模型可供下載。這種「框架先行、模型缺席」的現狀引發了部分質疑,有評論認為如果微軟對此技術有信心,理應訓練並發布更大規模的模型來驗證其理論,而非僅提供工具後等待社群自行嘗試。
在技術層面上,社群對 1.58-bit(即三進制,log2(3) ≈ 1.58)的設計展現出濃厚興趣。參與討論的開發者指出,這種方法最迷人之處在於將傳統的矩陣乘法(matmuls)轉化為簡單的加法運算,這對通用 CPU 而言是完全不同的運算特性。若能在普通 CPU 上實現每秒 5 到 7 個 token 的推理速度,將是行動端或本地端推理的重大里程碑。然而,關於 1-bit 權重的實際效能仍有爭論,有觀點推測 100B 的 1-bit 模型在能力上可能僅等同於 30B 的 4-bit 或 8-bit 模型,最終仍需視評估測試(evals)結果而定。
此外,硬體層面的討論也相當熱烈。部分網友認為 BitNet 為客製化硬體提供了極佳機會,因為二位元加法器的硬體成本遠低於浮點運算器,這可能催生出結構更簡單、效率更高的專用推理晶片。對於目前在 Mac 等設備上運行本地模型的用戶來說,記憶體頻寬始終是效能瓶頸,BitNet 透過極致壓縮權重,確實直擊了當前本地 AI 運行的痛點。儘管如此,社群中仍存在謹慎情緒,認為在缺乏大規模預訓練模型驗證的情況下,BitNet 是否能維持足夠的智慧水準而不僅僅是運算速度快,仍有待觀察。
延伸閱讀
- bitnet.cpp GitHub 專案:微軟官方釋出的推理框架,基於 llama.cpp 進行開發。
- BitNet b1.58 論文:介紹 1.58-bit LLM 理論基礎的原始研究文件。