Ternary Bonsai:1.58 位元下的頂尖人工智慧

Ternary Bonsai:1.58 位元下的頂尖人工智慧

Hacker News·

PrismML 發表了 Ternary Bonsai,這是一個全新的 1.58 位元語言模型系列,其記憶體占用空間比標準 16 位元模型小約 9 倍,同時在邊緣裝置上保持高準確度與效能。

背景

PrismML 近期發表了名為 Ternary Bonsai 的全新三進制語言模型系列,採用 1.58 位元(1.58-bit)權重表示法,旨在極度受限的記憶體環境中維持高準確度。該系列包含 8B、4B 與 1.7B 三種參數規模,透過將權重限制在 {-1, 0, +1} 三種狀態,成功將模型體積縮減至標準 16 位元模型的九分之一,並在多項基準測試中展現出超越同級參數規模模型的性能。

社群觀點

Hacker News 的討論主要圍繞在三進制模型的實際效能增益與基準測試的公平性。部分評論者指出,PrismML 在對比測試中選擇與未經量化的 16 位元模型進行比較,這在某種程度上誇大了其體積優勢。雖然 Bonsai 模型在絕對性能上確實出色,但如果與經過 4 位元或 6 位元量化的競爭對手相比,其「每位元情報量」的領先幅度可能會縮小。支持者則反駁,量化通常會導致性能下降,而 Bonsai 作為原生三進制模型,在極小體積下仍能維持邏輯連貫性,這對於邊緣運算設備具有極高的商業價值。

在硬體實作方面,社群對 1.58 位元架構帶來的運算效率提升感到興奮。由於三進制權重在推論時不需要進行複雜的乘法運算,理論上可以在更簡單、更便宜的硬體上運行。有開發者分享了在 Apple M4 Pro 晶片上達到每秒 82 個標記(tokens/sec)的驚人數據,這比傳統模型快了約五倍。然而,也有觀點提醒,雖然邏輯與速度表現優異,但受限於物理體積,這類模型在知識儲存上存在天花板。留言指出,幾 GB 的空間難以容納全世界的知識,因此模型容易出現一本正經胡說八道的幻覺現象,或許更適合適合作為特定任務微調的基礎模型。

此外,社群對於大型 AI 實驗室尚未大規模採用此技術感到好奇。有人懷疑這種極度壓縮的技術在擴展至千億級參數(100B+)時是否仍能保持穩定。目前的討論多集中在 8B 以下的規模,對於更大規模的三進制模型是否能突破現有的帕累托前沿(Pareto frontier)仍持觀望態度。部分使用者在實際測試後反映,Bonsai 8B 在處理特定語意時顯得過於「字面化」,例如在詢問相似名稱時會不斷重複同一個名字,顯示出極度壓縮可能對語意多樣性造成的副作用。

延伸閱讀

在討論串中,有開發者提供了針對 Ternary Bonsai 8B 的第三方基準測試報告,對比了 Qwen 3.5 系列在不同體積下的準確度表現。此外,PrismML 官方也釋出了專為該模型優化的 llama.cpp 分支版本,讓使用者能在具備 RTX 3090 等顯示卡的環境下進行本地部署測試。針對 MMLU-Redux 基準測試的品質問題,留言中也附上了相關的 GitHub 原始碼連結,探討測試題目是否過於陳舊而影響評估結果。

Hacker News

相關文章

其他收藏 · 0