Ternary Bonsai：1.58 位元下的頂尖人工智慧

Hacker News·3 天前

PrismML 發表了 Ternary Bonsai，這是一個全新的 1.58 位元語言模型系列，其記憶體占用空間比標準 16 位元模型小約 9 倍，同時在邊緣裝置上保持高準確度與效能。

背景

PrismML 近期發表了名為 Ternary Bonsai 的全新三進制語言模型系列，採用 1.58 位元（1.58-bit）權重表示法，旨在極度受限的記憶體環境中維持高準確度。該系列包含 8B、4B 與 1.7B 三種參數規模，透過將權重限制在 {-1, 0, +1} 三種狀態，成功將模型體積縮減至標準 16 位元模型的九分之一，並在多項基準測試中展現出超越同級參數規模模型的性能。

社群觀點

Hacker News 的討論主要圍繞在三進制模型的實際效能增益與基準測試的公平性。部分評論者指出，PrismML 在對比測試中選擇與未經量化的 16 位元模型進行比較，這在某種程度上誇大了其體積優勢。雖然 Bonsai 模型在絕對性能上確實出色，但如果與經過 4 位元或 6 位元量化的競爭對手相比，其「每位元情報量」的領先幅度可能會縮小。支持者則反駁，量化通常會導致性能下降，而 Bonsai 作為原生三進制模型，在極小體積下仍能維持邏輯連貫性，這對於邊緣運算設備具有極高的商業價值。

在硬體實作方面，社群對 1.58 位元架構帶來的運算效率提升感到興奮。由於三進制權重在推論時不需要進行複雜的乘法運算，理論上可以在更簡單、更便宜的硬體上運行。有開發者分享了在 Apple M4 Pro 晶片上達到每秒 82 個標記（tokens/sec）的驚人數據，這比傳統模型快了約五倍。然而，也有觀點提醒，雖然邏輯與速度表現優異，但受限於物理體積，這類模型在知識儲存上存在天花板。留言指出，幾 GB 的空間難以容納全世界的知識，因此模型容易出現一本正經胡說八道的幻覺現象，或許更適合適合作為特定任務微調的基礎模型。

此外，社群對於大型 AI 實驗室尚未大規模採用此技術感到好奇。有人懷疑這種極度壓縮的技術在擴展至千億級參數（100B+）時是否仍能保持穩定。目前的討論多集中在 8B 以下的規模，對於更大規模的三進制模型是否能突破現有的帕累托前沿（Pareto frontier）仍持觀望態度。部分使用者在實際測試後反映，Bonsai 8B 在處理特定語意時顯得過於「字面化」，例如在詢問相似名稱時會不斷重複同一個名字，顯示出極度壓縮可能對語意多樣性造成的副作用。

延伸閱讀

在討論串中，有開發者提供了針對 Ternary Bonsai 8B 的第三方基準測試報告，對比了 Qwen 3.5 系列在不同體積下的準確度表現。此外，PrismML 官方也釋出了專為該模型優化的 llama.cpp 分支版本，讓使用者能在具備 RTX 3090 等顯示卡的環境下進行本地部署測試。針對 MMLU-Redux 基準測試的品質問題，留言中也附上了相關的 GitHub 原始碼連結，探討測試題目是否過於陳舊而影響評估結果。

— Hacker News

其他收藏 · 0

你的個人知識庫

Ternary Bonsai：1.58 位元下的頂尖人工智慧

背景

社群觀點

延伸閱讀