Show HN:在瀏覽器中透過 Gemma 4 E2B 實現提示詞轉 Excalidraw 圖表展示

Hacker News·

本演示展示了在桌面版 Chrome 中透過 WebGPU 完全在瀏覽器內運行的 Gemma 4 E2B,能將描述轉換為 Excalidraw 圖表。它利用 TurboQuant 演算法將 KV 快取壓縮約 2.4 倍,使長對話能放入 GPU 記憶體並達到每秒 30 個標記以上的運行速度。

背景

這項名為 TurboQuant 的技術展示了如何在瀏覽器中直接運行 Gemma 4 E2B 模型,並將使用者的文字指令即時轉化為 Excalidraw 圖表。該系統的核心在於其高效的壓縮演算法,能將 KV 快取壓縮約 2.4 倍,並透過 WebGPU 計算著色器實現每秒超過 30 個標記的生成速度,讓整個 LLM 推論過程完全在本地端完成。

社群觀點

在 Hacker News 的討論中,技術實作的細節與瀏覽器相容性成為首要焦點。開發者解釋了為何目前僅支援桌面版 Chrome 134 以上版本,主因在於該專案高度依賴 WebGPU 的子群組擴展功能來進行矩陣乘法與 Softmax 的運算優化。雖然 Firefox 已支援 WebGPU,但尚未實作關鍵的子群組洗牌指令,這也是目前多數網頁端 LLM 框架(如 MLC WebLLM)無法在 Firefox 運行的技術瓶頸。此外,行動裝置瀏覽器對記憶體的嚴格限制,也使得這類需要約 3GB 記憶體的模型難以在手機上順利運作。

關於模型輸出的形式,社群對其「緊湊代碼」的設計感到好奇。開發者指出,模型並非直接生成數千個標記的原始 Excalidraw JSON,而是輸出僅約 50 個標記的簡化指令,再由前端邏輯解析並轉換為圖表。這種做法大幅降低了推論時間與資源消耗,提升了使用者體驗。然而,即便推論速度極快,模型檔案的大小仍引發了關於網路頻寬與快取機制的熱烈討論。

許多使用者反映,這類網頁端 AI 應用最令人困擾的是必須重複下載數 GB 的模型檔案。由於瀏覽器基於安全性考量,會根據來源網域對快取進行隔離,這意味著即使不同網站使用相同的模型,使用者也無法共享已下載的資源。社群成員對此提出了多種構想,包括建立基於檔案雜湊值的共享快取機制、開發瀏覽器層級的模型管理員,甚至是利用 WebTorrent 進行點對點傳輸以減輕伺服器負擔。雖然有熱心網友迅速搭建了臨時的 CDN 試圖加速下載,但根本性的跨網域快取問題在現行瀏覽器安全架構下仍難以解決。

儘管存在硬體相容性與下載門檻,社群對此專案的創新性仍給予高度評價。部分使用者在特定硬體(如 GTX 1060)上遇到了執行錯誤,開發者也積極回應並提供影片展示,證明了在瀏覽器中實現複雜圖表生成的潛力。討論中亦有成員詢問是否嘗試過 Qwen 等其他模型,顯示出開發者社群對於在網頁端部署各類輕量化模型的濃厚興趣。

延伸閱讀

  • TurboQuant-WASM:該演算法的 WASM+SIMD 實作版本,用於 CPU 端的向量搜尋。
  • 專案展示影片:開發者提供的實際運行效果演示。
  • Ephemeral CDN:社群成員為此類實驗性專案搭建的臨時加速下載服務。

Hacker News

相關文章

其他收藏 · 0