Show HN：在瀏覽器中透過 Gemma 4 E2B 實現提示詞轉 Excalidraw 圖表展示

Hacker News·大約 13 小時前

本演示展示了在桌面版 Chrome 中透過 WebGPU 完全在瀏覽器內運行的 Gemma 4 E2B，能將描述轉換為 Excalidraw 圖表。它利用 TurboQuant 演算法將 KV 快取壓縮約 2.4 倍，使長對話能放入 GPU 記憶體並達到每秒 30 個標記以上的運行速度。

draw

背景

這項名為 TurboQuant 的技術展示了如何在瀏覽器中直接運行 Gemma 4 E2B 模型，並將使用者的文字指令即時轉化為 Excalidraw 圖表。該系統的核心在於其高效的壓縮演算法，能將 KV 快取壓縮約 2.4 倍，並透過 WebGPU 計算著色器實現每秒超過 30 個標記的生成速度，讓整個 LLM 推論過程完全在本地端完成。

社群觀點

在 Hacker News 的討論中，技術實作的細節與瀏覽器相容性成為首要焦點。開發者解釋了為何目前僅支援桌面版 Chrome 134 以上版本，主因在於該專案高度依賴 WebGPU 的子群組擴展功能來進行矩陣乘法與 Softmax 的運算優化。雖然 Firefox 已支援 WebGPU，但尚未實作關鍵的子群組洗牌指令，這也是目前多數網頁端 LLM 框架（如 MLC WebLLM）無法在 Firefox 運行的技術瓶頸。此外，行動裝置瀏覽器對記憶體的嚴格限制，也使得這類需要約 3GB 記憶體的模型難以在手機上順利運作。

關於模型輸出的形式，社群對其「緊湊代碼」的設計感到好奇。開發者指出，模型並非直接生成數千個標記的原始 Excalidraw JSON，而是輸出僅約 50 個標記的簡化指令，再由前端邏輯解析並轉換為圖表。這種做法大幅降低了推論時間與資源消耗，提升了使用者體驗。然而，即便推論速度極快，模型檔案的大小仍引發了關於網路頻寬與快取機制的熱烈討論。

許多使用者反映，這類網頁端 AI 應用最令人困擾的是必須重複下載數 GB 的模型檔案。由於瀏覽器基於安全性考量，會根據來源網域對快取進行隔離，這意味著即使不同網站使用相同的模型，使用者也無法共享已下載的資源。社群成員對此提出了多種構想，包括建立基於檔案雜湊值的共享快取機制、開發瀏覽器層級的模型管理員，甚至是利用 WebTorrent 進行點對點傳輸以減輕伺服器負擔。雖然有熱心網友迅速搭建了臨時的 CDN 試圖加速下載，但根本性的跨網域快取問題在現行瀏覽器安全架構下仍難以解決。

儘管存在硬體相容性與下載門檻，社群對此專案的創新性仍給予高度評價。部分使用者在特定硬體（如 GTX 1060）上遇到了執行錯誤，開發者也積極回應並提供影片展示，證明了在瀏覽器中實現複雜圖表生成的潛力。討論中亦有成員詢問是否嘗試過 Qwen 等其他模型，顯示出開發者社群對於在網頁端部署各類輕量化模型的濃厚興趣。

你的個人知識庫

Show HN：在瀏覽器中透過 Gemma 4 E2B 實現提示詞轉 Excalidraw 圖表展示

背景

社群觀點

延伸閱讀