Show HN:透過 ONNX Runtime Web 在瀏覽器中運行蘋果的 Sharp 模型

Show HN:透過 ONNX Runtime Web 在瀏覽器中運行蘋果的 Sharp 模型

Hacker News·

本專案介紹了 ml-sharp-web,這是一個基於瀏覽器的實驗場,利用蘋果的 SHARP 模型與 ONNX Runtime Web 在網頁環境中直接生成高斯潑濺(Gaussian Splats)。

背景

這篇討論源於開發者 bring-shrubbery 分享的開源專案 ml-sharp-web。該專案成功將蘋果公司近期發表的 SHARP 模型(一種單張影像生成 3D 高斯潑濺 Gaussian Splatting 的技術)移植到瀏覽器環境。透過 ONNX Runtime Web 與 WebGPU 技術,使用者無需將圖片上傳至伺服器,即可在本地端將 2D 照片轉換為可下載或預覽的 3D 模型,實現了隱私保護與即時運算的結合。

社群觀點

開發者 bring-shrubbery 指出,蘋果官方提供的參考程式碼基於 PyTorch 且依賴較重的運算環境,因此他嘗試將預測器導出為 ONNX 格式,並利用 WebGPU 進行加速。雖然模型權重檔案高達 2.4 GB,導致初次載入較慢,但在現代 Mac 設備上的推論時間僅需數秒。他強調這種「影像不離瀏覽器」的特性,為 3D 生成技術提供了極高的隱私保障。

社群對此技術展示展現了高度興趣,但也對目前的相容性與模型限制提出了實務觀察。有使用者反映該專案在 Linux 環境下的 Firefox 瀏覽器無法運行,但在 Chrome 上運作正常,這反映出 WebGPU 在跨平台支援上仍有待完善。此外,針對生成品質,部分測試者認為實際效果與官方展示存在落差,特別是在處理風景照時,生成的結果可能不如預期。

關於瀏覽器端 AI 的發展,留言者 kodablah 分享了相似的開發經驗,認為全客戶端運算的 AI 影像處理已具備可行性,但同時指出 ONNX Runtime Web 仍存在不少挑戰。例如在將 PyTorch 模型轉換為 Web 格式時,常會遇到 Conv3D 等算子在 WebGPU 上的相容性問題,開發者往往需要手動修補才能正常運作。他認為若 WebGPU 生態系能獲得更多投資,這類模型的運行效率將會大幅提升。

另一位使用者 andybak 則分享了更具想像力的應用場景。他曾利用 SHARP 模型開發出一款 VR 應用,讓使用者能快速瀏覽本地資料夾中的照片,並將其轉化為具備體積感的 3D 場景。他形容這種將平面照片「空間化」的體驗非常迷人且具有變革性。然而,也有評論者對「單張影像生成」的邏輯提出質疑,認為僅憑單一視角會導致模型必須「憑空想像」大量資訊,例如將海報中的內容誤判為 3D 實體。若能引入至少兩張照片進行對比,將能有效解決這種空間判斷的偏差。

延伸閱讀

Hacker News

相關文章

  1. Launch HN: RunAnywhere (YC W26) – 在 Apple Silicon 上實現更快的 AI 推論

    大約 2 個月前

  2. HTTP Archive 2025:生成式AI

    4 個月前

  3. Show HN:Glitchy camera – 瀏覽器中的電路彎曲相機模擬器

    3 個月前

  4. 利用 Gradio 的 gr.HTML 一次性生成各類網頁應用程式

    Huggingface · 2 個月前

  5. Show HN:Off Grid – 在您的手機上離線運行 AI 文字、圖像生成和視覺功能

    3 個月前