
Holo3:突破電腦操作領域的新前沿
我們自豪地推出 Holo3,這是一款全新的電腦操作尖端模型,在 OSWorld 基準測試中取得了 78.85% 的成績,同時僅以 10B 活耀參數維持了極高的成本效益。
Holo3:突破電腦操作的新境界

我們自豪地推出 Holo3,這是我們對「自主企業」(Autonomous Enterprise)願景的最新演進。Holo3-122B-A10B 在 OSWorld-Verified 基準測試中獲得了 78.85% 的評分,在領先的桌面電腦操作基準測試中為業界樹立了新的技術標竿。
Holo3 不僅僅是基準測試的領導者,它是為生產環境而設計的。利用我們的代理飛輪(agentic flywheel)構建,它經過訓練,可以在合成的企業環境中執行真實世界的任務流程。這不僅確保了 Holo3 在當今商業場景中的卓越表現,更為未來代理人能自主導航幾乎任何數位環境奠定了基礎。
最重要的是,Holo3 僅憑 10B 個活躍參數(總計 122B)就實現了這一目標,其成本僅為 GPT 5.4 或 Opus 4.6 等大型專有模型的一小部分。所有模型均可透過我們的推論 API 取得。Holo3-35B-A3B 的權重已在 Hugging Face 上以 Apache2 許可證開放,並可透過我們推論 API 的免費層級自由存取。
代理學習飛輪 (The Agentic Learning Flywheel)
使 Holo3 脫穎而出的是其專門的訓練流水線——一個旨在磨練兩大核心代理支柱(感知與決策)的持續回饋循環。
我們的訓練飛輪旨在透過標註範例教導模型如何執行特定任務,同時在幾乎無限多樣的使用者介面中培養通用技能。以下是我們構建世界級電腦操作模型的方法:
- 合成導航數據:利用人類和生成的指令,我們生成特定場景的導航範例。
- 域外增強 (Out-of-Domain Augmentation):我們透過程式化擴展場景並增強數據,確保 Holo3 能夠處理意外情況。
- 精選強化學習:每個數據樣本都經過精心策劃,並透過利用先進數據過濾和強化學習的流水線進行攝取,以實現性能最大化。
除了原始分數外,OSWorld 的結果也為我們的學習飛輪提供了決定性的概念驗證。為了驗證其對真實商業應用的可遷移性,我們創建了「合成環境工廠」(Synthetic Environment Factory)。
合成環境工廠與 H 企業基準測試
這個專有工廠重現了企業系統的現實情況,也是鍛造 Holo3 的訓練場之一。我們的環境是使用編碼代理自動構建的,這些代理根據場景規格從頭開始編寫網站程式,產生難度各異的可驗證任務,並透過驗證腳本進行端到端驗證。
為了衡量對真實世界的準備程度,我們還設計了 H 企業基準測試(H Corporate Benchmarks),這是一套專門的評估套件,包含 486 個跨越 4 個類別的現實多步驟任務:電子商務、商業軟體、協作以及各種多應用程式設置。
該基準測試涵蓋了完整的複雜度光譜:從集中的單一應用程式任務,到反映實際工作方式的長週期、多應用程式工作流。在難度最高的一端(多應用程式),任務要求代理同時協調多個系統的信息——例如,從 PDF 中檢索設備價格,對照每位員工的剩餘預算進行交叉引用,並自主向每個人發送個性化的批准或拒絕電子郵件。這類任務不僅需要準確的計算和文件解析,還需要跨應用程式持續進行多步驟推理,且不丟失狀態或意圖。
為訓練 Holo3 創建的合成環境示例:

在下方的結果中,我們看到 Holo3 在單一應用程式基準測試中超越了競爭對手。Holo3 與基礎 Qwen3.5 模型之間的性能差異反映了我們代理學習飛輪的影響。透過實現比參數數量顯著更多的模型更高的成功率,同時保持相同的定位和接地(grounding)標準,Holo3 展示了這種專門訓練的真正量級。

邁向通用代理
Holo3 是一個里程碑,但不是終點。透過構建一個能夠在客戶數位平台內進行觀察、推理和行動的系統,我們正在讓「自主企業」成為現實。
隨著我們的「合成環境工廠」不斷演進,我們的代理正在學習處理日益複雜的任務。雖然今天的 Holo3 已經精通介面操作,但我們已經在致力於下一個前沿:適應性代理(Adaptive Agency),屆時我們的模型不僅會使用已知的工具,還能即時自主學習導航全新的、客製化的企業軟體。
本文提到的模型 1
更多來自此作者的內容

Holotron-12B - 高吞吐量電腦操作代理

H Company 的新 Holo2 模型在 UI 定位方面取得領先
社群
· 註冊或登入以發表評論