Holo3：突破電腦操作領域的新前沿

Huggingface·4 天前

我們自豪地推出 Holo3，這是一款全新的電腦操作尖端模型，在 OSWorld 基準測試中取得了 78.85% 的成績，同時僅以 10B 活耀參數維持了極高的成本效益。

Holo3：突破電腦操作的新境界

我們自豪地推出 Holo3，這是我們對「自主企業」（Autonomous Enterprise）願景的最新演進。Holo3-122B-A10B 在 OSWorld-Verified 基準測試中獲得了 78.85% 的評分，在領先的桌面電腦操作基準測試中為業界樹立了新的技術標竿。

Holo3 不僅僅是基準測試的領導者，它是為生產環境而設計的。利用我們的代理飛輪（agentic flywheel）構建，它經過訓練，可以在合成的企業環境中執行真實世界的任務流程。這不僅確保了 Holo3 在當今商業場景中的卓越表現，更為未來代理人能自主導航幾乎任何數位環境奠定了基礎。

最重要的是，Holo3 僅憑 10B 個活躍參數（總計 122B）就實現了這一目標，其成本僅為 GPT 5.4 或 Opus 4.6 等大型專有模型的一小部分。所有模型均可透過我們的推論 API 取得。Holo3-35B-A3B 的權重已在 Hugging Face 上以 Apache2 許可證開放，並可透過我們推論 API 的免費層級自由存取。

代理學習飛輪 (The Agentic Learning Flywheel)

使 Holo3 脫穎而出的是其專門的訓練流水線——一個旨在磨練兩大核心代理支柱（感知與決策）的持續回饋循環。

我們的訓練飛輪旨在透過標註範例教導模型如何執行特定任務，同時在幾乎無限多樣的使用者介面中培養通用技能。以下是我們構建世界級電腦操作模型的方法：

合成導航數據：利用人類和生成的指令，我們生成特定場景的導航範例。
域外增強 (Out-of-Domain Augmentation)：我們透過程式化擴展場景並增強數據，確保 Holo3 能夠處理意外情況。
精選強化學習：每個數據樣本都經過精心策劃，並透過利用先進數據過濾和強化學習的流水線進行攝取，以實現性能最大化。

除了原始分數外，OSWorld 的結果也為我們的學習飛輪提供了決定性的概念驗證。為了驗證其對真實商業應用的可遷移性，我們創建了「合成環境工廠」（Synthetic Environment Factory）。

合成環境工廠與 H 企業基準測試

這個專有工廠重現了企業系統的現實情況，也是鍛造 Holo3 的訓練場之一。我們的環境是使用編碼代理自動構建的，這些代理根據場景規格從頭開始編寫網站程式，產生難度各異的可驗證任務，並透過驗證腳本進行端到端驗證。

為了衡量對真實世界的準備程度，我們還設計了 H 企業基準測試（H Corporate Benchmarks），這是一套專門的評估套件，包含 486 個跨越 4 個類別的現實多步驟任務：電子商務、商業軟體、協作以及各種多應用程式設置。

該基準測試涵蓋了完整的複雜度光譜：從集中的單一應用程式任務，到反映實際工作方式的長週期、多應用程式工作流。在難度最高的一端（多應用程式），任務要求代理同時協調多個系統的信息——例如，從 PDF 中檢索設備價格，對照每位員工的剩餘預算進行交叉引用，並自主向每個人發送個性化的批准或拒絕電子郵件。這類任務不僅需要準確的計算和文件解析，還需要跨應用程式持續進行多步驟推理，且不丟失狀態或意圖。

為訓練 Holo3 創建的合成環境示例：

在下方的結果中，我們看到 Holo3 在單一應用程式基準測試中超越了競爭對手。Holo3 與基礎 Qwen3.5 模型之間的性能差異反映了我們代理學習飛輪的影響。透過實現比參數數量顯著更多的模型更高的成功率，同時保持相同的定位和接地（grounding）標準，Holo3 展示了這種專門訓練的真正量級。

邁向通用代理

Holo3 是一個里程碑，但不是終點。透過構建一個能夠在客戶數位平台內進行觀察、推理和行動的系統，我們正在讓「自主企業」成為現實。

隨著我們的「合成環境工廠」不斷演進，我們的代理正在學習處理日益複雜的任務。雖然今天的 Holo3 已經精通介面操作，但我們已經在致力於下一個前沿：適應性代理（Adaptive Agency），屆時我們的模型不僅會使用已知的工具，還能即時自主學習導航全新的、客製化的企業軟體。

Holo3：突破電腦操作領域的新前沿

Holo3：突破電腦操作的新境界

代理學習飛輪 (The Agentic Learning Flywheel)

合成環境工廠與 H 企業基準測試

邁向通用代理

本文提到的模型 1

Holotron-12B - 高吞吐量電腦操作代理

H Company 的新 Holo2 模型在 UI 定位方面取得領先

社群

本文提到的模型 1