Show HN: Open-source browser for AI agents
Show HN: Open-source browser for AI agents...
背景
在 Hacker News 上引起熱烈討論的 Agent Browser Protocol (ABP),是一個專為 AI 代理人設計的開源 Chromium 分支。開發者 theredsix 觀察到,現有的瀏覽器自動化工具(如 Playwright 或 Puppeteer)往往讓 AI 代理人陷入與動態網頁的「競賽」中,導致模型常基於過時的頁面狀態進行推理。ABP 透過在瀏覽器引擎層級嵌入 HTTP 伺服器,將連續的網頁瀏覽行為轉化為離散的、同步的對話格式,確保 AI 在每一步操作時都能面對穩定且凍結的網頁狀態。
社群觀點
社群對 ABP 提出的「凍結 JavaScript 執行」機制給予高度評價。許多討論者指出,現有的 CDP(Chrome DevTools Protocol)架構在處理 AI 自動化時存在先天缺陷,因為 DOM 會在模型思考的過程中持續變動,導致模型點擊到已消失的元素或被突如其來的彈窗干擾。webpolis 認為,將瀏覽過程重新定義為「多模態對話循環」非常符合目前大型語言模型(LLM)的工具調用邏輯。他進一步提到,這種凍結狀態的語義雖然與標準瀏覽器不同,但能有效解決動態過濾器導致頁面重排等常見失敗案例。
關於效能與資源佔用的討論也相當有趣。giancarlostoro 提到,傳統 Chrome 實例常因長時間運行而耗盡記憶體,若能透過凍結執行來降低資源消耗,這項技術或許能應用在 AI 代理人之外的領域,例如網頁存檔工具 ArchiveBox。對此,原作者證實 ABP 在暫停階段的 CPU 使用率幾乎降至零,且開發者可以透過 REST 或 MCP 協議手動觸發暫停,這為自動化腳本提供了更精細的控制權。
在基準測試方面,ABP 宣稱在 Online Mind2Web 測試中取得了超過 90% 的高分,引發了關於測試環境與模型對比的詢問。雖然目前主流排行榜尚未更新最新的測試結果,但原作者提供了完整的重現倉庫供社群檢驗。此外,針對反爬蟲與指紋識別的疑慮,原作者解釋 ABP 同時凍結了虛擬時間與瀏覽器時鐘,除非網頁腳本調用外部 API 獲取時間,否則很難察覺到時間漂移。這種引擎層級的控制,讓 ABP 在測試中遇到的驗證碼(reCAPTCHA)頻率遠低於使用 Puppeteer Stealth 等傳統手段。
整體而言,HN 社群認為 ABP 挑戰了「我們是否真的需要 CDP 來做瀏覽器自動化」的既有思維。雖然維護一個 Chromium 分支的工程量巨大,但其提供的確定性與同步性,確實解決了目前 AI 代理人在複雜網頁環境中生存的核心痛點。
延伸閱讀
- Agent-browser.dev:社群成員提到的另一個競爭專案,主要作為 CDP 與 Puppeteer 的 CLI 包裝器。
- Online Mind2Web Leaderboard:用於評估網頁導航代理人效能的公開基準測試平台。
- Cyqle:留言中提到的雲端桌面瀏覽器自動化服務,專注於環境一致性。
- ABP Online Mind2Web Results:原作者提供的測試數據與本地執行指南 GitHub 倉庫。