
電腦操作 AI 代理比結構化 API 昂貴 45 倍
一項基準測試研究顯示,視覺型 AI 代理比 API 型代理昂貴且可靠性較低,在完成相同的管理任務時,其消耗的 Token 數量高出 45 倍。
背景
這篇文章探討了 AI 代理人操作軟體的兩種路徑:一種是透過視覺辨識(Vision-based)模擬人類操作螢幕與點擊,另一種則是直接呼叫結構化的 API。研究團隊透過基準測試發現,視覺代理人在處理複雜任務時,不僅成本比 API 代理人高出 45 倍,且在缺乏明確指令的情況下,極易因為無法感知捲軸下方的資訊而導致任務失敗。
社群觀點
針對這項測試結果,Hacker News 的社群討論呈現出兩極化的反應。一部分網友認為這項結論幾乎是顯而易見的常識,指出針對人類設計的圖形介面本來就不是為了程式化存取而生,將其與 API 相比就像是在討論「天空是藍的、水是濕的」一樣自然。他們認為 API 就像是高效的物流網路,而視覺操作則像是「最後一哩路」的遞送服務,兩者各有其適用場景,但在效率上完全無法同日而語。
然而,也有不少評論者對測試的公平性提出質疑。有觀點認為視覺代理人的失敗並非模型本身的缺陷,而是提示詞工程的問題。如果模型沒有被訓練出「應該主動捲動頁面」的意識,那麼強迫它在靜態截圖中尋找資訊自然會導致失敗。此外,雖然 API 效率極高,但現實世界中許多企業內部的舊系統或封閉軟體根本不提供 API,這正是視覺代理人存在的價值所在。即便成本高昂且速度緩慢,它依然是自動化這些「數位孤島」的唯一解方。
討論中也延伸到了作業系統架構的未來演進。有留言者大膽預測,為了迎接 AI 代理人時代,未來的作業系統可能需要徹底重構,讓所有應用程式的功能都能同時以 API 和人類友善的介面呈現。甚至有人提出「黑暗作業系統」的概念,即一種完全沒有人類使用者、專為 AI 運作而設計的環境。不過,這種觀點也遭到現實主義者的反駁,認為現有的軟體生態系(如社交媒體或電商)為了留住用戶注意力,根本沒有動力提供方便 AI 串接的掛鉤,甚至會刻意利用介面陷阱來引導人類行為。
最後,關於技術選擇的實務爭議也十分熱烈。部分開發者分享了他們放棄視覺工具、轉向 CLI 或 Playwright 等更底層工具的經驗,認為這樣更省錢且穩定。但也有人提醒,技術發展史上「效率較差但更便利」的方案往往會勝出,正如 Python 雖然比 C 語言慢,卻因為開發便利而成為主流。視覺代理人雖然目前昂貴且低效,但其「通用性」與「無需重新開發 API」的便利性,或許才是它在商業市場中真正的競爭力所在。
延伸閱讀
- agent-browser:Vercel 開發的瀏覽器代理工具。
- dev-browser:Sawyer Hood 開發的新型瀏覽器自動化工具。
- browser-use:本次基準測試中視覺代理人所使用的開源框架。
- Playwright:留言中推薦作為替代視覺辨識、更穩定且支援多瀏覽器的自動化工具。
相關文章