電腦操作 AI 代理比結構化 API 昂貴 45 倍

Hacker News·大約 15 小時前

一項基準測試研究顯示，視覺型 AI 代理比 API 型代理昂貴且可靠性較低，在完成相同的管理任務時，其消耗的 Token 數量高出 45 倍。

computer use is 45x more expensive than structured apis

背景

這篇文章探討了 AI 代理人操作軟體的兩種路徑：一種是透過視覺辨識（Vision-based）模擬人類操作螢幕與點擊，另一種則是直接呼叫結構化的 API。研究團隊透過基準測試發現，視覺代理人在處理複雜任務時，不僅成本比 API 代理人高出 45 倍，且在缺乏明確指令的情況下，極易因為無法感知捲軸下方的資訊而導致任務失敗。

社群觀點

針對這項測試結果，Hacker News 的社群討論呈現出兩極化的反應。一部分網友認為這項結論幾乎是顯而易見的常識，指出針對人類設計的圖形介面本來就不是為了程式化存取而生，將其與 API 相比就像是在討論「天空是藍的、水是濕的」一樣自然。他們認為 API 就像是高效的物流網路，而視覺操作則像是「最後一哩路」的遞送服務，兩者各有其適用場景，但在效率上完全無法同日而語。

然而，也有不少評論者對測試的公平性提出質疑。有觀點認為視覺代理人的失敗並非模型本身的缺陷，而是提示詞工程的問題。如果模型沒有被訓練出「應該主動捲動頁面」的意識，那麼強迫它在靜態截圖中尋找資訊自然會導致失敗。此外，雖然 API 效率極高，但現實世界中許多企業內部的舊系統或封閉軟體根本不提供 API，這正是視覺代理人存在的價值所在。即便成本高昂且速度緩慢，它依然是自動化這些「數位孤島」的唯一解方。

討論中也延伸到了作業系統架構的未來演進。有留言者大膽預測，為了迎接 AI 代理人時代，未來的作業系統可能需要徹底重構，讓所有應用程式的功能都能同時以 API 和人類友善的介面呈現。甚至有人提出「黑暗作業系統」的概念，即一種完全沒有人類使用者、專為 AI 運作而設計的環境。不過，這種觀點也遭到現實主義者的反駁，認為現有的軟體生態系（如社交媒體或電商）為了留住用戶注意力，根本沒有動力提供方便 AI 串接的掛鉤，甚至會刻意利用介面陷阱來引導人類行為。

最後，關於技術選擇的實務爭議也十分熱烈。部分開發者分享了他們放棄視覺工具、轉向 CLI 或 Playwright 等更底層工具的經驗，認為這樣更省錢且穩定。但也有人提醒，技術發展史上「效率較差但更便利」的方案往往會勝出，正如 Python 雖然比 C 語言慢，卻因為開發便利而成為主流。視覺代理人雖然目前昂貴且低效，但其「通用性」與「無需重新開發 API」的便利性，或許才是它在商業市場中真正的競爭力所在。

你的個人知識庫

電腦操作 AI 代理比結構化 API 昂貴 45 倍

背景

社群觀點

延伸閱讀