Terminal-Bench:用於終端環境中 AI 代理的基準測試
Hacker News·
Terminal-Bench 是一個新推出的基準測試,旨在評估和量化 AI 代理在終端環境中互動和執行任務的能力。它提供了一系列任務和評估工具,由史丹佛大學與 Laude 合作開發。
暫無內容
相關文章
Terminal-Bench 是一個新推出的基準測試,旨在評估和量化 AI 代理在終端環境中互動和執行任務的能力。它提供了一系列任務和評估工具,由史丹佛大學與 Laude 合作開發。
暫無內容
相關文章