從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。
ClockBench 是一個公開的資料集,旨在評估 AI 模型在視覺推理任務上的表現,特別是與時鐘相關的任務。它提供了透過 OpenRouter API 進行模型評估的設定和執行說明。
暫無內容
— Hacker News
相關文章
Vibesbench:一個對話式AI的基準測試
4 個月前
ClockBench AI 基準測試:人類準確率達 89.1%,頂尖大型語言模型僅 13.3%
8 個月前
BrowserBench.ai 推出以評估 AI Agent 的瀏覽器運行環境
5 個月前
Gunbench:測試AI模型是否會「開火」的基準
AI在醫療緊急情況下是否可靠?分析HealthBench