歡迎

你的個人知識庫

從開放網路上發現值得讀的內容，收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

ClockBench – 視覺推理 AI 基準測試

Hacker News·8 個月前

ClockBench 是一個公開的資料集，旨在評估 AI 模型在視覺推理任務上的表現，特別是與時鐘相關的任務。它提供了透過 OpenRouter API 進行模型評估的設定和執行說明。

暫無內容

— Hacker News

相關文章

Vibesbench：一個對話式AI的基準測試
4 個月前
ClockBench AI 基準測試：人類準確率達 89.1%，頂尖大型語言模型僅 13.3%
8 個月前
BrowserBench.ai 推出以評估 AI Agent 的瀏覽器運行環境
5 個月前
Gunbench：測試AI模型是否會「開火」的基準
4 個月前
AI在醫療緊急情況下是否可靠？分析HealthBench
8 個月前

相關文章

Vibesbench：一個對話式AI的基準測試
4 個月前
ClockBench AI 基準測試：人類準確率達 89.1%，頂尖大型語言模型僅 13.3%
8 個月前
BrowserBench.ai 推出以評估 AI Agent 的瀏覽器運行環境
5 個月前
Gunbench：測試AI模型是否會「開火」的基準
4 個月前
AI在醫療緊急情況下是否可靠？分析HealthBench
8 個月前