newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

ClockBench – 視覺推理 AI 基準測試

Hacker News·8 個月前

ClockBench 是一個公開的資料集,旨在評估 AI 模型在視覺推理任務上的表現,特別是與時鐘相關的任務。它提供了透過 OpenRouter API 進行模型評估的設定和執行說明。

暫無內容

— Hacker News

相關文章

  1. Vibesbench:一個對話式AI的基準測試

    4 個月前

  2. ClockBench AI 基準測試:人類準確率達 89.1%,頂尖大型語言模型僅 13.3%

    8 個月前

  3. BrowserBench.ai 推出以評估 AI Agent 的瀏覽器運行環境

    5 個月前

  4. Gunbench:測試AI模型是否會「開火」的基準

    4 個月前

  5. AI在醫療緊急情況下是否可靠?分析HealthBench

    8 個月前

相關文章

  1. Vibesbench:一個對話式AI的基準測試

    4 個月前

  2. ClockBench AI 基準測試:人類準確率達 89.1%,頂尖大型語言模型僅 13.3%

    8 個月前

  3. BrowserBench.ai 推出以評估 AI Agent 的瀏覽器運行環境

    5 個月前

  4. Gunbench:測試AI模型是否會「開火」的基準

    4 個月前

  5. AI在醫療緊急情況下是否可靠?分析HealthBench

    8 個月前