ClockBench AI 基準測試：人類準確率達 89.1%，頂尖大型語言模型僅 13.3%

Hacker News·8 個月前

ClockBench 基準測試顯示，人類在辨讀模擬時鐘方面的能力遠超目前頂尖的大型語言模型 (LLM)。人類準確率高達 89.1%，而頂尖 LLM 僅為 13.3%，這表明在視覺空間推理方面仍存在挑戰。

暫無內容

— Hacker News

相關文章