ClockBench AI 基準測試:人類準確率達 89.1%,頂尖大型語言模型僅 13.3%
Hacker News·
ClockBench 基準測試顯示,人類在辨讀模擬時鐘方面的能力遠超目前頂尖的大型語言模型 (LLM)。人類準確率高達 89.1%,而頂尖 LLM 僅為 13.3%,這表明在視覺空間推理方面仍存在挑戰。
暫無內容
相關文章
ClockBench 基準測試顯示,人類在辨讀模擬時鐘方面的能力遠超目前頂尖的大型語言模型 (LLM)。人類準確率高達 89.1%,而頂尖 LLM 僅為 13.3%,這表明在視覺空間推理方面仍存在挑戰。
暫無內容
相關文章