AI數學能力堪憂,ORCA基準測試揭示其局限
Hacker News·
一項名為ORCA的新基準測試顯示,即使是ChatGPT-5、Gemini 2.5 Flash和Claude Sonnet 4.5等先進的大型語言模型,在數學推理方面也存在明顯的弱點,無法可靠地進行計算。
暫無內容
相關文章
一項名為ORCA的新基準測試顯示,即使是ChatGPT-5、Gemini 2.5 Flash和Claude Sonnet 4.5等先進的大型語言模型,在數學推理方面也存在明顯的弱點,無法可靠地進行計算。
暫無內容
相關文章