AI數學能力堪憂，ORCA基準測試揭示其局限

Hacker News·5 個月前

一項名為ORCA的新基準測試顯示，即使是ChatGPT-5、Gemini 2.5 Flash和Claude Sonnet 4.5等先進的大型語言模型，在數學推理方面也存在明顯的弱點，無法可靠地進行計算。

暫無內容

— Hacker News

相關文章