newsencenewsence
探索
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

了解更多

AI數學能力堪憂,ORCA基準測試揭示其局限

Hacker News·5 個月前

一項名為ORCA的新基準測試顯示,即使是ChatGPT-5、Gemini 2.5 Flash和Claude Sonnet 4.5等先進的大型語言模型,在數學推理方面也存在明顯的弱點,無法可靠地進行計算。

暫無內容

— Hacker News

相關文章

  1. AI代理能否破解驗證碼?

    5 個月前

  2. 研究發現AI系統評估方法存在弱點

    6 個月前

  3. 我們針對三種常見安全漏洞測試了六款AI模型

    6 個月前

  4. 康托爾實驗:迫使一個GPT-5級別的AI忘記一個世紀的數學

    6 個月前

  5. Gemini 3 Deep Think

    2 個月前

相關文章

  1. AI代理能否破解驗證碼?

    5 個月前

  2. 研究發現AI系統評估方法存在弱點

    6 個月前

  3. 我們針對三種常見安全漏洞測試了六款AI模型

    6 個月前

  4. 康托爾實驗:迫使一個GPT-5級別的AI忘記一個世紀的數學

    6 個月前

  5. Gemini 3 Deep Think

    2 個月前