從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。
本文介紹了「Is It Nerfed?」平台,該平台旨在對大型語言模型(LLM)的能力進行實時基準測試,重點關注用戶反饋以及通過編碼任務持續追蹤其性能。
暫無內容
— Hacker News
相關文章
AI 基準測試是個糟糕的笑話 – 而大型語言模型製造商才是笑到最後的人
6 個月前
研究發現AI系統評估方法存在弱點
AI基準測試的問題
8 個月前
Show HN:AI at Risk,一個有趣的 LLM 基準測試
9 個月前
Ask HN:AI規模擴展的平台期,會不會只是個「假性衰退」?
3 個月前