無法作弊的排行榜：由受評公司資助的 AI 競技場

Techcrunch·18 天前

人工智慧模型正快速增加且競爭激烈，Arena 已成為前沿大型語言模型的實質公開排行榜，在短短七個月內從柏克萊大學的博士研究項目發展為估值 17 億美元的新創公司。

「無法作弊」的排行榜，由其排名的公司資助

人工智慧模型正迅速增加，競爭異常激烈。隨著眾多參與者湧入這個領域，哪一個會是最好的——又由誰來決定？Arena（前身為 LM Arena）已成為前沿大型語言模型（LLM）事實上的公開排行榜，影響著資金、產品發布和公關週期。在短短七個月內，這家新創公司從加州大學柏克萊分校的一個博士研究項目，發展到估值達 17 億美元。

觀看 Equity 主持人 Rebecca Bellan 採訪 Arena 共同創辦人 Anastasios Angelopoulos 和 Wei-Lin Chiang，探討他們的平台如何成為前沿 AI 模型的首選排行榜，以及在 OpenAI、Google 和 Anthropic 等公司支持該項目的情況下，他們如何努力建立一個中立的基準測試。

他們詳細解析了 Arena 的運作方式，以及為什麼它比靜態基準測試更難作弊、何謂「結構性中立」、為什麼 Claude 目前在法律和醫療用途的專家排行榜上名列前茅，以及該公司如何透過新的企業級產品，將業務從聊天擴展到代理程式（agents）、程式碼編寫和現實任務的基準測試。

在 YouTube、Apple Podcasts、Overcast、Spotify 和各大播客平台訂閱 Equity。您也可以在 X 和 Threads 上關注 Equity，帳號為 @EquityPod。

https://techcrunch.com/video/the-leaderboard-you-cant-game-funded-by-the-companies-it-ranks/