newsence
無法作弊的排行榜:由受評公司資助的 AI 競技場

無法作弊的排行榜:由受評公司資助的 AI 競技場

Techcrunch·18 天前

人工智慧模型正快速增加且競爭激烈,Arena 已成為前沿大型語言模型的實質公開排行榜,在短短七個月內從柏克萊大學的博士研究項目發展為估值 17 億美元的新創公司。

「無法作弊」的排行榜,由其排名的公司資助

人工智慧模型正迅速增加,競爭異常激烈。隨著眾多參與者湧入這個領域,哪一個會是最好的——又由誰來決定?Arena(前身為 LM Arena)已成為前沿大型語言模型(LLM)事實上的公開排行榜,影響著資金、產品發布和公關週期。在短短七個月內,這家新創公司從加州大學柏克萊分校的一個博士研究項目,發展到估值達 17 億美元。

觀看 Equity 主持人 Rebecca Bellan 採訪 Arena 共同創辦人 Anastasios Angelopoulos 和 Wei-Lin Chiang,探討他們的平台如何成為前沿 AI 模型的首選排行榜,以及在 OpenAI、Google 和 Anthropic 等公司支持該項目的情況下,他們如何努力建立一個中立的基準測試。

他們詳細解析了 Arena 的運作方式,以及為什麼它比靜態基準測試更難作弊、何謂「結構性中立」、為什麼 Claude 目前在法律和醫療用途的專家排行榜上名列前茅,以及該公司如何透過新的企業級產品,將業務從聊天擴展到代理程式(agents)、程式碼編寫和現實任務的基準測試。

在 YouTube、Apple Podcasts、Overcast、Spotify 和各大播客平台訂閱 Equity。您也可以在 X 和 Threads 上關注 Equity,帳號為 @EquityPod。

https://techcrunch.com/video/the-leaderboard-you-cant-game-funded-by-the-companies-it-ranks/