QIMMA：品質優先的阿拉伯語大型語言模型排行榜

Huggingface·大約 4 小時前

QIMMA 是一個全新的評估套件，在評估模型之前先對阿拉伯語基準測試進行驗證，揭示了現有數據集中系統性的品質問題，以確保能真實衡量大型語言模型的阿拉伯語能力。

QIMMA قِمّة ⛰：品質優先的阿拉伯語大型語言模型（LLM）排行榜

QIMMA 在評估模型之前先對基準測試進行驗證，確保報告的分數能反映 LLM 真實的阿拉伯語能力。

🏆 排行榜 · 🔧 GitHub · 📄 論文

如果你一直在關注阿拉伯語 LLM 的評估，你可能已經注意到一種日益增長的緊張局勢：基準測試和排行榜的數量正在迅速擴張，但我們真的在測量我們認為正在測量的東西嗎？

我們建立了 QIMMA قمّة（阿拉伯語意為「巔峰」），旨在系統性地回答這個問題。我們並非直接彙整現有的阿拉伯語基準測試並在其上運行模型，而是在進行任何評估之前，先應用了嚴格的品質驗證流程。我們的發現令人警醒：即使是廣泛使用、備受推崇的阿拉伯語基準測試，也包含系統性的品質問題，這些問題會悄無聲息地損害評估結果。

本文將介紹 QIMMA 是什麼、我們如何建立它、我們發現了哪些問題，以及在清理數據後模型排名呈現什麼樣貌。

🔍 問題：阿拉伯語自然語言處理（NLP）評估呈現碎片化且缺乏驗證

儘管有超過 4 億人使用各種方言和文化背景的阿拉伯語，但阿拉伯語 NLP 評估領域仍然支離破碎。以下幾個關鍵痛點促使了這項工作的開展：

翻譯問題。 許多阿拉伯語基準測試是從英語翻譯而來的。這引入了分佈偏移。在英語中感覺自然的題目，在阿拉伯語中變得彆扭或文化不契合，使得基準數據無法代表阿拉伯語的自然使用方式。

缺乏品質驗證。 即使是原生的阿拉伯語基準測試，也往往在發布時缺乏嚴格的品質檢查。標註不一致、錯誤的標準答案、編碼錯誤以及基準標籤中的文化偏見，都曾在已建立的資源中被記錄。

可重複性差距。 評估腳本和每個樣本的輸出很少公開發布，這使得審核結果或在先前工作的基礎上進行開發變得困難。

覆蓋範圍碎片化。 現有的排行榜僅涵蓋孤立的任務和狹窄的領域，難以進行全面的模型評估。

為了說明 QIMMA 相對於現有平台的定位：

QIMMA 是唯一結合了以下五種特性的平台：開源、以原生阿拉伯語內容為主、系統性品質驗證、代碼評估以及公開的逐樣本推理輸出。

⛰ QIMMA 包含什麼？

QIMMA 整合了來自 14 個來源基準測試的 109 個子集，形成一個包含超過 52,000 個樣本的統一評估套件，涵蓋 7 個領域：

這項設計有幾個亮點：

🔬 品質驗證流程

這是 QIMMA 的方法論核心。在運行任何模型之前，我們對每個基準測試中的每個樣本都應用了多階段驗證流程。

第一階段：多模型自動化評估

每個樣本由兩個最先進的 LLM 進行獨立評估：

我們選擇了兩個具有強大阿拉伯語能力但訓練數據組成不同的模型，以便它們的綜合判斷比單一模型更具魯棒性。

每個模型根據 10 分制的準則對樣本進行評分，每個標準都有二進制分數（0 或 1）：

QIMMA pipeline

如果任一模型評分低於 7/10，該樣本將被剔除。若兩個模型都同意剔除，則立即刪除。然而，若只有一個模型標記該樣本，它將進入第二階段的人工審核。

第二階段：人工標註與審核

被標記的樣本由具備文化和方言熟悉度的母語人士進行審核。人工標註員對以下內容做出最終決定：

對於文化敏感內容，會考慮多種觀點，因為「正確性」在不同阿拉伯地區可能確實存在差異。

⚠️ 我們的發現：系統性品質問題

該流程揭示了基準測試中反覆出現的品質問題；這些不是孤立的錯誤，而是反映了基準測試最初構建方式缺陷的系統性模式。

數據統計

發現的問題分類

⚖️ 答案品質

錯誤或不匹配的標準答案索引、事實錯誤的答案、缺失或原始文本答案。

📄 文本與格式品質

損壞或無法辨認的文本、拼寫和語法錯誤，以及重複樣本。

💬 文化敏感性

強化刻板印象以及對多樣化社群的單一化概括。

🤝 標準答案合規性

標準答案與評估協議不一致。

💻 代碼基準測試：不同類型的品質工作

代碼基準測試需要不同的干預。我們沒有丟棄樣本，而是精煉了 3LM 對 HumanEval+ 和 MBPP+ 的阿拉伯語改編版中的問題陳述，同時保持任務標識符、參考解決方案和測試套件完全不變。

修改率非常顯著：

修改分為五類：

⚙️ 評估設置

評估框架

QIMMA 使用 LightEval、EvalPlus 和 FannOrFlop 作為其評估框架，選擇這些框架是為了保持一致性、多語言社群的採用以及可重複性。

按任務類型劃分的指標

提示詞模板

QIMMA 根據問題格式標準化提示詞，共有六種類型的模板：

QIMMA prompt templates

所有提示詞均為阿拉伯語。對於 MizanQA 和 ArabCulture，保留了原始論文中特定於基準測試的系統提示詞。

🏆 排行榜結果

我們在 QIMMA 上評估了 46 個開源模型，涵蓋了阿拉伯語專用模型和多語言模型，參數規模從約 1B 到 400B 不等。下表顯示了表現最佳的指令微調模型結果：

有幾點觀察值得強調：

Jais-2-70B-Chat 在整體上領先，總分最高為 65.81，並在文化、STEM、法律和安全領域獲得第一。它是表現最強的阿拉伯語專用模型，證明了專注於特定領域的阿拉伯語訓練能在廣泛的多領域評估中產生可衡量的收益。

Qwen2.5-72B-Instruct 以微弱差距位居第二（65.75，差距僅 0.06），並在代碼領域排名第二，反映出強大的通用多語言能力，即使面對阿拉伯語專用模型也極具競爭力。

Llama-3.3-70B-Instruct 儘管是通用多語言模型，但在醫學領域領先，獲得了所有評估模型中最高的醫學領域分數（55.56）。

Qwen3.5-27B 在代碼領域領先（63.39），證明了即使在較小的模型規模下，推理密集型任務也能從思考能力中獲益。

gemma-3-27b-it 在詩歌領域領先（59.74），展示了在理解阿拉伯詩歌語言和文學結構方面的強大能力。

代碼仍然是阿拉伯語專用模型最難攻克的領域。大多數阿拉伯語專用模型在代碼領域的分數低於 35，而多語言模型往往表現更好，這表明阿拉伯語代碼指令遵循在該領域仍是一個開放性挑戰。

規模與性能的關係

在整個排行榜（46 個模型）中，出現了清晰但並不完美的規模與性能相關性。然而，存在一些有趣的例外：

c64aafc7-1

🌟 QIMMA 的獨特之處

總結 QIMMA 的獨特屬性：

🔗 資源

🔖 引用

更多來自此作者的內容

Falcon Perception

Alyah ⭐️：邁向阿拉伯語 LLM 中阿聯酋方言能力的魯棒評估

社群

· 註冊或登入以發表評論

— Huggingface

其他收藏 · 0