CPU 尚未過時:Gemma 2B 在成名基準測試中得分超越 GPT-3.5 Turbo
一份實地報告顯示,運行在筆記型電腦 CPU 上的輕量級 Gemma 2B 模型,透過特定的軟體工程修復,在 MT-Bench 基準測試中得分超越了 GPT-3.5 Turbo。
背景
SeqPU 發布了一份實測報告,指出 Google 的輕量級模型 Gemma 2B 在 MT-Bench 測試中獲得了約 8.0 的評分,超越了 GPT-3.5 Turbo 的 7.94 分。這項發現挑戰了「高效能 AI 必須依賴昂貴 GPU」的既定印象,證明僅需 20 億參數的小型模型,在一般筆記型電腦的 CPU 上就能跑出與過往主流雲端模型相當的表現。
社群觀點
這篇報告在 Hacker News 引發了兩極化的討論。支持者對於小型模型能達到此種水準感到振奮,認為這預示著「思考」將變得極其廉價且無處不在。有開發者分享,他們已經在 M1 MacBook 或 32GB 的 Mac mini 上利用 Gemma 進行日常編程輔助,雖然還無法完全取代付費的頂尖模型,但在處理腳本編寫、基礎架構搭建或 Bash 腳本時,其離線、私密且免費的特性具有極大吸引力。甚至有意見認為,當 12 到 18 個月前的尖端技術現在能塞進手機裡時,AI 產業的高昂估值將面臨挑戰。
然而,質疑的聲音也相當尖銳。部分留言者指出,MT-Bench 是一個發布於 2023 年的舊基準測試,而 Gemma 2B 的訓練時間遠在其後,極有可能存在「數據污染」或針對特定測試集優化的嫌疑。批評者認為,這並非模型能力的真正飛躍,而更像是對已知考題的背誦。此外,文章中提到的「外科手術式防護欄」也引起爭議。雖然作者強調 8.0 的高分是原始模型的表現,但其提出的六種修復方案(如外掛計算機、邏輯求解器、正規表達式過濾)被部分網友認為只是傳統的軟體工程手段,而非 AI 本身的進步。
討論中另一個有趣的焦點在於文章的寫作風格。不少網友直指這篇報告的文字充滿了 AI 生成的痕跡,例如過度使用「外科手術式」等抽象動詞與名詞組合,且句子破碎、重複感強。儘管作者澄清數據與分析皆為人工完成,但這種「AI 味」十足的敘事方式顯然讓部分讀者感到反感,甚至懷疑其研究的嚴謹性。
最後,社群對於「CPU 優先」的設計方向達成了一定程度的共識。開發者們開始探討將這類模型應用於邊緣運算的潛力,例如在會議室中使用樹莓派進行本地語音轉文字與摘要,或是在不連網的 ThinkPad 上自動處理敏感郵件。雖然 GPT-3.5 已非當前最強模型,但 Gemma 2B 的表現確實證明了,對於許多不需要頂尖推理能力的日常任務,昂貴的 GPU 叢集或許不再是唯一的預設選項。
延伸閱讀
- Qwen-coder 3.5 / GPT-OSS-20B:留言者推薦的優秀本地編程輔助模型。
- Google AI Edge Gallery:可在行動裝置或筆電上測試 Gemma 等模型的官方平台。
- Z3 Constraint Solver:文中提到用於修復邏輯錯誤的約束求解工具。
- PAL (Program-Aided Language Models):透過讓模型生成程式碼並執行子程序來解決算術問題的技術。