階躍星辰 StepFun 3.5 Flash 獲評為 OpenClaw 任務中性價比最高的模型
StepFun 3.5 Flash 在經過 300 場對戰後,成為 OpenClaw Arena 中處理真實代理任務性價比最高的模型,展現了頂尖 AI 模型在實際應用中的競爭力。
背景
OpenClaw Arena 是一個針對 AI 代理任務進行實測的評測平台,透過在獨立虛擬機中執行真實任務來比較各家模型的表現。開發者 skysniper 近期發布了針對 15 款模型、超過 300 場對戰的測試結果,並區分出「性能」與「性價比」兩份截然不同的排行榜,其中 StepFun 3.5 Flash 在性價比方面奪冠,引發了 Hacker News 社群對於模型實戰能力與成本效益的熱烈討論。
社群觀點
在這次評測中,最令社群關注的是性能與成本之間的巨大鴻溝。開發者指出,雖然 Claude Opus 4.6 在純性能上穩坐第一,但在性價比排行中卻跌至第 14 名;反觀 StepFun 3.5 Flash 不僅在性價比奪冠,性能表現也高居第五,甚至超越了許多價格更高的模型。這種「低價高能」的表現讓不少用戶感到驚訝,因為在一般的對話式任務中,StepFun 的表現並不特別突出,但在處理代理任務(Agentic tasks)時卻展現出極強的實力。
然而,討論中也出現了對評測數據可靠性的質疑。有評論者指出,開發者最初使用 AI 生成留言回覆,這在 Hacker News 社群中被視為違反準則的行為,進而引發對整個專案嚴謹度的懷疑。質疑者認為網站上的公開數據量與宣稱的 300 場對戰似乎存在落差,且網站設計風格過於追求視覺效果而非數據透明度。對此,開發者澄清所有對戰數據、對話紀錄、生成的檔案以及評判標準皆已完整公開,並強調排名是採用與 Chatbot Arena 類似的 Plackett-Luce 模型與自助法(Bootstrap)信賴區間計算,以確保相對排序的可靠性。
關於具體模型的表現,Google 的 Gemini 3.1 Pro 成為討論中的負面焦點。開發者觀察到 Gemini 在使用技能(Skills)時非常不可靠,經常在讀取技能說明後選擇不採取任何行動,這與 Claude 或 GPT 系列穩定執行任務的表現形成鮮明對比。此外,針對 StepFun 的高普及率,有觀點認為這可能與該模型曾長期提供免費額度有關,這類促銷策略往往會扭曲 OpenRouter 等平台的統計數據。
社群也進一步挖掘了 StepFun 的技術背景。有網友補充,StepFun 不僅釋出了基礎模型與訓練過程中的檢查點(Checkpoint),還公開了完整的訓練流水線與相關數據集。這種開放程度在同類規模的模型中相當罕見,甚至比 Qwen 等知名開源模型更為徹底。這也解釋了為何該模型能在特定任務中展現出優於同價位模型(如 Kimi)的競爭力。
延伸閱讀
- OpenClaw Arena 排行榜與方法論:詳細說明了如何透過評判代理在虛擬機中評估模型表現。
- Step-3.5-Flash-Base 模型頁面:位於 Hugging Face,包含基礎模型與訓練中期的檢查點。
- SteptronOss GitHub 倉庫:由 StepFun 官方釋出的訓練流水線工具。
- OpenRouter 統計數據:顯示了各類模型在實際應用中的調用量與受歡迎程度。