Qwen2.5-Max 預覽版：更聰明、更銳利、持續進化中

Hacker News·大約 5 小時前

阿里雲推出了 Qwen2.5-Max，這是一款大規模混合專家模型，在關鍵基準測試中超越了 GPT-4o 和 DeepSeek-V3，目前仍處於持續進化的階段。

背景

阿里巴巴旗下的 Qwen 團隊近期推出了 Qwen3.6-Max-Preview 模型，宣稱在各項基準測試中展現出更強大的智慧與精確度。這款模型作為 Qwen 系列的最新進展，旨在挑戰目前市場上由 Anthropic 與 OpenAI 領先的地位，並透過 Qwen Studio 平台提供預覽體驗。

社群觀點

在 Hacker News 的討論中，社群對於 Qwen3.6-Max 提供的基準測試數據抱持著謹慎且略帶懷疑的態度。許多評論者指出，官方在比較對象的選擇上顯得有些刻意，例如將其與較舊的 Claude Opus 4.5 進行對比，而非目前最新的 4.6 或 4.7 版本。部分網友認為，這種做法讓人難以完全信任其宣傳的領先地位，因為開發者通常會挑選對自家模型有利的框架進行測試，並省略表現不佳的部分。然而，也有觀點為其辯護，認為在人工智慧領域，兩個月的時間差確實可能導致版本更新極快，且對於大多數使用者而言，比起追求極致的 SOTA 性能，性價比與模型品質的平衡才是更實際的考量因素。

另一個引發熱烈討論的焦點是基準測試中頻繁出現的 Z GLM 5.1 模型。許多用戶對於這款非美國開發的模型表現感到驚訝，甚至有人質疑為何在比較名單中未見 OpenAI 的身影，反而出現了 GLM。對此，有經驗的使用者分享了實測心得，認為 GLM 5.1 在程式碼編寫、代碼審查及工具調用方面表現極佳，甚至被譽為目前美國以外最強的代理型編碼模型。雖然其推理速度較慢，且偶爾會出現輸出混亂的情況，但在處理複雜的開發環境問題時，例如解決容器化部署中的快取衝突與設定檔錯誤，展現出了令人印象深刻的邏輯能力。

此外，討論也觸及了模型可用性的廣度。有網友提到，雖然 Qwen 的開源系列在本地端運行社群中享有盛譽，但其雲端模型如 Plus 或 Max 版本的知名度相對較低。社群普遍達成的一項共識是，雖然官方數據具有參考價值，但最終仍需依賴獨立的第三方基準測試來驗證其真實實力。對於開發者來說，Qwen3.6-Max 的出現代表了市場競爭的加劇，尤其是在開發工具領域，這類模型正逐漸成為 Claude 或 OpenAI 之外，兼具成本效益與特定領域強度的替代方案。

你的個人知識庫

Qwen2.5-Max 預覽版：更聰明、更銳利、持續進化中

背景

社群觀點

延伸閱讀