newsence

Qwen2.5-Plus:邁向真實世界的 AI 代理人

Hacker News·3 天前

阿里雲推出了 Qwen2.5-Plus,這是一款顯著增強的模型,旨在彌合理論語言處理與實際、真實世界代理能力之間的差距。

背景

阿里巴巴旗下的 Qwen 團隊近期發布了最新模型 Qwen3.6-Plus,宣稱其在邁向「現實世界代理人(Real World Agents)」的目標上取得了重大進展。該模型在多項基準測試中表現優異,並強調其在處理複雜任務與代理能力上的提升。然而,隨著技術細節的公開,Hacker News 社群對其基準測試的選擇以及模型開放程度展開了激烈的討論。

社群觀點

Hacker News 社群對於 Qwen3.6-Plus 的發布反應相當兩極,其中最受詬病的是其基準測試數據的選擇。多位網友指出,Qwen 團隊在對比競爭對手時,刻意選擇了舊版本的模型作為標竿。例如,測試報告中對比的是 Anthropic 的 Claude Opus 4.5,而非已經發布一段時間的最新版本 Opus 4.6;同時在 Gemini 的對比上也選擇了較舊的 3 Pro 而非 3.1。這種做法被社群普遍認為具有誤導性,旨在讓 Qwen3.6-Plus 的數據看起來比實際更具優勢。評論者認為,這種刻意規避當前最強 SOTA(State-of-the-Art)模型的對比方式,損害了團隊的誠信,也讓人懷疑該模型在真實環境下的競爭力。

另一個爭議焦點在於 Qwen 策略的轉變。過去 Qwen 以提供高品質的開源權重(Open Weights)模型聞名,並藉此累積了大量社群好感與口碑。然而,Qwen3.6-Plus 卻採取了閉源模式,僅透過 API 提供服務,且未公開參數規模。社群成員分析認為,這顯示 Qwen 正試圖從「開源技術提供者」轉型為直接與 OpenAI 或 Anthropic 競爭的商業服務商。雖然官方承諾未來會釋出較小規模的開源版本,但許多用戶對此感到失望,認為這只是利用開源社群作為行銷手段,一旦開發出頂尖模型便走向封閉。此外,對於將數據託管於阿里雲的隱私疑慮也被提及,部分用戶表示相較於中國科技巨頭,他們更傾向於信任美國主流 AI 廠商的隱私保護,或者堅持只使用能本地運行的開源模型。

儘管存在誠信與開放性的質疑,社群中仍有理性討論關於該模型的市場定位。有觀點指出,雖然 Qwen3.6-Plus 可能未達頂尖水平,但在「次一級」的模型市場中仍有巨大潛力,特別是如果它能提供更低廉的 API 價格。對於需要處理大規模數據集的企業而言,成本往往比極致的性能更重要。然而,反對者則認為 API 市場缺乏忠誠度,開發者會隨時轉向性價比更高的供應商。整體而言,社群將 Qwen3.6-Plus 視為「B 梯隊」模型的代表,雖然技術上仍落後頂尖水準約半年,但其進步也預示著高性能 AI 能力將在未來變得更加廉價與普及。

延伸閱讀

https://qwen.ai/blog?id=qwen3.6