Qwen2.5-Plus：邁向真實世界的 AI 代理人

Hacker News·3 天前

阿里雲推出了 Qwen2.5-Plus，這是一款顯著增強的模型，旨在彌合理論語言處理與實際、真實世界代理能力之間的差距。

blog

背景

阿里巴巴旗下的 Qwen 團隊近期發布了最新模型 Qwen3.6-Plus，宣稱其在邁向「現實世界代理人（Real World Agents）」的目標上取得了重大進展。該模型在多項基準測試中表現優異，並強調其在處理複雜任務與代理能力上的提升。然而，隨著技術細節的公開，Hacker News 社群對其基準測試的選擇以及模型開放程度展開了激烈的討論。

社群觀點

Hacker News 社群對於 Qwen3.6-Plus 的發布反應相當兩極，其中最受詬病的是其基準測試數據的選擇。多位網友指出，Qwen 團隊在對比競爭對手時，刻意選擇了舊版本的模型作為標竿。例如，測試報告中對比的是 Anthropic 的 Claude Opus 4.5，而非已經發布一段時間的最新版本 Opus 4.6；同時在 Gemini 的對比上也選擇了較舊的 3 Pro 而非 3.1。這種做法被社群普遍認為具有誤導性，旨在讓 Qwen3.6-Plus 的數據看起來比實際更具優勢。評論者認為，這種刻意規避當前最強 SOTA（State-of-the-Art）模型的對比方式，損害了團隊的誠信，也讓人懷疑該模型在真實環境下的競爭力。

另一個爭議焦點在於 Qwen 策略的轉變。過去 Qwen 以提供高品質的開源權重（Open Weights）模型聞名，並藉此累積了大量社群好感與口碑。然而，Qwen3.6-Plus 卻採取了閉源模式，僅透過 API 提供服務，且未公開參數規模。社群成員分析認為，這顯示 Qwen 正試圖從「開源技術提供者」轉型為直接與 OpenAI 或 Anthropic 競爭的商業服務商。雖然官方承諾未來會釋出較小規模的開源版本，但許多用戶對此感到失望，認為這只是利用開源社群作為行銷手段，一旦開發出頂尖模型便走向封閉。此外，對於將數據託管於阿里雲的隱私疑慮也被提及，部分用戶表示相較於中國科技巨頭，他們更傾向於信任美國主流 AI 廠商的隱私保護，或者堅持只使用能本地運行的開源模型。

儘管存在誠信與開放性的質疑，社群中仍有理性討論關於該模型的市場定位。有觀點指出，雖然 Qwen3.6-Plus 可能未達頂尖水平，但在「次一級」的模型市場中仍有巨大潛力，特別是如果它能提供更低廉的 API 價格。對於需要處理大規模數據集的企業而言，成本往往比極致的性能更重要。然而，反對者則認為 API 市場缺乏忠誠度，開發者會隨時轉向性價比更高的供應商。整體而言，社群將 Qwen3.6-Plus 視為「B 梯隊」模型的代表，雖然技術上仍落後頂尖水準約半年，但其進步也預示著高性能 AI 能力將在未來變得更加廉價與普及。

Qwen2.5-Plus：邁向真實世界的 AI 代理人

背景

社群觀點

延伸閱讀