中國的開源豪賭

中國的開源豪賭

MIT Technology Review·

中國頂尖人工智慧實驗室正採取與矽谷不同的策略,透過發布可下載的開放權重模型,讓開發者能自由調整並在自有硬體上運行,藉此在美國出口管制下建立強大的全球生態系統並贏得開發者的青睞。

矽谷的 AI 公司遵循著一套熟悉的劇本:將核心技術(secret sauce)隱藏在 API 之後,並對每一滴流量收費。中國領先的 AI 實驗室則在玩一場不同的遊戲:他們將模型以可下載的「權重開放」(open-weight)套件形式發布。這讓開發者能夠調整模型並在自己的硬體上運行,從而開發產品,而無需與美國的守門人協商商業關係。

這一策略在 DeepSeek 於 2025 年 1 月開源其 R1 推理模型後成為主流。據報導,該模型的性能與美國頂尖系統旗鼓相當,但成本僅為其一小部分。在原始能力上,美中實驗室之間的差距似乎突然縮小了。但中國還贏得了一些更微妙且更具黏性的東西:開發者的好感。免費提供對手收費的產品,往往能達到這種效果。

中國強力延續了這股勢頭。在 DeepSeek 發布一年後,現在有一批中國開源巨頭正遵循同樣的藍圖,包括 Z.ai(原智譜 AI)、月之暗面(Moonshot)、阿里巴巴的 Qwen 以及 MiniMax。他們都在競相發布能力更強的模型,並以少有人預料到的速度逼近美國對手。

這很重要,因為 AI 的炒作正在降溫,企業正將重心從熱門的試點項目轉向部署與整合,而在這些領域,更便宜且更具客製化空間的工具往往能勝出。中國的定價意味著預算有限的開發者可以進行更多實驗,而開放權重則意味著他們無需請求許可即可調整模型。

由 MIT 和 Hugging Face 研究人員進行的一項研究發現,在截至 2025 年 8 月的一年裡,中國的開放權重模型佔全球 AI 模型下載量的 17.1%。這微幅超越了美國 15.86% 的份額——這是中國首次在該指標上領先。而上個月的 Hugging Face 數據顯示,阿里巴巴的模型(包括其 Qwen 系列)目前擁有最多的用戶生成變體——超過了 Google 和 Meta 模型的總和。

然而,開源理想也面臨著一些嚴峻的現實。中國模型帶有中國內容審查制度的印記,並經過訓練以避開與政府政策衝突的輸出。此外,在 2 月份,Anthropic 指控幾家中國實驗室通過「蒸餾」(distillation)非法提取 Claude 的能力,這是一個利用一個模型的輸出來訓練另一個模型的過程。這是行業的標準做法,但 OpenAI 和 Anthropic 等美國頂尖公司聲稱,中國公司使用了欺詐手段來達成。

儘管受到西方的抵制,全球南方(Global South)的大部分地區仍張開雙臂擁抱中國模型,將開源視為實現 AI 主權的路徑。新加坡政府支持的 AI Singapore 計劃選擇了阿里巴巴的 Qwen 而非 Meta 的 Llama 來構建其最新的區域模型;去年,馬來西亞宣布其主權 AI 生態系統將運行在 DeepSeek 之上。與此同時,從奈洛比到聖保羅再到舊金山的創業家們,都在中國的基礎上進行開發。

美國科技公司的執行長們認為,最好的模型應該保持專有,部分是為了回收巨額的訓練成本,部分是擔心強大的前沿模型可能被武器化。就中國實驗室而言,他們並非純粹的理想主義:開源不僅是免費廣告,也是一種精明的權宜之計。在無法獲得受美國出口管制限制的尖端晶片的情況下,公開發布模型可以加速外部回饋和貢獻的循環,從而補償受限的算力。正如 Linux 和 Android 所證明的,越多的開發者在你的模型上開發,你的生態系統就越強大。這種採用自然會轉化為 API 的使用量和收入。

無論如何,開源模型已經讓 AI 的未來比矽谷預期的更加多極化。而且,這已經是一條無法回頭的路。

MIT Technology Review

相關文章

其他收藏 · 0