newsence
Hugging Face 開源生態系現況報告:2026 年春季

Hugging Face 開源生態系現況報告:2026 年春季

Huggingface·19 天前

開源 AI 生態系正經歷爆發式增長,中國在模型下載量上已超越美國,且開發者貢獻正顯著轉向個人與獨立開發者。國家主權考量正日益推動全球對開源權重模型的投資,以確保地方數據控制與基礎設施的獨立性。

Hugging Face 開源現狀報告:2026 年春季

本文基於 2025 年年中進行的早期分析(詳見此處),該分析探討了 Hugging Face 社群的構建內容。我們建議閱讀來自 Data Provenance Initiative、Interconnects、OpenRouter 與 a16z,以及 MIT 和 Linux 基金會關於 Hugging Face 內外開源生態系統的其他觀點。由於 Hugging Face 生態系統是分散式的,分析結合了 Hugging Face 官方與社群成員的工作,每項工作均已適當標註出處。

開源 AI 生態系統的活動迅速增長,用戶、模型和數據集存儲庫(Repository)的數量都接近翻倍。2025 年,Hugging Face 的用戶增長至 1,100 萬,擁有超過 200 萬個公開模型和超過 50 萬個公開數據集。這種增長不僅標誌著對開源興趣的增加,更反映了向「主動參與」的轉變:用戶越來越多地創建衍生產物,如微調模型、適配器(Adapters)、基準測試和應用程序,而不僅僅是消費預訓練系統。

image (1)

數據來自 Hugging Face | Hugging Face 的兩百萬個模型且持續增加:圖表與故事由 AI World 提供

生態系統仍保持高度集中。Hugging Face 上大約一半的模型總下載量少於 200 次,而下載量前 200 名的模型(僅佔模型的 0.01%)則貢獻了 49.6% 的總下載量。

專業社群圍繞特定領域、語言或問題區域形成,即使其總下載量適中,通常也會表現出持續的參與度和重複使用率。開源 AI 最好被理解為一組重疊的子生態系統,而非單一統一的市場。

開源競爭力

越來越多的大型和小型公司正基於開源進行構建。目前超過 30% 的財富 500 強企業在 Hugging Face 上擁有經過驗證的帳號。初創公司頻繁將開源模型作為預設組件:Thinking Machines 完全基於開源權重構建其 Tinker 模型選項,而 VSCode 和 Cursor 等流行 IDE 則同時支持開源和閉源模型。Airbnb 等老牌美國公司增加了對開源生態系統的參與,Hugging Face 也觀察到更多傳統企業在 2025 年期間升級了其組織訂閱。

科技巨頭頻繁在 Hugging Face Hub 上創建新的存儲庫;並排觀察可以發現,存儲庫數量的強勁增長顯示了長期的投入。NVIDIA 已成為最強大的貢獻者。

bt_allin

數據來自 Hugging Face | 科技巨頭全力投入開源 AI,圖表與故事由 AI World 提供

更廣泛的開源軟體研究表明,開源產物創造的下游價值遠超其生產成本。AI 領域也出現了類似的動態,開源模型在數千個下游應用中被重複使用、改編和專業化。完全依賴閉源系統的組織通常會面臨更高的成本,且在部署和定制方面的靈活性較低。

開源的地理分佈

過去四年的累計下載量顯示出模型受歡迎程度的領先地區。美國和中國歷來是頂級貢獻者,英國、德國和法國的受歡迎程度緊隨其後。由個人用戶或沒有明確地理基地的分散式組織開發的模型,約佔平台總下載量的一半。

數據來自 Hugging Face | 圖表與研究來自 Longpre 等人《開放智能經濟:追蹤模型生態系統中的權力與參與》

countries_economies1

開源生態系統的地理構成發生了根本性變化。Hugging Face 數據顯示,中國在月下載量和總下載量上均已超越美國。在過去一年中,中國模型迅速佔據了下載量的多數(41%)。

Downloads 2025

數據與圖表來自 Hugging Face

工業界在整體開發中的份額從 2022 年之前的約 70% 下降到 2025 年的約 37%。與此同時,獨立或無隸屬關係的開發者在同期下載量中的佔比從 17% 上升到 39%,有時甚至佔總使用量的一半以上。個人和小型集體專注於量化、改編和重新分發基礎模型。這些中間人現在引導著普通用戶可以運行的內容,以及創新在生態系統中傳播的方式。

數據來自 Hugging Face | 圖表與研究來自 Longpre 等人《開放智能經濟:追蹤模型生態系統中的權力與參與》

natmarkshare

不同地區的貢獻方式各異。美國和西歐歷來通過大型工業實驗室(Google、Meta、OpenAI、Stability AI)佔據主導地位,而中國在發布和採用方面則日益領先。法國、德國和英國繼續通過研究機構、國家 AI 計劃和專業模型系列做出貢獻。支持多樣化貢獻者和組織形式的生態系統往往能產生更被廣泛採用的產物。

國家、組織與個人用戶

來自初創公司的熱門模型分佈更廣。具競爭力的國家包括法國和韓國。值得注意的是,開發新趨勢模型的第四大熱門實體是個人用戶,而非組織。在用戶層級創建具競爭力的模型比以往任何時候都更加容易。

數據與圖表來自 Hugging Face

Top New Models(1)

美中之間

在 2025 年新創建的模型中,大多數趨勢模型要麼是在中國開發的,要麼是中國開發模型的衍生品。最受歡迎的模型由大型組織開發,主要來自美國和中國。欲了解更多關於中國 AI 生態系統的信息,請閱讀我們的三部分系列文章,反映自「DeepSeek 時刻」一年來的變化:第一篇關於戰略變化,第二篇關於架構變化,第三篇關於組織與未來。

2025 年,隨著 1 月份 DeepSeek R1 模型的病毒式發布,中國的 AI 生態系統大幅轉向開源。發布模型的競爭性中國組織數量以及 Hugging Face 上的存儲庫數量激增。百度在 Hub 上的發布量從 2024 年的零次增加到 2025 年的 100 多次。字節跳動和騰訊的發布量分別增加了八到九倍。此前偏好閉源方法的組織(包括百度和 MiniMax)已果斷轉向開源發布。

HF-Repository-Growth-China

數據與圖表來自 Hugging Face

數量相當的美國熱門組織隨著時間推移持續貢獻了更高容量的存儲庫。Meta 及其前身 Facebook 研究機構佔據了開源發布的很大比例,Google 緊隨其後。

HF-Repository-Growth-US

數據與圖表來自 Hugging Face

並排對比來看,熱門中國組織存儲庫增長的陡峭上升軌跡成為一個關鍵的戰略差異。

HF-Repository-Growth-US-China

數據與圖表來自 Hugging Face

全球開源與主權

開源 AI 越來越多地與主權問題聯繫在一起。開源權重模型允許政府和公共機構在國家法律框架下,利用本地數據微調系統。可在國內硬件上部署的模型減少了對外國控制的雲基礎設施的依賴。模型架構、訓練過程和評估的透明度支持了監管審查和公眾問責。在此處閱讀更多關於主權的開源方法。

在國家層面,各國政府正在採取行動。韓國的國家主權 AI 計劃於 2025 年年中啟動,指定了 LG AI Research、SK Telecom、Naver Cloud、NC AI 和 Upstage 為國家冠軍,以生產具競爭力的國產模型。2026 年 2 月,來自韓國的三個模型同時登上 Hugging Face Hub 的趨勢榜。2026 年 3 月,韓國與美國初創公司 Reflection AI 宣布建立數據中心合作夥伴關係,同樣將前沿開源權重模型引入韓國。

瑞士的 Swiss AI 計劃和各種歐盟資助的項目也反映了類似的優先事項。英國「公共資金,公共代碼」的原則影響了多個政府支持的 AI 計劃。

SK_trending

Hugging Face 趨勢頁面 2026 年 2 月

這些對開源和開源權重 AI 的投資已經為擁有蓬勃發展的 AI 訓練生態系統的國家帶來了回報,因為我們看到模型和數據集通常在開發它們的地區使用率最高;開發者往往會轉向最能代表其語言並反映相似技術與應用要求的模型。

country_compare

數據與圖表來自 Hugging Face

模型受歡迎程度

Hub 上獲得最多「讚」(Like)的模型顯示了社群的關注度,包括回訪、引用或普遍受歡迎程度。雖然這一指標並不總是反映使用情況,但隨時間累積的關注可以顯示興趣信號。在一年內,獲得最多讚的模型從以美國開發的 Meta Llama 系列為主,轉變為國際化組合,中國的 DeepSeek-R1 位居榜首。

Most Liked HF Models DS

數據與圖表來自 Hugging Face

論文與科學貢獻

雖然衡量科學貢獻價值的指標有很多,但我們 Hub 上的投票功能顯示,來自大型 AI 組織的論文受到社群成員的廣泛認可。值得注意的是,獲票數最多的論文來自大型組織,主要分佈在美國和中國。大多數頂尖組織是中國科技巨頭,其中字節跳動分享了大量高影響力的論文。

Hugging Face 空間 | PaperVerse Explorer

在 Hugging Face 的每日論文(由 Hugging Face 的 AK 策劃)中,引用模型和數據集創建、顯示最高開源採用率的論文通常具有多樣性。顯著的結論顯示醫學論文具有影響力,而科技巨頭的影響力則較為稀疏。

power_papers

數據來自 Hugging Face | 圖表與故事由 AI World 提供

衍生模型

社群成員選擇如何基於模型進行構建(無論是通過微調、合併還是其他方法),反映了模型的受歡迎程度和可用性。阿里巴巴作為一個組織,其衍生模型數量超過了 Google 和 Meta 的總和,其中 Qwen 系列構成了超過 113,000 個衍生模型。如果包含所有標記為 Qwen 的模型,該數字將激增至超過 200,000 個。

Org_derivatives

數據與圖表來自 Hugging Face

採用與可及性

模型開發在強調規模的同時,也越來越強調可及性。小型模型的下載和部署率遠高於超大型系統,這反映了成本、延遲和硬件可用性等實際限制。

這種小型模型的主導地位部分是因為該尺寸下發布的模型更多。但即使對此進行歸一化處理,來自 ATOM 項目的「相對採用率指標」(Relative Adoption Metric)數據顯示,1-9B 參數的中位數前 10 名模型的下載量僅比 100B 以上的模型多約 4 倍。自動化系統和 CI 流水線進一步推高了小型模型的下載計數,但轉向小型、可部署模型的趨勢是真實存在的。

RAM-atom

數據來自 Hugging Face | 圖表與文章由 ATOM 提供

對開源模型的參與度往往在發布後立即達到頂峰,然後放緩。平均參與持續時間約為 6 週。持續改進和頻繁更新已成為保持相關性的關鍵。DeepSeek 的連續發布(V3, R1, V3.2)使其在挑戰者出現時仍保持競爭力。開發停滯的組織往往會迅速將市場份額輸給那些頻繁更新或提供領域特定微調的組織。

lifeos

數據來自 Hugging Face | 圖表與研究來自 Choksi 等人《開源模型的短暫而奇妙的一生》

受量化技術和混合專家(MoE)架構的推動,下載的開源模型平均大小從 2023 年的 8.27 億參數上升到 2025 年的 208 億參數。然而,中位數僅略微增加,從 3.26 億增加到 4.06 億參數。這種分歧表明,高端 LLM 用戶拉高了平均值,而底層小型模型的使用保持穩定。

economies2

數據來自 Hugging Face | 圖表與研究來自 Longpre 等人《開放智能經濟:追蹤模型生態系統中的權力與參與》

前沿模型與小型系統之間的性能差異通常通過微調和任務特定改編迅速縮小。在 Hub 上,數億參數的模型支持搜索、標記和文檔處理工作流,而個位數十億參數的模型則廣泛用於編碼、推理和多模態任務。因此,大多數主要模型開發商現在都會發布涵蓋多種尺寸的模型系列。能力強大的小型模型的興起將自主權推向邊緣端,減少了對中心化雲供應商的依賴。

算力、硬件與開源

開源 AI 的開發與硬件趨勢密切相關。大多數模型針對 NVIDIA GPU 進行了優化,但對 AMD 硬件的支持持續擴大。Stability AI 的模型集合現在同時針對 NVIDIA 和 AMD 平台進行優化。庫(Libraries)越來越多地針對兩者,工具也得到了改進,使跨硬件部署更加直接。2025 年,Hugging Face 推出了 Kernel Hub,用於加載和運行針對 NVIDIA 和 AMD GPU 優化的內核。

與此同時,中國開源模型在發布時明確支持國產芯片。阿里巴巴投資了專注於推理的芯片架構,旨在為中國數據中心配備能夠在本地運行開源模型的硬件。

雖然獲取算力仍是開發和部署 AI 模型的核心必要條件,但開源和開源權重模型正幫助擺脫「算力決定一切」的生態系統,越來越多各個性能水平的模型推動效率提升,成本比最大開發商的旗艦 AI 模型低 10 倍到 1000 倍。

training-cost-hf

數據與圖表來自 Hugging Face

儘管如此,開源基礎設施投資的問題依然緊迫。為能夠訓練和服務開源模型的數據中心提供公共資金,已成為日益增長的政策討論,特別是在歐洲和英國。大型閉源模型公司可獲得的算力資源與開源社群可獲得的資源之間的差距,繼續塑造著開源開發的可行性。

子社群:機器人

機器人已成為 Hugging Face 上增長最快的子社群之一。數據令人震驚:機器人數據集從 2024 年的 1,145 個增長到 2025 年的 26,991 個,在短短三年內從排名第 44 位躍升為 Hub 上最大的單一數據集類別。相比之下,第二大類別「文本生成」在 2025 年僅有約 5,000 個數據集。

數據來自 Hugging Face | 圖表與故事由 AI World 提供

robotics-data

社群貢獻的數據集涵蓋了從家庭操作任務到自動駕駛的所有領域。最大的空間智能多模態數據集 Learning to Drive (L2D) 是通過 LeRobot 與 Yaak 的合作發布的。像 RoboMIND 這樣的數據集,擁有超過 107,000 條跨越 479 個不同任務和多種機器人形態的真實世界軌跡,為訓練通用機器人策略提供了所需的規模和多樣性。

Hugging Face 收購 Pollen Robotics 為工業、學術實驗室以及日常愛好者開啟了開源機器人銷售。LeRobot 是 Hugging Face 的開源機器人庫,在 PyTorch 中提供模型、數據集和工具,涵蓋模仿學習、強化學習和視覺-語言-動作模型,經歷了快速增長。在過去一年中,其 GitHub 存儲庫的星數(Stars)幾乎翻了三倍。

star-history-202634(1)

數據來自 GitHub | 圖表來自 star-history.com

子社群:科學 AI

科學研究已成為另一個特別活躍的領域。開源模型和數據集越來越多地用於蛋白質折疊、分子動力學、藥物研發和科學數據分析。所有前沿 AI 公司現在都設有專門的科學團隊,儘管目前的重點仍主要集中在文獻發現而非直接實驗。

Hugging Face 空間 | 科學發布熱力圖

社群主導的項目圍繞共同的研究目標形成,通常涉及跨機構和學科的數百名貢獻者。這些努力凸顯了開源作為協調大規模、跨學科工作的機制作用,而這類工作僅靠傳統的學術或企業結構很難組織。

展望未來

開源 AI 生態系統在全球參與、技術專業化和機構採用的共同推動下持續演進。幾個趨勢可能會定義下一個階段。

權力的地理重新平衡正在加速。西方組織越來越多地尋求中國模型的商業可部署替代方案,這使得 OpenAI 的 GPT-OSS、AI2 的 OLMo 和 Google 的 Gemma 等努力變得緊迫,旨在提供來自美歐開發者的具競爭力的開源選項。這些努力能否匹配 Qwen 和 DeepSeek 的採用勢頭,將是 2026 年的一個定義性問題。

機器人和科學子社群的增長表明,開源 AI 正在從語言和圖像生成擴展到物理和實驗領域。圍繞文本和圖像模型開發的基礎設施、規範和協調機制正在被改編用於新的模態和用例。

對於研究人員、開發者、公司和政府而言,開源仍是構建、評估和治理 AI 系統的基礎層。隨著智能體(Agent)部署的增加,開源及其互操作性將是智能體繁榮的關鍵。過去一年的軌跡清楚地表明:開源生態系統是 AI 開發、改編和部署的大部分實際工作發生的地方,其對更廣泛 AI 景觀的影響力將繼續增長。

感謝 Hugging Face 社群繼續構建 AI 生態系統的基石 🤗

社群

· 註冊或登錄以發表評論

https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026