
微軟推出三款全新基礎模型,正面迎戰 AI 競爭對手
微軟 AI 部門在成立六個月後,發布了可將語音轉錄為文字以及生成音訊與圖像的模型,展現其在維持與 OpenAI 合作的同時,積極建立自有技術堆疊的決心。
微軟 AI(Microsoft AI),這家科技巨頭的研究實驗室,於週四宣布發布三款可生成文本、語音和圖像的基礎 AI 模型。
此次發布標誌著微軟持續致力於構建自有的多模態 AI 模型堆棧,並與競爭對手的 AI 實驗室展開競爭,儘管其仍與 OpenAI 保持著緊密聯繫。
根據公司新聞稿,MAI-Transcribe-1 可將 25 種不同語言的語音轉錄為文本,其速度比微軟的 Azure Fast 服務快 2.5 倍。MAI-Voice-1 是一款音訊生成模型,該語音模型允許用戶在一秒鐘內生成 60 秒的音訊,並支持用戶創建自定義語音。MAI-Image-2 則是一款影片生成模型。
MAI-Image-2 最初於 3 月 19 日在 MAI Playground(一款全新的大型語言模型測試軟體)上發布。現在,這三款模型都已在 Microsoft Foundry 上發布,且轉錄與語音模型也已在 MAI Playground 中提供。
這些模型是由微軟的 MAI 超級智能(MAI Superintelligence)團隊開發的。該 AI 研究團隊由微軟 AI 執行長 Mustafa Suleyman 領導,於 2025 年 11 月成立並對外宣布。
「在微軟 AI,我們正在構建人文主義 AI(Humanist AI)。我們在創建 AI 模型時有著獨特的觀點——以人為中心,針對人們實際的溝通方式進行優化,並針對實際用途進行訓練,」Suleyman 在部落格文章中寫道。「很快你們就會在 Foundry 以及直接在微軟的產品與體驗中看到我們推出的更多模型。」
在日益擁擠的大型語言模型(LLM)市場中,MAI 希望這些模型的賣點在於它們比 Google 和 OpenAI 的模型更便宜,該公司在部落格文章中如此寫道。
MAI-Transcribe-1 的起售價為每小時 0.36 美元。MAI-Voice-1 的起售價為每 100 萬個字元 22 美元,而 MAI-Image-2 的起售價為文本輸入每 100 萬個 token 5 美元,圖像輸出每 100 萬個 token 33 美元。
儘管發布了自有的模型,Suleyman 在接受 VentureBeat 採訪時重申了微軟對與 OpenAI 合作夥伴關係的承諾——儘管 Suleyman 告訴 The Verge,最近對該合作夥伴關係的重新談判,讓微軟得以真正追求這項超級智能研究。
微軟已向該 AI 研究實驗室投資超過 130 億美元,並通過多年合作夥伴關係在其各種產品中託管其模型。微軟在晶片方面也採取了同樣的立場:既生產自己的晶片,也從外部廠商購買。