微軟推出三款全新基礎模型，正面迎戰 AI 競爭對手

Techcrunch·3 天前

微軟 AI 部門在成立六個月後，發布了可將語音轉錄為文字以及生成音訊與圖像的模型，展現其在維持與 OpenAI 合作的同時，積極建立自有技術堆疊的決心。

微軟 AI（Microsoft AI），這家科技巨頭的研究實驗室，於週四宣布發布三款可生成文本、語音和圖像的基礎 AI 模型。

此次發布標誌著微軟持續致力於構建自有的多模態 AI 模型堆棧，並與競爭對手的 AI 實驗室展開競爭，儘管其仍與 OpenAI 保持著緊密聯繫。

根據公司新聞稿，MAI-Transcribe-1 可將 25 種不同語言的語音轉錄為文本，其速度比微軟的 Azure Fast 服務快 2.5 倍。MAI-Voice-1 是一款音訊生成模型，該語音模型允許用戶在一秒鐘內生成 60 秒的音訊，並支持用戶創建自定義語音。MAI-Image-2 則是一款影片生成模型。

MAI-Image-2 最初於 3 月 19 日在 MAI Playground（一款全新的大型語言模型測試軟體）上發布。現在，這三款模型都已在 Microsoft Foundry 上發布，且轉錄與語音模型也已在 MAI Playground 中提供。

這些模型是由微軟的 MAI 超級智能（MAI Superintelligence）團隊開發的。該 AI 研究團隊由微軟 AI 執行長 Mustafa Suleyman 領導，於 2025 年 11 月成立並對外宣布。

「在微軟 AI，我們正在構建人文主義 AI（Humanist AI）。我們在創建 AI 模型時有著獨特的觀點——以人為中心，針對人們實際的溝通方式進行優化，並針對實際用途進行訓練，」Suleyman 在部落格文章中寫道。「很快你們就會在 Foundry 以及直接在微軟的產品與體驗中看到我們推出的更多模型。」

在日益擁擠的大型語言模型（LLM）市場中，MAI 希望這些模型的賣點在於它們比 Google 和 OpenAI 的模型更便宜，該公司在部落格文章中如此寫道。

MAI-Transcribe-1 的起售價為每小時 0.36 美元。MAI-Voice-1 的起售價為每 100 萬個字元 22 美元，而 MAI-Image-2 的起售價為文本輸入每 100 萬個 token 5 美元，圖像輸出每 100 萬個 token 33 美元。

儘管發布了自有的模型，Suleyman 在接受 VentureBeat 採訪時重申了微軟對與 OpenAI 合作夥伴關係的承諾——儘管 Suleyman 告訴 The Verge，最近對該合作夥伴關係的重新談判，讓微軟得以真正追求這項超級智能研究。

微軟已向該 AI 研究實驗室投資超過 130 億美元，並通過多年合作夥伴關係在其各種產品中託管其模型。微軟在晶片方面也採取了同樣的立場：既生產自己的晶片，也從外部廠商購買。

https://techcrunch.com/2026/04/02/microsoft-takes-on-ai-rivals-with-three-new-foundational-models/