
OpenAI 週四表示其 API 現在將包含多項全新的語音智慧功能,旨在幫助開發者建立能夠與用戶交談、轉錄及翻譯對話的應用程式。
OpenAI 週四表示,其 API 現在將包含多項全新的語音智能功能,旨在幫助開發者建立能夠與用戶進行對話、轉錄及翻譯對話的應用程式。
該公司的新型號 GPT-Realtime-2 是另一款語音模型,旨在創造能夠與用戶交談的逼真語音模擬。然而,與其前身(GPT-Realtime-1.5)不同,這款模型具備 GPT-5 等級的推理能力,OpenAI 表示這是為了處理用戶更複雜的請求而設計的。
該公司還推出了 GPT-Realtime-Translate,顧名思義,旨在提供能與用戶對話節奏「保持同步」的即時翻譯服務。該功能支援超過 70 種輸入語言(即模型能理解的語言)和 13 種輸出語言(即模型傳達給說話者的語言)。
最後,該公司還推出了一項新的轉錄功能 GPT-Realtime-Whisper,為用戶提供在互動發生時即可擷取的即時語音轉文字功能。
該公司表示:「我們推出的這些模型共同將即時音訊從簡單的一問一答,推向真正能執行工作的語音介面:在對話展開時進行聆聽、推理、翻譯、轉錄並採取行動。」
這些更新對誰有利?想要擴展客戶服務能力的企業顯然是目標對象。然而,OpenAI 也指出,其新功能將協助廣泛的領域,包括教育、媒體、活動和創作者平台等。
儘管從企業角度來看這些工具非常實用,但它們也很有可能被誤用。該公司表示已建立防護機制,以防止其新功能被濫用於製造垃圾訊息、詐騙或其他形式的網路濫用。OpenAI 表示,系統中已嵌入特定的觸發機制,因此「如果偵測到對話違反了我們的有害內容指南,對話可以被終止」。
所有新的語音模型都包含在 OpenAI 的 Realtime API 中。Translate 和 Whisper 按分鐘計費,而 GPT-Realtime-2 則按 Token 消耗量計費。
相關文章
其他收藏 · 0