
我們在 API 中推出了新一代即時語音模型,這些模型可以在人們說話時進行推理、翻譯和轉錄。透過這些模型,開發者可以構建感覺更自然、反應更智慧且能即時採取行動的語音體驗。
2026 年 5 月 7 日
新一代即時語音模型,能夠在人們說話時進行推理、翻譯和轉錄。
我們正在 API 中推出三款音訊模型,為開發者開啟全新類別的語音應用程式。藉由這些模型,開發者可以打造感覺更自然、回應更智慧,並能即時採取行動的語音體驗:
開始工作階段後,請嘗試說出以下內容:
此展示有時間限制。使用即表示您同意 OpenAI 的條款並確認我們的隱私權政策。
語音正成為人們使用軟體最自然的方式之一。它讓人在開車時尋求幫助、在穿梭機場時更改旅行計畫、以偏好的語言獲得支援,或在不停止打字的情況下完成任務。
但打造實用的語音產品不僅僅需要快速的對話輪替或自然的人聲。語音代理需要理解使用者的意圖、追蹤上下文、在請求變更時恢復、在對話持續時使用工具,並以符合當下情境的方式做出回應。
我們推出的這些模型共同將即時音訊從簡單的一問一答,推向真正能執行工作的語音介面:隨著對話展開進行聆聽、推理、翻譯、轉錄並採取行動。
隨著語音成為更自然的軟體使用方式,我們看到開發者圍繞著語音 AI 的三種新興模式進行建構:
這些模式也可以協同工作。Priceline 正致力於實現一個未來:旅客可以透過語音管理整個行程——以對話方式搜尋航班和飯店、處理變更(如在航班延誤後調整飯店預訂或獲取 TSA 等候時間的即時更新),並在旅客抵達目的地後翻譯對話。
GPT‑Realtime‑2 專為即時語音互動而設計,模型在對請求進行推理、調用工具、處理修正或中斷時,能保持對話流暢,並以適合當下的方式回應。
這些進步體現在與生產環境語音代理密切相關的音訊評估中:GPT‑Realtime‑2 (high) 在 Big Bench Audio 的音訊智慧得分比 GPT‑Realtime‑1.5 高出 15.2%。GPT‑Realtime‑2 (xhigh) 在 Audio MultiChallenge 的指令遵循得分高出 13.8%,優於 GPT‑Realtime‑1.5,並在即時對話中展現出更強的推理、上下文管理和控制能力。
Big Bench Audio 評估支援音訊輸入的語言模型中具挑戰性的推理能力。Audio MultiChallenge(在新視窗中開啟)評估口語對話系統中的多輪對話智慧,包括指令遵循、上下文整合、自我一致性以及處理自然語音修正的能力。
GPT‑Realtime‑2 的魔力展現在多種不同的使用案例中:
在早期測試期間,企業使用 GPT‑Realtime‑2 構建語音代理,幫助客戶和員工透過自然對話完成任務:
GPT‑Realtime‑Translate 幫助開發者打造即時多語言語音體驗,每個人都可以使用自己偏好的語言說話,並即時聽到翻譯後的對話以及閱讀即時轉錄稿。它支援超過 70 種輸入語言和 13 種輸出語言,適用於客戶支援、跨境銷售、教育、活動、媒體以及服務全球受眾的創作者平台。
對於開發者而言,即時翻譯需要在跟上說話者速度的同時保留原意,即使人們說話很自然、切換上下文,或使用地區性發音和特定領域的術語。例如,德國電信(Deutsche Telekom)正在測試該模型用於多語言語音互動,更低的延遲和更強的流暢度能讓跨語言對話感覺更自然。
在這段影片中,Vimeo 展示了 GPT‑Realtime‑Translate 如何在產品教學影片播放時進行即時翻譯,讓全球客戶能以偏好的語言獲取更新,而無需等待單獨製作的版本。
GPT‑Realtime‑Whisper 是一款專為低延遲語音轉文字設計的新型串流轉錄模型。它在人們說話時同步轉錄音訊,讓即時產品感覺更快、更靈敏且更自然——從即時顯示的字幕到跟上對話節奏的會議記錄。
該模型使即時語音在業務工作流程發生時即可被利用。團隊可以為會議、課堂、廣播和活動提供字幕;在對話進行中生成筆記和摘要;構建需要持續理解使用者的語音代理;並為客戶支援、醫療保健、銷售、招聘和其他高流量口語互動建立更快的後續工作流程。
Realtime API 整合了多層防護措施和緩解措施,以防止濫用。我們在 Realtime API 工作階段中使用主動分類器,這意味著如果檢測到某些對話違反了我們的有害內容指南,對話可能會被停止。開發者還可以使用 Agents SDK 輕鬆添加自己的額外安全護欄。
我們的使用政策禁止將我們服務的輸出用於垃圾郵件、欺騙或其他有害目的。開發者還必須向終端用戶明確說明他們正在與 AI 互動,除非從上下文中已經可以明顯看出這一點。
Realtime API 完全支援歐盟應用程式的歐盟數據駐留(EU Data Residency),並受我們的企業隱私承諾保障。
GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 已在 Realtime API 中提供。GPT‑Realtime‑2 的定價為每 100 萬個音訊輸入 token 32 美元(快取輸入 token 為 0.40 美元),每 100 萬個音訊輸出 token 64 美元。GPT‑Realtime‑Translate 的定價為每分鐘 0.034 美元。GPT‑Realtime‑Whisper 的定價為每分鐘 0.017 美元。
您可以在 Playground(在新視窗中開啟)中測試新的即時語音模型。如果您安裝了 Codex,請點擊下方提示詞上的提交,將 GPT‑Realtime‑2 新增到您現有的應用程式中,或使用它建立一個新應用程式。
使用 gpt-realtime-2 模型建立或新增一個極簡的 Realtime 2 WebRTC 語音代理。遵循最新的 OpenAI Realtime API 文件進行 WebRTC 和工作階段設定。如果此資料夾已包含應用程式,請將其新增至現有應用程式。否則,建立一個小型本地網頁應用程式。新增一個伺服器端工作階段端點,使用 OPENAI_API_KEY 並嚴格按照文件將瀏覽器 SDP 發送到 /v1/realtime/calls:名為 sdp 和 session 的 multipart FormData 欄位,而非檔案上傳。使用 RTCPeerConnection 連接瀏覽器麥克風輸入和模型音訊輸出,開啟一個 oai-events 資料通道,並使用 session.update 註冊一個範例函式工具:check_calendar(date, time),該工具回傳請求的時間是否可用。保持程式碼精簡並包含設定/執行說明。
提交

產品 | 2026 年 5 月 5 日

產品 | 2026 年 5 月 5 日

產品 | 2026 年 4 月 30 日
— OpenAI
相關文章
其他收藏 · 0