透過 API 中的新模型推進語音智慧

OpenAI·1 天前

我們在 API 中推出了新一代即時語音模型，這些模型可以在人們說話時進行推理、翻譯和轉錄。透過這些模型，開發者可以構建感覺更自然、反應更智慧且能即時採取行動的語音體驗。

2026 年 5 月 7 日

透過 API 中的新模型推進語音智慧

新一代即時語音模型，能夠在人們說話時進行推理、翻譯和轉錄。

我們正在 API 中推出三款音訊模型，為開發者開啟全新類別的語音應用程式。藉由這些模型，開發者可以打造感覺更自然、回應更智慧，並能即時採取行動的語音體驗：

體驗 GPT-Realtime-2

開始工作階段後，請嘗試說出以下內容：

此展示有時間限制。使用即表示您同意 OpenAI 的條款並確認我們的隱私權政策。

語音正成為人們使用軟體最自然的方式之一。它讓人在開車時尋求幫助、在穿梭機場時更改旅行計畫、以偏好的語言獲得支援，或在不停止打字的情況下完成任務。

但打造實用的語音產品不僅僅需要快速的對話輪替或自然的人聲。語音代理需要理解使用者的意圖、追蹤上下文、在請求變更時恢復、在對話持續時使用工具，並以符合當下情境的方式做出回應。

我們推出的這些模型共同將即時音訊從簡單的一問一答，推向真正能執行工作的語音介面：隨著對話展開進行聆聽、推理、翻譯、轉錄並採取行動。

語音作為人與產品之間的介面

隨著語音成為更自然的軟體使用方式，我們看到開發者圍繞著語音 AI 的三種新興模式進行建構：

圖表顯示了三種語音 AI 工作流程：語音轉行動（voice-to-action），將語音連接到程式碼與開發、購物、車載和排程工具等應用程式；系統轉語音（systems-to-voice），將應用程式、行事曆、CRM 和支援儀表板連接到語音；以及語音轉語音（voice-to-voice），連接兩個語音代理。

這些模式也可以協同工作。Priceline 正致力於實現一個未來：旅客可以透過語音管理整個行程——以對話方式搜尋航班和飯店、處理變更（如在航班延誤後調整飯店預訂或獲取 TSA 等候時間的即時更新），並在旅客抵達目的地後翻譯對話。

即時語音：幫助語音模型推理並採取行動

GPT‑Realtime‑2 專為即時語音互動而設計，模型在對請求進行推理、調用工具、處理修正或中斷時，能保持對話流暢，並以適合當下的方式回應。

這些進步體現在與生產環境語音代理密切相關的音訊評估中：GPT‑Realtime‑2 (high) 在 Big Bench Audio 的音訊智慧得分比 GPT‑Realtime‑1.5 高出 15.2%。GPT‑Realtime‑2 (xhigh) 在 Audio MultiChallenge 的指令遵循得分高出 13.8%，優於 GPT‑Realtime‑1.5，並在即時對話中展現出更強的推理、上下文管理和控制能力。

Big Bench Audio 評估支援音訊輸入的語言模型中具挑戰性的推理能力。Audio MultiChallenge（在新視窗中開啟）評估口語對話系統中的多輪對話智慧，包括指令遵循、上下文整合、自我一致性以及處理自然語音修正的能力。

GPT‑Realtime‑2 的魔力展現在多種不同的使用案例中：

在早期測試期間，企業使用 GPT‑Realtime‑2 構建語音代理，幫助客戶和員工透過自然對話完成任務：

即時翻譯：打造即時多語言語音體驗

GPT‑Realtime‑Translate 幫助開發者打造即時多語言語音體驗，每個人都可以使用自己偏好的語言說話，並即時聽到翻譯後的對話以及閱讀即時轉錄稿。它支援超過 70 種輸入語言和 13 種輸出語言，適用於客戶支援、跨境銷售、教育、活動、媒體以及服務全球受眾的創作者平台。

對於開發者而言，即時翻譯需要在跟上說話者速度的同時保留原意，即使人們說話很自然、切換上下文，或使用地區性發音和特定領域的術語。例如，德國電信（Deutsche Telekom）正在測試該模型用於多語言語音互動，更低的延遲和更強的流暢度能讓跨語言對話感覺更自然。

在這段影片中，Vimeo 展示了 GPT‑Realtime‑Translate 如何在產品教學影片播放時進行即時翻譯，讓全球客戶能以偏好的語言獲取更新，而無需等待單獨製作的版本。

即時轉錄：打造低延遲轉錄體驗

GPT‑Realtime‑Whisper 是一款專為低延遲語音轉文字設計的新型串流轉錄模型。它在人們說話時同步轉錄音訊，讓即時產品感覺更快、更靈敏且更自然——從即時顯示的字幕到跟上對話節奏的會議記錄。

該模型使即時語音在業務工作流程發生時即可被利用。團隊可以為會議、課堂、廣播和活動提供字幕；在對話進行中生成筆記和摘要；構建需要持續理解使用者的語音代理；並為客戶支援、醫療保健、銷售、招聘和其他高流量口語互動建立更快的後續工作流程。

安全性

Realtime API 整合了多層防護措施和緩解措施，以防止濫用。我們在 Realtime API 工作階段中使用主動分類器，這意味著如果檢測到某些對話違反了我們的有害內容指南，對話可能會被停止。開發者還可以使用 Agents SDK 輕鬆添加自己的額外安全護欄。

我們的使用政策禁止將我們服務的輸出用於垃圾郵件、欺騙或其他有害目的。開發者還必須向終端用戶明確說明他們正在與 AI 互動，除非從上下文中已經可以明顯看出這一點。

Realtime API 完全支援歐盟應用程式的歐盟數據駐留（EU Data Residency），並受我們的企業隱私承諾保障。

價格與可用性

GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 已在 Realtime API 中提供。GPT‑Realtime‑2 的定價為每 100 萬個音訊輸入 token 32 美元（快取輸入 token 為 0.40 美元），每 100 萬個音訊輸出 token 64 美元。GPT‑Realtime‑Translate 的定價為每分鐘 0.034 美元。GPT‑Realtime‑Whisper 的定價為每分鐘 0.017 美元。

您可以在 Playground（在新視窗中開啟）中測試新的即時語音模型。如果您安裝了 Codex，請點擊下方提示詞上的提交，將 GPT‑Realtime‑2 新增到您現有的應用程式中，或使用它建立一個新應用程式。

使用 gpt-realtime-2 模型建立或新增一個極簡的 Realtime 2 WebRTC 語音代理。遵循最新的 OpenAI Realtime API 文件進行 WebRTC 和工作階段設定。如果此資料夾已包含應用程式，請將其新增至現有應用程式。否則，建立一個小型本地網頁應用程式。新增一個伺服器端工作階段端點，使用 OPENAI_API_KEY 並嚴格按照文件將瀏覽器 SDP 發送到 /v1/realtime/calls：名為 sdp 和 session 的 multipart FormData 欄位，而非檔案上傳。使用 RTCPeerConnection 連接瀏覽器麥克風輸入和模型音訊輸出，開啟一個 oai-events 資料通道，並使用 session.update 註冊一個範例函式工具：check_calendar(date, time)，該工具回傳請求的時間是否可用。保持程式碼精簡並包含設定/執行說明。

提交

作者

延伸閱讀

20250826

產品 | 2026 年 5 月 5 日

購買 ChatGPT 廣告的新方式 > 封面圖片

產品 | 2026 年 5 月 5 日

推出進階帳戶安全功能

產品 | 2026 年 4 月 30 日

— OpenAI

其他收藏 · 0

透過 API 中的新模型推進語音智慧

OpenAI·1 天前

2026 年 5 月 7 日

透過 API 中的新模型推進語音智慧

新一代即時語音模型，能夠在人們說話時進行推理、翻譯和轉錄。