
OpenAI 如何大規模實現低延遲語音人工智慧
OpenAI 詳細介紹了其重新架構的 WebRTC 堆疊,透過採用中繼與收發器分離的模型,克服了 Kubernetes 網路限制,並實現了無縫的即時語音互動。
背景
OpenAI 發表技術文章揭露其如何透過 WebRTC 協議實現低延遲的語音 AI 服務,特別是針對 ChatGPT 語音模式與 Realtime API 的大規模部署。為了在維持全球 9 億週活躍用戶規模的同時,確保對話能像真人般流暢,OpenAI 捨棄了傳統的 SFU 媒體伺服器架構,轉而採用「收發機」(Transceiver)模型,將 WebRTC 連線終止於邊緣節點,再轉換為內部協議與推論後端對接。
社群觀點
在 Hacker News 的討論中,社群對於 OpenAI 選擇 WebRTC 作為基礎架構多持肯定態度,認為這利用了現成的加密、NAT 穿透與編解碼器協商標準,避免了重複造輪子。然而,針對 OpenAI 宣稱的技術挑戰,資深開發者提出了尖銳的質疑。有評論指出,OpenAI 所描述的基礎設施衝突,本質上是 libwebrtc 庫的限制而非 WebRTC 協議本身的問題。該觀點認為,若能正確配置功能旗標或深入理解 Kubernetes 上的網路調優,許多延遲問題其實能以更低成本的方式解決,甚至不需要依賴複雜的轉發架構。
除了底層架構的爭論,使用者體驗是另一個討論焦點。許多用戶反映,雖然 OpenAI 追求極致的低延遲,但這種「快」有時反而適得其反。目前的語音模型在處理人類自然的停頓與思考時顯得過於急躁,常在使用者尚未說完話時就強行介入,導致對話過程充滿壓力,使用者必須在腦中先構思好完整句子才敢開口。此外,部分資深用戶認為語音模式雖然新奇,但在處理需要深度思考、結構化資訊或長篇大論的任務時,表現遠不如文字模式,甚至顯得有些「愚笨」。
討論中也觸及了數據透明度與商業動機。有留言質疑 OpenAI 在文中強調 9 億週活躍用戶的數據,實則是在為未來的 IPO 造勢,因為該數字代表的是 ChatGPT 整體用戶,而非真正使用語音功能的受眾。同時,社群也對語音訓練數據的來源表示關注,認為技術細節固然重要,但數據倫理同樣不容忽視。儘管存在這些批評,開發者社群對於開源工具的貢獻仍感到興奮,特別是 OpenAI 點名感謝了 Pion 等開源專案,這被視為對開源生態系的一種認可。
延伸閱讀
在討論串中,開發者推薦了多個實用的開源資源。Pipecat 是一個受到高度關注的框架,旨在幫助開發者構建即時語音 AI 應用,並提供了針對 ESP32 等低成本硬體的實作範例。針對本地端語音助理的開發,有網友分享了結合 Gemma 4、Kokoro TTS 與 Whisper 的 Strawberry 專案。此外,對於想深入了解 WebRTC 運作原理的人,WebRTC for the Curious 是一本被廣為推薦的電子書。針對服務高可用性,pion/webrtc-zero-downtime-restart 則提供了在不中斷連線的情況下重啟服務的技術參考。
相關文章