OpenAI 如何大規模實現低延遲語音人工智慧

Hacker News·1 天前

OpenAI 詳細介紹了其重新架構的 WebRTC 堆疊，透過採用中繼與收發器分離的模型，克服了 Kubernetes 網路限制，並實現了無縫的即時語音互動。

delivering low latency voice ai at scale

背景

OpenAI 發表技術文章揭露其如何透過 WebRTC 協議實現低延遲的語音 AI 服務，特別是針對 ChatGPT 語音模式與 Realtime API 的大規模部署。為了在維持全球 9 億週活躍用戶規模的同時，確保對話能像真人般流暢，OpenAI 捨棄了傳統的 SFU 媒體伺服器架構，轉而採用「收發機」（Transceiver）模型，將 WebRTC 連線終止於邊緣節點，再轉換為內部協議與推論後端對接。

社群觀點

在 Hacker News 的討論中，社群對於 OpenAI 選擇 WebRTC 作為基礎架構多持肯定態度，認為這利用了現成的加密、NAT 穿透與編解碼器協商標準，避免了重複造輪子。然而，針對 OpenAI 宣稱的技術挑戰，資深開發者提出了尖銳的質疑。有評論指出，OpenAI 所描述的基礎設施衝突，本質上是 libwebrtc 庫的限制而非 WebRTC 協議本身的問題。該觀點認為，若能正確配置功能旗標或深入理解 Kubernetes 上的網路調優，許多延遲問題其實能以更低成本的方式解決，甚至不需要依賴複雜的轉發架構。

除了底層架構的爭論，使用者體驗是另一個討論焦點。許多用戶反映，雖然 OpenAI 追求極致的低延遲，但這種「快」有時反而適得其反。目前的語音模型在處理人類自然的停頓與思考時顯得過於急躁，常在使用者尚未說完話時就強行介入，導致對話過程充滿壓力，使用者必須在腦中先構思好完整句子才敢開口。此外，部分資深用戶認為語音模式雖然新奇，但在處理需要深度思考、結構化資訊或長篇大論的任務時，表現遠不如文字模式，甚至顯得有些「愚笨」。

討論中也觸及了數據透明度與商業動機。有留言質疑 OpenAI 在文中強調 9 億週活躍用戶的數據，實則是在為未來的 IPO 造勢，因為該數字代表的是 ChatGPT 整體用戶，而非真正使用語音功能的受眾。同時，社群也對語音訓練數據的來源表示關注，認為技術細節固然重要，但數據倫理同樣不容忽視。儘管存在這些批評，開發者社群對於開源工具的貢獻仍感到興奮，特別是 OpenAI 點名感謝了 Pion 等開源專案，這被視為對開源生態系的一種認可。

延伸閱讀

在討論串中，開發者推薦了多個實用的開源資源。Pipecat 是一個受到高度關注的框架，旨在幫助開發者構建即時語音 AI 應用，並提供了針對 ESP32 等低成本硬體的實作範例。針對本地端語音助理的開發，有網友分享了結合 Gemma 4、Kokoro TTS 與 Whisper 的 Strawberry 專案。此外，對於想深入了解 WebRTC 運作原理的人，WebRTC for the Curious 是一本被廣為推薦的電子書。針對服務高可用性，pion/webrtc-zero-downtime-restart 則提供了在不中斷連線的情況下重啟服務的技術參考。

— Hacker News

你的個人知識庫

OpenAI 如何大規模實現低延遲語音人工智慧

背景

社群觀點

延伸閱讀