核心概念
OpenAI 發表技術文章,揭露為讓 ChatGPT 語音模式與 Realtime API 在全球規模下維持低延遲,重建 WebRTC 基礎設施的過程。核心洞察是:語音 AI 的延遲感知,本質上是基礎設施問題,而非模型問題。
截至 2026 年,OpenAI 每週活躍用戶超過 9 億(900M WAU),語音 AI 功能的基礎設施需在這個規模下保持穩定低延遲,是重建 WebRTC 堆疊的核心驅動力。
為什麼選擇 WebRTC
WebRTC 是開放標準的即時音訊/視訊傳輸協定。它標準化了互動媒體最難處理的幾個面向:
- ICE:NAT 穿透與連通性建立
- DTLS + SRTP:加密傳輸
- RTCP:串流品質控制與回饋
- 客戶端內建:回聲消除、抖動緩衝(jitter buffering)
對語音 AI 最關鍵的特性:音訊以連續串流抵達。這讓 AI 得以在使用者仍在說話時,同步進行轉錄、推理、工具呼叫或語音生成,而非等待完整音訊上傳後才開始處理。
傳統管線的延遲問題
傳統串接管線:STT → LLM → TTS,每環節疊加延遲:
| 架構 | 端對端延遲 |
|---|---|
| 傳統串接管線 | 1.5–3 秒 |
| OpenAI Realtime API | 300–500ms |
自然對話的輪替間隔(turn gap)在 200–500ms,傳統管線幾乎總是超過人類感知的流暢門檻。Realtime API 的根本改變是讓模型直接「輸入音訊 token、輸出音訊 token」,消除文字中介的轉換開銷。
三個工程挑戰
在擴展 WebRTC 時 OpenAI 遭遇三個根本矛盾:
- 一連接一端口(one-port-per-session):標準 WebRTC 每工作階段獨佔一個媒體終止埠,在大規模基礎設施下不可行
- 有狀態的 ICE/DTLS 工作階段:ICE 和 DTLS 具有狀態性,需要穩定的所有權歸屬,難以水平擴展
- 全球路由的首跳延遲:全球用戶的第一跳路由必須夠低延遲,語音才能感受流暢
關鍵要點
分離轉發器 + 收發器架構(Split Relay + Transceiver)
OpenAI 將 WebRTC 兩個角色拆分:
收發器(Transceiver):
- 擁有 ICE、DTLS、SRTP 協議終止權
- 管理工作階段完整生命週期
- 維護所有有狀態的連接資訊
轉發器(Relay):
- 僅負責封包轉發,不終止 WebRTC 協議
- 以 Go 語言編寫,執行於 userspace
- 僅解析 STUN 標頭/ufrag(用戶片段識別符)
- 後續封包(DTLS、RTP、RTCP)使用快取狀態,保持封包不透明
精妙之處:客戶端看到的仍是標準 WebRTC 行為,但封包在 OpenAI 內部的路由方式已完全改變。轉發器與協議終止解耦,媒體路由可獨立水平擴展。
兩種連接模式
- WebSocket(伺服器對伺服器):客戶端 → 開發者後端 → OpenAI,額外跳點換取可錄音、審核、混音的靈活性
- WebRTC(推薦低延遲):客戶端直連 OpenAI 媒體平面,後端僅作控制平面,消除雙重跳點延遲,鏡像現代 VoIP 拓撲
臨時令牌安全模型
後端為每個工作階段生成短效憑證(有效期約 1 分鐘),客戶端持令牌直接建立 WebRTC 連接。主 API 金鑰永遠不暴露給前端,同時允許透過 instructions 欄位動態注入上下文。
實務應用
對語音 AI 產品開發者的啟示:
- 工具呼叫是延遲殺手:模型觸發工具若需 2 秒,用戶就等 2 秒靜默。解法:Redis 快取讀密集操作;讓模型生成填充語句遮蓋後端延遲
- 重連需要上下文重注入:WebRTC 工作階段不持久,重連時需摘要補充歷史對話,避免 token 膨脹
- 成本 DoS 防護:Realtime API 費用高於純文字 API,需設定工作階段時長上限與閒置自動斷線
- 首要敵人是網路抖動(jitter):WebRTC 雖可處理封包遺失,但過度遮蓋補償反而降低音訊品質
這個架構呼應了 AI Agent 設計模式 中「控制平面與資料平面分離」的設計原則,也體現了 LLM主流地位與替代路徑 討論的「從文字到多模態」轉型路徑。
延伸觀點
綜合多份技術分析,有幾個值得關注的延伸觀察:
WebRTC 正成為語音 AI 基礎設施的事實標準。 2026 年語音 AI 產品(包括 OpenAI、LiveKit、各家 CPaaS 供應商)幾乎一致選用 WebRTC,理由不只是延遲,更因為它的客戶端生態(瀏覽器、iOS、Android 原生支援回聲消除)使開發者無需自行處理媒體栈最底層的問題。
VoIP 拓撲的歷史重演。 OpenAI 的分離架構(信令伺服器 + 媒體對等傳輸)幾乎完全複製了十年前企業 VoIP(SIP + RTP)的設計智慧,差別在於媒體流的另一端現在是 AI 模型而非電話線路。這說明 AI 語音基礎設施正在快速吸收電信業數十年積累的工程知識。
音訊 token 架構的長期意義。 「輸入音訊 token、輸出音訊 token」不只是效能優化,而是讓語音成為模型的一等公民輸入。這與純文字模型的根本差異在於:模型可以感知語調、停頓、情緒節奏,而這些信號在 STT 轉換成文字後完全消失。長期看,這可能使語音互動在情感理解和即時回應上形成文字介面難以追上的差距。
反向連結
以下頁面引用了本頁:
- AI Agent 設計模式(技術與AI)
- LLM主流地位與替代路徑(技術與AI)
- MRC 超算網路協議:OpenAI 的多路徑可靠連接技術(文章精選)
- OpenAI 語音智慧躍升:GPT-Realtime-2 三模型解析(文章精選)
- Parloa——企業語音 AI 客服代理管理平台(文章精選)
- Uber × OpenAI:司機智慧賺錢與乘客語音預約(文章精選)
- Reachy Mini 本地化對話:語音 AI 管線的離線部署實錄(文章精選)
- Reachy Mini 本地語音管道:機器人完全離線 Speech-to-Speech 實作(文章精選)