核心概念
2026 年 5 月 7 日,OpenAI 在 API 中推出三個全新即時語音模型,標誌著語音 AI 從「呼叫—回應」模式正式演進為能夠邊聆聽、邊推理、邊行動的對話代理層。
這次釋出的核心轉變不在於音質提升,而在於語音介面開始具備與大型語言模型同等的推理能力。過去 Realtime API 的語音模型本質上是音訊輸入/輸出的包裝層,推理深度有限;GPT-Realtime-2 則將 GPT-5 等級的推理能力直接整合至語音對話迴圈,讓語音代理能處理複雜請求、管理長對話脈絡,並在對話進行中同步呼叫工具。
三個新模型
GPT-Realtime-2:首個搭載 GPT-5 等級推理的語音模型。核心特性包括:
- 128,000 token 上下文窗口,可追蹤長對話中的多輪脈絡
- 能在對話中斷後不遺失上下文(中斷容忍)
- 支援對話過程中平行呼叫多個工具
- 在 Big Bench Audio 基準上較前代 GPT-Realtime-1.5 提升 15.2%(high 模式)
- 在 Audio MultiChallenge 指令遵循基準上提升 13.8%(xhigh 模式)
GPT-Realtime-Translate:即時語音翻譯模型。支援 70+ 語言輸入、13 種語言輸出,能與說話者同步推進翻譯,不需等待語句結束。設計目標是讓多語言語音對話能在單次 API 呼叫中完成,無需外部翻譯層。
GPT-Realtime-Whisper:即時串流語音轉文字。與傳統 Whisper 不同,此模型在使用者說話過程中即時輸出轉錄文字,而非等待語句結束再處理。適合需要即時字幕、語音指令記錄或語音轉意圖(voice-to-intent)的場景。
音訊 Token 計算方式
Realtime API 的計費與文字 API 不同,依音訊時長換算:
- 使用者輸入:每 100 毫秒 = 1 token(10 秒 = 100 tokens)
- 模型輸出:每 50 毫秒 = 1 token(10 秒 = 200 tokens)
關鍵要點
-
定價結構(2026 年 5 月):
- GPT-Realtime-2:輸入 $32 / 1M tokens,快取輸入 $0.40 / 1M tokens,輸出 $64 / 1M tokens
- GPT-Realtime-Translate:$0.034 / 分鐘
- GPT-Realtime-Whisper:$0.017 / 分鐘
-
新興開發模式——語音轉行動(Voice-to-Action):使用者用語音描述需求,系統在對話中推理請求、呼叫工具、完成任務,全程不需要手動操作介面。這是語音 AI 從資訊查詢轉向任務執行的關鍵躍升。
-
基礎設施延續:三個新模型沿用 OpenAI 現有 Realtime API 架構,透過 WebRTC 傳輸層部署(參見 OpenAI 語音 AI 低延遲架構:WebRTC 大規模部署實錄)。開發者遷移成本低,主要差異在模型選擇參數。
-
OpenAI 提供配套文件,涵蓋語音代理設計、即時翻譯整合、轉錄工具串接、模型專屬提示策略,顯示這次釋出是以開發者生態為目標的完整產品動作。
-
早期測試者反饋:音訊輸出自然度與節奏感明顯提升;部分開發者指出特定語言的口音還原存在差異,仍有改善空間。
實務應用
企業客服語音代理:GPT-Realtime-2 的推理能力加上工具呼叫,讓語音客服能在通話中即時查詢資料庫、建立工單、確認訂單狀態,無需轉介人工坐席。
即時多語言會議:GPT-Realtime-Translate 的 70+ 語言支援可直接嵌入視訊會議或語音通話,實現近乎即時的口譯效果,減少對專業口譯員的依賴。
無障礙字幕:GPT-Realtime-Whisper 的串流轉錄特性適合聽覺障礙使用者的即時輔助,以及需要逐字記錄的法律、醫療場景。
語音優先 IDE / 開發工具:結合 Codex 平台的 WebRTC token 支援(早期測試者已驗證),開發者可以用語音指揮 AI 代理執行程式碼修改,進一步推動「免手動」開發工作流。
延伸觀點
來自 Microsoft Azure AI 技術部落格與語音代理架構研究的交叉驗證,帶出三個 OpenAI 原文未深入討論的視角:
推理層的架構位移意義:GPT-Realtime-2 最根本的改變是推理不再是語音轉文字之後的後處理步驟,而是直接內嵌於即時音訊串流中進行。這讓語音代理可以在使用者說話的過程中就開始推斷意圖、準備工具呼叫,而非等待完整語句才開始處理。多個技術評測一致指出,這使得語音代理的「感覺」從「聽完再想」轉變為「邊聽邊理解」,是使用者體驗上的質變。
語音代理必須視為生產工作流系統:多個獨立分析(Microsoft 技術社群、progressiverobot)共同強調,GPT-Realtime-2 的工具呼叫能力讓語音代理正式進入「可對真實資料做寫入操作」的等級——這意味著開發者需要為語音介面建立與後端 API 相同等級的存取控制矩陣、確認流程與稽核日誌。過去語音代理因推理能力有限、風險可控,現在這個前提已不再成立。
企業落地案例驗證實用性:Zillow(房產語音代理)、Deutsche Telekom(多語言客服)、Priceline(旅遊助理)在釋出同期即宣布整合,顯示這次模型釋出是市場拉動而非技術展示。在 MCP 協議普及的背景下(參見 多 Agent 系統協作架構:MCP 與 A2A 協議),語音成為 Agent 的另一個觸發入口,而非獨立系統,預期將加速 Agent 在前線服務場景的部署。
反向連結
以下頁面引用了本頁: