OpenAI 語音智慧躍升：GPT-Realtime-2 三模型解析

核心概念

2026 年 5 月 7 日，OpenAI 在 API 中推出三個全新即時語音模型，標誌著語音 AI 從「呼叫—回應」模式正式演進為能夠邊聆聽、邊推理、邊行動的對話代理層。

這次釋出的核心轉變不在於音質提升，而在於語音介面開始具備與大型語言模型同等的推理能力。過去 Realtime API 的語音模型本質上是音訊輸入/輸出的包裝層，推理深度有限；GPT-Realtime-2 則將 GPT-5 等級的推理能力直接整合至語音對話迴圈，讓語音代理能處理複雜請求、管理長對話脈絡，並在對話進行中同步呼叫工具。

三個新模型

GPT-Realtime-2：首個搭載 GPT-5 等級推理的語音模型。核心特性包括：

128,000 token 上下文窗口，可追蹤長對話中的多輪脈絡
能在對話中斷後不遺失上下文（中斷容忍）
支援對話過程中平行呼叫多個工具
在 Big Bench Audio 基準上較前代 GPT-Realtime-1.5 提升 15.2%（high 模式）
在 Audio MultiChallenge 指令遵循基準上提升 13.8%（xhigh 模式）

GPT-Realtime-Translate：即時語音翻譯模型。支援 70+ 語言輸入、13 種語言輸出，能與說話者同步推進翻譯，不需等待語句結束。設計目標是讓多語言語音對話能在單次 API 呼叫中完成，無需外部翻譯層。

GPT-Realtime-Whisper：即時串流語音轉文字。與傳統 Whisper 不同，此模型在使用者說話過程中即時輸出轉錄文字，而非等待語句結束再處理。適合需要即時字幕、語音指令記錄或語音轉意圖（voice-to-intent）的場景。

音訊 Token 計算方式

Realtime API 的計費與文字 API 不同，依音訊時長換算：

使用者輸入：每 100 毫秒 = 1 token（10 秒 = 100 tokens）
模型輸出：每 50 毫秒 = 1 token（10 秒 = 200 tokens）

關鍵要點

定價結構（2026 年 5 月）：
- GPT-Realtime-2：輸入 $32 / 1M tokens，快取輸入 $0.40 / 1M tokens，輸出 $64 / 1M tokens
- GPT-Realtime-Translate：$0.034 / 分鐘
- GPT-Realtime-Whisper：$0.017 / 分鐘
新興開發模式——語音轉行動（Voice-to-Action）：使用者用語音描述需求，系統在對話中推理請求、呼叫工具、完成任務，全程不需要手動操作介面。這是語音 AI 從資訊查詢轉向任務執行的關鍵躍升。
基礎設施延續：三個新模型沿用 OpenAI 現有 Realtime API 架構，透過 WebRTC 傳輸層部署（參見 OpenAI 語音 AI 低延遲架構：WebRTC 大規模部署實錄）。開發者遷移成本低，主要差異在模型選擇參數。
OpenAI 提供配套文件，涵蓋語音代理設計、即時翻譯整合、轉錄工具串接、模型專屬提示策略，顯示這次釋出是以開發者生態為目標的完整產品動作。
早期測試者反饋：音訊輸出自然度與節奏感明顯提升；部分開發者指出特定語言的口音還原存在差異，仍有改善空間。

實務應用

企業客服語音代理：GPT-Realtime-2 的推理能力加上工具呼叫，讓語音客服能在通話中即時查詢資料庫、建立工單、確認訂單狀態，無需轉介人工坐席。

即時多語言會議：GPT-Realtime-Translate 的 70+ 語言支援可直接嵌入視訊會議或語音通話，實現近乎即時的口譯效果，減少對專業口譯員的依賴。

無障礙字幕：GPT-Realtime-Whisper 的串流轉錄特性適合聽覺障礙使用者的即時輔助，以及需要逐字記錄的法律、醫療場景。

語音優先 IDE / 開發工具：結合 Codex 平台的 WebRTC token 支援（早期測試者已驗證），開發者可以用語音指揮 AI 代理執行程式碼修改，進一步推動「免手動」開發工作流。

延伸觀點

來自 Microsoft Azure AI 技術部落格與語音代理架構研究的交叉驗證，帶出三個 OpenAI 原文未深入討論的視角：

推理層的架構位移意義：GPT-Realtime-2 最根本的改變是推理不再是語音轉文字之後的後處理步驟，而是直接內嵌於即時音訊串流中進行。這讓語音代理可以在使用者說話的過程中就開始推斷意圖、準備工具呼叫，而非等待完整語句才開始處理。多個技術評測一致指出，這使得語音代理的「感覺」從「聽完再想」轉變為「邊聽邊理解」，是使用者體驗上的質變。

語音代理必須視為生產工作流系統：多個獨立分析（Microsoft 技術社群、progressiverobot）共同強調，GPT-Realtime-2 的工具呼叫能力讓語音代理正式進入「可對真實資料做寫入操作」的等級——這意味著開發者需要為語音介面建立與後端 API 相同等級的存取控制矩陣、確認流程與稽核日誌。過去語音代理因推理能力有限、風險可控，現在這個前提已不再成立。

企業落地案例驗證實用性：Zillow（房產語音代理）、Deutsche Telekom（多語言客服）、Priceline（旅遊助理）在釋出同期即宣布整合，顯示這次模型釋出是市場拉動而非技術展示。在 MCP 協議普及的背景下（參見多 Agent 系統協作架構：MCP 與 A2A 協議），語音成為 Agent 的另一個觸發入口，而非獨立系統，預期將加速 Agent 在前線服務場景的部署。

反向連結

以下頁面引用了本頁：

GPT-5.5 Instant：ChatGPT 預設模型的幻覺減半與個人化升級（文章精選）
OpenAI 語音 AI 低延遲架構：WebRTC 大規模部署實錄（文章精選）
多 Agent 系統協作架構：MCP 與 A2A 協議（技術與AI）
Reachy Mini 本地語音管道：機器人完全離線 Speech-to-Speech 實作（文章精選）
Gemini 3.5 Live Translate：70 語言近實時語音翻譯（文章精選）
Hugging Face × Cerebras：以 Gemma 4 打造實時語音 AI 堆棧（文章精選）