OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
OpenAI 在 Realtime API 推出三款新模型:GPT-Realtime-2 把 GPT-5 级推理带入语音,让 Agent 能边听边想边调用工具完成任务;搭配 GPT-Realtime-Translate(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录),共同把实时语音从"问答交互"推向"可执行任务的语音界面"。
GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型;推理、工具调用、对话连贯 GPT-Realtime-Translate:实时语音翻译模型;70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper:流式语音转文字;边说边转录,低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品: · Voice-to-action(语音驱动行动):听懂需求 → 推理 → 调用工具 → 完成任务。示例:Zillow 的看房助手。 · Systems-to-voice(系统主动播报):把上下文转化为口语化提示。示例:航班延误时主动告知改签方案。 · Voice-to-voice(跨语言对话):实时翻译让不同语言的用户自然交流。示例:Deutsche Telekom 的多语客服。
Priceline 是三者结合的典型:语音搜机票、改酒店、落地后翻译沟通。
GPT-Realtime-2 的关键升级 · Preambles(前置语):可插入 "let me check that" 等过渡语,让用户感知系统在工作。 · 并行工具调用 + 工具透明化:可同时调用多工具,并用语音说明 "正在查日历"。 · 更优雅的失败恢复:能说 "我现在处理这个有点困难",而非沉默或崩溃。 · 上下文窗口 32K → 128K:支撑更长的 agent 流程。 · 更强的领域词汇保持:医疗术语、专有名词识别更稳。 · 可控语调:冷静、共情、振奋等模式可调。 · 可调推理强度:minimal / low / medium / high / xhigh 五档,默认 low,平衡延迟与思考深度。
性能对比(相对 GPT-Realtime-1.5): · Big Bench Audio(音频推理):+15.2%(high 档) · Audio MultiChallenge(指令跟随):+13.8%(xhigh 档)
客户验证(Zillow):在最难的对抗性基准上,呼叫成功率从 69% → 95%(+26 分),且在公平住房合规上更稳健。
GPT-Realtime-Translate 的定位 · 面向客服、跨境销售、教育、活动、媒体等全球化场景。 · 在保持语速同步的同时保留含义,支持口音、方言与领域术语。 · 客户验证(BolnaAI):印度语种(印地语、泰米尔语、泰卢固语)测试中,词错率比此前最佳模型再降 12.5%。 · Vimeo 已用其为产品教学视频做现场多语播报。
GPT-Realtime-Whisper 的应用面 低延迟流式转录,瞄准: · 会议 / 课堂 / 直播实时字幕 · 边谈边生成的会议纪要 · 需要持续理解用户的语音 agent · 客服、医疗、销售、招聘等高频口语场景的后续工作流