OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。
OpenAI直接把语音AI拉到GPT-5级别了。
他们今天在API里推出GPT-Realtime-2,这是目前最聪明的语音模型,能让语音代理真正实时协作。
边听你说话、边思考、边解决复杂问题,整个对话过程像真人一样自然流畅。
同时还一起发布了GPT-Realtime-Translate(70+语言实时翻译)和GPT-Realtime-Whisper(实时转录生成字幕),直接把下一代语音界面整明白了。
以前语音代理总像在背台词,现在它终于能真正"听懂你在说什么"并且边听边想。
ChatGPT语音大更新也快来了,OpenAI自己都说"stay tuned,我们在准备"。
这波升级,直接把语音从"辅助工具"推向了"实时智能伙伴"。
你觉得语音代理真正成熟后,第一个被干掉的行业会是哪个?