Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。
今天这个tts有点东西啊!
所有TTS都在卷"声音有多像人", Inworld AI却直接把规则改了: Realtime TTS-2 是第一个真正"会听"的实时语音模型。
它不只是说, 它会实时听完整段对话、捕捉情绪、语气、节奏, 然后决定"该怎么说"。
更狠的是: - 支持自然语言语音指令(像prompt LLM一样指挥声音) - 同一个声音身份横跨100+语言,切换不换人 - 还能用一段文字描述就生成全新声音,保存后直接复用
这已经不是"语音输出", 而是"会倾听、会共情、会适配"的实时对话伙伴。
过去语音AI听起来再真,也总像在背台词。 现在,它终于开始"像一个真正注意你的人"那样说话了。
试用链接👉 https://inworld.ai/tts