今天这个tts有点东西啊！

Berryxia.AI@berryxia

2026-05-06 07:28·40天前

AI 摘要

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

今天这个tts有点东西啊！

所有TTS都在卷"声音有多像人"， Inworld AI却直接把规则改了： Realtime TTS-2 是第一个真正"会听"的实时语音模型。

它不只是说，它会实时听完整段对话、捕捉情绪、语气、节奏，然后决定"该怎么说"。

更狠的是： - 支持自然语言语音指令（像prompt LLM一样指挥声音） - 同一个声音身份横跨100+语言，切换不换人 - 还能用一段文字描述就生成全新声音，保存后直接复用

这已经不是"语音输出"，而是"会倾听、会共情、会适配"的实时对话伙伴。

过去语音AI听起来再真，也总像在背台词。现在，它终于开始"像一个真正注意你的人"那样说话了。

试用链接👉 https：//inworld.ai/tts

Inworld AIIntroducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model that hears the conversation, takes natu...

多模态模型发布语音

在 X 查看原推

Berryxia.AI@berryxia · X

2026-05-06 07:28·40天前

AI 摘要

今天这个tts有点东西啊！

所有TTS都在卷"声音有多像人"， Inworld AI却直接把规则改了： Realtime TTS-2 是第一个真正"会听"的实时语音模型。

它不只是说，它会实时听完整段对话、捕捉情绪、语气、节奏，然后决定"该怎么说"。

这已经不是"语音输出"，而是"会倾听、会共情、会适配"的实时对话伙伴。

过去语音AI听起来再真，也总像在背台词。现在，它终于开始"像一个真正注意你的人"那样说话了。

试用链接👉 https：//inworld.ai/tts

Inworld AIIntroducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model that hears the conversation, takes natu...

多模态模型发布语音

在 X 查看原推x.com