xAI 发布 Grok Voice Agent API
xAI发布Grok语音Agent API,延迟低于1秒且定价仅为OpenAI一半,已集成至Tesla车载系统
xAI 开放 Grok Voice Agent API,基于自研语音栈(VAD、tokenizer、音频模型),Big Bench Audio 基准排名第一,首音频延迟低于 1 秒(比竞品快近 5 倍),定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具,已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线,支持 [whisper] 等听觉标签,兼容 OpenAI Realtime API 规范。
今天,我们激动地推出 Grok 语音智能体 API(Grok Voice Agent API),让开发者能够构建支持数十种语言、调用工具以及搜索实时数据的语音智能体。
Grok 语音智能体 API 基于与驱动我们移动应用及特斯拉车辆中数百万用户使用的 Grok Voice 相同的技术栈构建,我们很高兴能通过 xAI API 将这一成熟技术开放给所有人。
**智能且迅速**
Grok 语音智能体是市场上最快、最智能的语音智能体。
我们完全自研了整个语音技术栈,从零开始训练了自主的语音活动检测(VAD)、分词器(tokenizer)以及音频模型。对技术栈中每一个组件的精细控制使我们能够快速迭代并持续提升 Grok 的智能水平与响应速度。
Grok 语音智能体 API 在 Big Bench Audio(主流音频推理基准测试,用于衡量语音智能体解决复杂问题的能力)中排名第一。首音频平均响应时间低于 1 秒,Grok 比最接近的竞品快近 5 倍。
**Big Bench Audio:智能度 vs 延迟**
音频推理基准测试(由 Artificial Analysis 独立验证)
得分(%)
95%
首音频时间(秒)
5 秒
**定价**
Grok 语音智能体 API 在成本效率方面引领行业。开发者按连接时长付费,统一费率为每分钟 0.05 美元。
**每分钟成本** OpenAI 按输入和输出 token 计费。0.10 美元/分钟是一个非常保守的混合估算。在生产环境中,定价通常超过 0.10 美元/分钟。
**多语言能力**
Grok 语音智能体能够以接近母语的水平使用数十种语言,准确捕捉方言和发音中的细微差别。Grok 语音智能体经过训练,可自动以用户所说的语言进行回应,并能在对话中无缝切换语言。开发者还可以通过系统提示词指示 Grok 始终以特定语言回复。
在与 OpenAI Realtime API 的盲测人工对比评估中,Grok 在发音、口音和韵律等维度上始终被评价为更优模型。
**多语言表现**
与 OpenAI Realtime API 的胜率对比(盲测人工评估)
Grok
OpenAI Realtime API
**特斯拉中的 Grok Voice**
特斯拉是 Grok 语音智能体 API 的关键设计合作伙伴,该 API 现已为数百万辆汽车中的 Grok 提供支持。
Grok 感觉就像是 Tesla 的自然延伸,这得益于特殊的工具,使其能够获取车辆状态、查找路线并控制导航。Grok 协同使用这些工具,提供无缝的路线规划体验。例如,让 Grok 规划一次公路旅行,它会搜索 X 平台获取推荐,计算最优路线并添加停靠点,在几秒钟内生成完整的行程单。
Grok 语音智能体可以实时执行任务和查找信息。通过我们的 API,开发者可以轻松集成自己的自定义工具,或利用 xAI 强大的实时搜索能力,覆盖 X 平台和整个网络。
json 自然、富有表现力的语音
我们很高兴为 Grok 语音智能体 API 提供多种富有表现力的语音,包括 Ara、Eve 和 Leo。我们的语音在日常对话中听起来自然,并且在医疗、金融和法律等领域的专业术语发音上也表现出色。
客户支持
金融
医疗
法律
为了增强真实感,开发者甚至可以让模型使用听觉提示,例如 `[whisper]`、`[sigh]` 和 `[laugh]`。 开始构建
Grok 语音智能体 API 兼容 OpenAI Realtime API 规范,也可通过官方 xAI LiveKit 插件使用。
我们还构建了一个语音游乐场,您可以直接从浏览器测试各种语音。
我们很高兴能继续快速迭代。在接下来的几周内,我们还将发布: - 独立的文本转语音和语音转文本端点 - 在发音和延迟方面性能更强的音频模型
我们迫不及待地想听听你们的作品! 试试我们的语音游乐场
通过 xAI Cloud Console 与 Grok 语音智能体对话
打开游乐场