mlx-audio v0.4.4 发布：新增 15+ 个 TTS/ASR/VAD 模型及服务器改进

Berryxia.AI@berryxia

2026-06-07 00:48·8天前

AI 摘要

mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：`uv pip install -U mlx-audio`。

🚀 mlx-audio v0.4.4 已发布--这是我们迄今为止推出的功能最强大的版本。新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。

🎤 新增的 TTS 语音引擎： • VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语言） • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3（VoiceDesign 技术支持）

📝 新增的 STT/ASR （语音转文本/自动语音识别）工具： • Mega-ASR（基于 Qwen3-ASR 1.7B 模型，支持 LoRA 路由技术） • Nemotron 3.5 ASR（支持实时语音识别功能） • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR（长文本转录速度提升 1.7 倍）

🔊 新增的语音处理组件及编码器： • Silero VAD、FSMN-VAD、Step-Audio 2

⚙️ 服务器改进：新增了与 OpenAI 兼容的数据格式（response_format），支持 /v1/audio/voices 格式以及逐词时间戳功能；服务器端的语音活动检测功能已由 lllucas 完成开发。

安装方法：`uv pip install -U mlx-audio`

明天安装测试看看实际效果，对于中文的支持效果如何？

Prince Canuma🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, and an expanded OpenAI-compatible audio ...

开源/仓库开源生态语音

在 X 查看原推

Berryxia.AI@berryxia · X