mlx-audio v0.4.4 发布,所有模型均运行在 Apple Silicon。新增 15+ 个模型:TTS 包括 VoxCPM2(2B 参数、48kHz、30 种语言)、MOSS-TTS、Higgs Audio v3 等;ASR 包括 Mega-ASR(基于 Qwen3-ASR-1.7B + LoRA 路由)、Nemotron 3.5 ASR(实时流式)、Cohere ASR(长文本转录速度提升 1.7 倍)等;VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令:`uv pip install -U mlx-audio`。
🚀 mlx-audio v0.4.4 已发布--这是我们迄今为止推出的功能最强大的版本。 新增了 15 个 TTS(文本转语音)、ASR(自动语音识别)及 VAD(语音活动检测)模型,提升了长文本内容转录的速度,并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。
🎤 新增的 TTS 语音引擎: • VoxCPM2(支持 2B 语言库、48kHz 音频格式、30 种语言) • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3(VoiceDesign 技术支持)
📝 新增的 STT/ASR (语音转文本/自动语音识别)工具: • Mega-ASR(基于 Qwen3-ASR 1.7B 模型,支持 LoRA 路由技术) • Nemotron 3.5 ASR(支持实时语音识别功能) • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR(长文本转录速度提升 1.7 倍)
🔊 新增的语音处理组件及编码器: • Silero VAD、FSMN-VAD、Step-Audio 2
⚙️ 服务器改进:新增了与 OpenAI 兼容的数据格式(response_format),支持 /v1/audio/voices 格式以及逐词时间戳功能;服务器端的语音活动检测功能已由 lllucas 完成开发。
安装方法:`uv pip install -U mlx-audio`
明天安装测试看看实际效果,对于中文的支持效果如何?