HuggingFace Daily Papers(社区热门论文)
69
ChildVox: 一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准
AI 摘要
ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org