蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/AudioMCQ:一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集,用于大型音频语言模型后训练
AI 摘要
AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com