蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

2025-11-14 16:06·213天前·inclusionAI

AI 摘要

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

该来源未收录可展示正文，站内仅提供摘要。

多模态数据/训练论文/研究

阅读原文

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

2025-11-14 16:06·213天前·inclusionAI

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文github.com

多模态数据/训练论文/研究