HuggingFace Daily Papers(社区热门论文)
61
PresentAgent-2:迈向通用多模态演示智能体
AI 摘要
PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org