HuggingFace Daily Papers（社区热门论文）

VideoKR：面向知识与推理密集型视频理解

2026-06-03 08:00·12天前

AI 摘要

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料，包含315K个视频推理示例，覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道，并构建了专家标注基准VideoKR-Eval。实验表明，在标准SFT→GRPO流水线下，基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法，同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

该来源未收录可展示正文，站内仅提供摘要。

多模态数据/训练视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

VideoKR：面向知识与推理密集型视频理解

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态数据/训练视频论文/研究