HuggingFace Daily Papers（社区热门论文）

先思考后评分：视频奖励建模中的解耦推理与评分

2026-05-07 08:00·38天前

AI 摘要

为提升视频奖励模型的泛化能力与训练效率，研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式：首先由多模态大语言模型生成显式思维链推理，再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化：第一阶段结合随机掩码进行判别式冷启动，确保评分稳健性；第二阶段通过双目标强化学习，独立优化推理质量并校准奖励，使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理视频论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

先思考后评分：视频奖励建模中的解耦推理与评分

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理视频论文/研究