HuggingFace Daily Papers（社区热门论文）

DeltaRubric：通过联合规划与验证生成多模态奖励模型

2026-05-10 08:00·35天前

AI 摘要

针对多模态大语言模型对齐中奖励模型不可靠的问题，本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程：模型先作为“分歧规划器”生成针对具体实例的中立验证检查表，再转为“检查表验证器”依据图像和问题执行检查，输出基于事实的判断。该方法被构建为多角色强化学习问题，以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明，DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分，大幅优于无检查表基线，证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。

该来源未收录可展示正文，站内仅提供摘要。

多模态推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

DeltaRubric：通过联合规划与验证生成多模态奖励模型

2026-05-10 08:00·35天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态推理论文/研究