HuggingFace Daily Papers(社区热门论文)
54
BalCapRL:基于强化学习的平衡型多模态大语言模型图像描述框架
AI 摘要
针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org