HuggingFace Daily Papers（社区热门论文）

RewardHarness：一种自进化的智能体奖励框架

2026-05-09 08:00·36天前

AI 摘要

RewardHarness 将奖励建模重构为上下文进化问题，而非传统的权重优化。该框架仅需约100条人类偏好示例，通过协调器与冻结子智能体的协作，利用自进化的工具与技能库进行推理判断。其核心在于通过对比预测结果与真实偏好，自动优化工具库，无需额外人工标注。实验表明，仅使用 EditReward 数据集中 0.05% 的数据，该框架在图像编辑评估基准上平均准确率达 47.4%，超越 GPT-5 达 5.3 个百分点。作为 GRPO 微调的奖励信号时，其能使模型在 ImgEdit-Bench 上取得 3.52 的评分。

该来源未收录可展示正文，站内仅提供摘要。

智能体多模态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

RewardHarness：一种自进化的智能体奖励框架

2026-05-09 08:00·36天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体多模态论文/研究