HuggingFace Daily Papers（社区热门论文）

覆盖计算机使用中的人类操作空间：数据合成与基准测试

2026-05-12 08:00·33天前

AI 摘要

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

该来源未收录可展示正文，站内仅提供摘要。

智能体Microsoft多模态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

覆盖计算机使用中的人类操作空间：数据合成与基准测试

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体Microsoft多模态论文/研究