HuggingFace Daily Papers(社区热门论文)
65
Workflow-GYM:面向真实世界专业领域长周期GUI智能体任务的基准
AI 摘要
Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org