HuggingFace Daily Papers（社区热门论文）

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

2026-05-06 08:00·40天前

AI 摘要

研究团队推出SWE-WebDev Bench评估框架，从交互模式、机构角色和复杂度三个维度，通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷：存在将丰富业务需求过度简化的“规范瓶颈”；普遍存在前端与后端脱节，精美UI常掩盖缺失或故障的后端；生产就绪度陡降，工程质量得分无平台超过60%，且人工后期工作量差异大；安全与基础设施问题广泛，安全得分无平台超过65%，并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

该来源未收录可展示正文，站内仅提供摘要。

智能体编码论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

2026-05-06 08:00·40天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体编码论文/研究评测/基准