精选全部 AI 动态 AI 日报 Agent 接入关于更新日志反馈信源提报

精选全部日报更多

IBM与伯克利利用IT-Bench和MAST诊断企业级AI智能体失败原因 · AI HOT

Hugging Face：Blog（RSS）

精选70

IBM与伯克利利用IT-Bench和MAST诊断企业级AI智能体失败原因

2026-02-19 00:15·117天前

精选理由

企业Agent落地失败的系统性诊断，部署前可参考避坑

AI 摘要

IBM Research与加州大学伯克利分校合作，通过新构建的IT-Bench基准测试和MAST评估框架，系统分析了企业级AI智能体在复杂IT运维任务中的失败原因。研究发现，当前智能体在多步骤规划、长序列操作及工具精确使用方面存在明显不足，导致任务失败率较高。该研究旨在为开发更可靠、适用于实际业务环境的企业级智能体提供关键诊断依据和改进方向。

这是一则列表来源，站内未收录完整正文。

智能体论文/研究评测/基准

阅读完整原文

同一事件 · 1 家报道

4月15日深入VAKRA：智能体的推理、工具使用与失败模式Hugging Face：Blog（RSS）

Hugging Face：Blog（RSS）

精选70

IBM与伯克利利用IT-Bench和MAST诊断企业级AI智能体失败原因

2026-02-19 00:15·117天前

精选理由

企业Agent落地失败的系统性诊断，部署前可参考避坑

AI 摘要

IBM Research与加州大学伯克利分校合作，通过新构建的IT-Bench基准测试和MAST评估框架，系统分析了企业级AI智能体在复杂IT运维任务中的失败原因。研究发现，当前智能体在多步骤规划、长序列操作及工具精确使用方面存在明显不足，导致任务失败率较高。该研究旨在为开发更可靠、适用于实际业务环境的企业级智能体提供关键诊断依据和改进方向。

这是一则列表来源，站内未收录完整正文。

阅读完整原文huggingface.co

智能体论文/研究评测/基准

同一事件 · 1 家报道点击查看

4月15日深入VAKRA：智能体的推理、工具使用与失败模式Hugging Face：Blog（RSS）