HuggingFace Daily Papers(社区热门论文)
精选72
AgentForesight:面向多智能体系统早期故障预测的在线审计框架
精选理由
在多agent系统里,一个错误往往被下游接受并导致整个轨迹失败,这篇论文把事后归因变成了在线审计,用小模型在错误扩散前报警,比GPT-4.1还准,做agent部署的值得细读。
AI 摘要
针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org