针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。