随着AI智能体在复杂工作流中的广泛应用,其安全风险日益凸显。研究团队推出DecodingTrust-Agent Platform (DTap),这是首个可控、交互式的AI智能体红队测试平台,覆盖14个真实世界领域和超过50个模拟环境,复现了Google Workspace、Paypal和Slack等系统。平台进一步提出自主红队测试智能体DTap-Red,能系统探索提示、工具、技能、环境等注入向量,并自主发现针对恶意目标的攻击策略。利用DTap-Red构建了大规模红队测试数据集DTap-Bench,包含跨领域高质量实例,每个配有可验证评判器以自动确认攻击结果。通过DTap对基于多种骨干模型的流行AI智能体进行大规模评估,揭示了系统性漏洞模式,为开发安全下一代智能体提供了重要洞见。