HuggingFace Daily Papers(社区热门论文)
49
SafeHarbor:用于LLM智能体安全的分层记忆增强护栏
AI 摘要
为应对LLM智能体工具使用能力增强带来的安全风险,研究团队提出了SafeHarbor框架。该框架通过增强对抗生成提取上下文感知的防御规则,并设计了本地分层记忆系统进行动态规则注入,提供无需训练、高效即插即用的安全解决方案。其基于信息熵的自进化机制能通过动态节点分裂与合并持续优化记忆结构。实验表明,SafeHarbor在模糊良性任务和明确恶意攻击上均达到最优性能,在GPT-4o上实现了63.6%的峰值良性效用,同时对有害请求保持超过93%的拒绝率。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org