HuggingFace Daily Papers(社区热门论文)
精选70
用对抗性黑客-修补循环强化Agent基准测试对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。
智能体安全/对齐论文/研究
推荐理由:现有 Agent 基准的验证器太容易被钻空子了,这篇论文挖出 16% 可 hack 的任务,还提出用三个 LLM 自动对抗修补的循环方法,做 RL 评估的值得细读。