HuggingFace Daily Papers(社区热门论文)
62
无基准场景下的LLM安全性比较评分验证框架
AI 摘要
针对缺乏标注基准的语言、领域或监管场景,本文提出“无基准比较性安全评分”框架,明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素,并通过工具有效性链替代真实标签验证,包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明,模型安全性取决于具体场景类别和风险度量,因此需完整报告评分、差异、临界率等多维度信息,而非简化为单一排名。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org