HuggingFace Daily Papers（社区热门论文）

无基准场景下的LLM安全性比较评分验证框架

2026-05-07 08:00·38天前

AI 摘要

针对缺乏标注基准的语言、领域或监管场景，本文提出“无基准比较性安全评分”框架，明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素，并通过工具有效性链替代真实标签验证，包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明，模型安全性取决于具体场景类别和风险度量，因此需完整报告评分、差异、临界率等多维度信息，而非简化为单一排名。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

无基准场景下的LLM安全性比较评分验证框架

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐论文/研究评测/基准