HuggingFace Daily Papers（社区热门论文）

XL-SafetyBench：一个基于国家的跨文化大语言模型安全与文化敏感性基准

2026-05-07 08:00·38天前

AI 摘要

针对现有大语言模型安全基准的英语中心主义局限，研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例，设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标，能更好区分原则性拒绝与理解失败。对37个模型的评估发现，前沿模型的越狱鲁棒性与文化意识不耦合，而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。

该来源未收录可展示正文，站内仅提供摘要。

安全/对齐论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

XL-SafetyBench：一个基于国家的跨文化大语言模型安全与文化敏感性基准

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

安全/对齐论文/研究评测/基准