HuggingFace Daily Papers(社区热门论文)
68
XL-SafetyBench:一个基于国家的跨文化大语言模型安全与文化敏感性基准
AI 摘要
针对现有大语言模型安全基准的英语中心主义局限,研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例,设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标,能更好区分原则性拒绝与理解失败。对37个模型的评估发现,前沿模型的越狱鲁棒性与文化意识不耦合,而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org