HuggingFace Daily Papers(社区热门论文)
55
Soohak:一个用于评估大语言模型研究级数学能力的数学家编写基准
AI 摘要
为评估大语言模型的研究级数学能力,研究团队推出了包含439道全新原创题目的Soohak基准。该基准包含挑战和拒绝识别两个子集。在挑战子集上,Gemini-3-Pro、GPT-5和Claude-Opus-4.5的得分分别为30.4%、26.4%和10.4%,领先的开源模型均低于15%,显示模型能力仍有巨大提升空间。在拒绝识别子集上,所有模型得分均未超过50%,这揭示了模型在识别问题定义不清时主动暂停而非盲目作答的能力严重不足,成为一个新的关键优化目标。为防止数据污染,完整数据集将于2026年底公开。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org