FrontierMath 是衡量模型数学推理的核心基准,三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑,做评估的人必须重新审视数据。
我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。 这已标记出约三分之一题目存在致命错误, 且我们相信大多数标记是有效的。 在完成全面人工审核后, 我们将在修正的数据集上发布更新后的分数。
We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of problems, and we believe most of these flags to be valid. We will release updated scores on a corrected dataset after completing a thorough human review.