FrontierMath评测发现致命错误，将更新修正后分数

Epoch AI@EpochAIResearch

精选80

2026-05-12 08:27·35天前

精选理由

FrontierMath 是衡量模型数学推理的核心基准，三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑，做评估的人必须重新审视数据。

AI 摘要

我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。这已标记出约三分之一题目存在致命错误，且我们相信大多数标记是有效的。在完成全面人工审核后，我们将在修正的数据集上发布更新后的分数。

We are conducting an AI-assisted review of FrontierMath： Tiers 1-4. This has flagged fatal errors in about a third of problems， and we believe most of these flags to be valid. We will release updated scores on a corrected dataset after completing a thorough human review.

数据/训练评测/基准

在 X 查看原推

Epoch AI@EpochAIResearch · X

精选80

2026-05-12 08:27·35天前

精选理由

FrontierMath 是衡量模型数学推理的核心基准，三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑，做评估的人必须重新审视数据。

AI 摘要

数据/训练评测/基准

在 X 查看原推x.com