数学家构建基准测试评估LLM研究级数学能力 · AI HOT

精选全部 AI 动态 AI 日报 Agent 接入关于更新日志反馈信源提报

精选全部日报更多

数学家构建基准测试评估LLM研究级数学能力 · AI HOT

AK@_akhaliq

63

2026-05-12 17:38·35天前

AI 摘要

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Soohak

A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Hugging Face推理论文/研究

在 X 查看原推

AK@_akhaliq · X

63

2026-05-12 17:38·35天前

AI 摘要

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Soohak

A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Hugging Face推理论文/研究

在 X 查看原推x.com