今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。
http://x.com/i/article/2063827681960235009
# 今年高考,我让12个顶级AI一起考了语文和数学,结果有点意外。
一年一度的高考季又到了。
从上上周开始,就有很多朋友来问我,今年高考还测不测大模型考试了。
测,肯定测。
但是肯定要跟去年要有一些区别对吧,去年我只测了部分的数学题,今年要是还这么玩,那就太无聊了。
所以,我想了想,今年不如整个大一点的活,让所有的顶级AI一起,来全面的考一下语文和数学,这两个,全都考。
在所有AI都在发力代码和Agent能力的情况下,究竟谁的语文能力最高,我还是非常好奇的。
这次的参赛模型呢,基本市面上主流的大模型我也都拉来了,基本都是大家的旗舰模型。
国外基本就是大家熟悉的御三家,Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。
国内这边,我也尽量选了各家现在最能打的。
千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。
让这些大模型,一起做了这两套卷子。
而我肯定没有对语文和数学高考题目阅卷的能力,所以这次,我想了想,找身边的朋友们化了下缘,终于,也邀请到了4位有过类似阅卷经历的高中老师们,来跟我们一起整这个活。
因为语文会稍微主观一点点,并且我们也不像真的高考一样有一些打分细则,所以我们邀请了3位语文老师来共同阅卷,让他们充分发挥,最后取平均分,这样会公平一点,所以最终是3位语文老师和1位数学老师。
但是真的非常非常感谢几位老师,陪我们一直干到了凌晨,每个人几乎都认真批改了十二份的卷子。。。真的,无以为报。。。
而卷子的挑选上,虽然也都是选用的全国一卷,这次会稍微有点特殊。
因为语文这次比较可惜,等到晚上8点也没有等到完整版的卷子,所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试,满分大概是100分,最终分数会基于比例,再换算至150分。
数学则是完整的真题试卷,就比较简单了。
然后呢,为了保证这次AI高考的公平性,我们还是下了不少功夫做平衡的,限制了不少规则:
1. 使用API调用各个模型,都开thinking,不限制最长的token数,所有的工具调用都强行禁止,像什么代码推理、网页搜索什么的都关掉了。
2. 除了讯飞星火、百度,其他10家统一走OpenRouter调用,这样可以保证最公平公正。
3. 模型的输入,语文和数学都采取了通过LaTeX格式纯文本输入的方式。
数学本来我们打算是分成多模态和纯文本赛道的,但是真题一出来之后,发现只有一道题,也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息,没有必要,所以就改成了全部都通过LaTeX格式输入。
虽然PDF转LaTeX格式这一步是AI做的,但是让它转了之后,我也同样写了一个LaTeX编译器的脚本,它会在左边放上原本的题目,右边是LaTeX数据编译后的最终题目,方便我和老师们进行核对,在准确性上,我们还是花了一些力气的。