"2024高考放榜啦，豆包等国产AI学霸轻松拿下文科一本！"

随着全国各地高考成绩的陆续公布，众多考生的分数成为了社会关注的焦点。然而，在这个大考季节，还有一群特殊的"考生"也交出了他们的"答卷"——那就是由各大AI公司研发的人工智能大模型。

6月24日，极客公园发布了一份引人注目的高考新课标Ⅰ卷大模型评测报告。在这份报告中，GPT-4o以562分的高分夺得文科总分第一名，而字节跳动旗下的豆包大模型则以542.5分的成绩，成为国产AI中的佼佼者。

紧随其后的是百度文心一言4.0的537.5分和百川智能"百小应"的521分。值得注意的是，本次大模型高考评测使用的是与河南省考卷完全相同的试题。根据河南高考录取分数线，文科本科一批录取分数线为521分，这意味着豆包等三款国产AI大模型都成功达到了一本线的标准。

当前，生成式AI大模型技术正处于商用普及的初期阶段。无论是个人的工作和生活，还是各行各业的生产和创作，AI大模型技术都在逐渐发挥其赋能作用。

然而，我们也应看到，生成式AI技术仍处于发展的初级阶段。AI是否足够"聪明"，仍然是影响相关技术和产品体验的关键因素。

因此，用高考试题来测试AI大模型的能力，无疑是一种既有趣又直观的评判方式。下面，就让我们具体看看这些大模型在面对高考试卷时的表现。

语言能力是优势，豆包大模型作文获好评

从评测结果来看，语文和英语这两门语言类考试，是大模型有能力与人类考生一较高下的领域。在客观题部分，多家产品都拿到了满分或接近满分的成绩。

得益于中文语言的"主场优势"，三款国产大模型在语文考试中名列前茅，分别是百小应的128分、字节豆包的125.5分和腾讯元宝的120.5分。在少数开放性的阅读理解和语言文字运用问题上，各家大模型的得分略有差距，但在写作部分，大模型的表现还有待提高。

作为本次评测的语文作文阅卷人，北京市级骨干教师、怀柔区语文学科带头人夏老师对AI写出的文章给出了这样的评价："AI写出的文章大多结构清晰完整，逻辑性强，语言通顺流畅。但理性有余而感性不足，缺乏感情色彩，自然也就缺乏感染力。"

然而，在众多AI作文中，豆包大模型的作文却获得了阅卷老师的一致好评。夏老师表示，豆包的文章展现出了不错的思想深度和思辨能力，对就业结构、伦理等方面的担忧，以及用反问句自然过渡，引出解决问题的方法，都颇为亮点。整体上，豆包的文章"结构严谨，层层推进，语句流畅，认识全面"。

英语写作同样是大模型面临的一大挑战。在本次评测中，所有大模型的听力部分都默认获得了满分30分。在阅读和语言运用这两大项客观题上，GPT-4o、百小应、通义千问都拿到了满分80分，豆包和文心一言4.0也接近满分。

然而，在40分的写作考试中，最高分仅有29分，分别由GPT-4o和百小应获得。各家模型在英语写作上主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力，获得高考满分并非难事。

在由历史、地理、政治组成的新课标文综考卷评测中，GPT-4o以237分的成绩，平均分达到79分，优于多数人类考生。在国产大模型产品中，豆包的文综成绩最高，达到224.5分，其中历史科目更是以82.5分的成绩，在所有9款大模型中排名第一。

在政治考试中，GPT-4o出人意料地获得了88分的最高分，百小应和豆包的得分也都超过了80分。而在地理考卷中，由于涉及大量图片问题，对大模型来说是一个不小的挑战。尽管如此，图像理解能力较强的GPT-4o还是获得了最高分，但仅有68分。

根据河南高考分数段统计数据，GPT-4o的562分在文科考生中排名第8811名，相当于人类考生的前2.45%。而仅次于GPT-4o、位列国产AI第一名的豆包大模型，文科成绩542.5分，超过文科一本线20分，处于前4.27%的位置。

由此可见，在过去一年多的时间里，国产AI技术能力取得了显著进步，已经接近国际顶尖大模型的水平。

然而，与人类顶尖考生相比，大模型在数学、物理、化学等数理学科上的差距仍然很大。包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分，但大模型的理科最好成绩还无法进入人类考生的前30%。

以数学试卷为例，在9款大模型产品中，仅有GPT-4o、文心一言4.0和豆包的得分超过了60分（满分150分）。目前的大模型只能正确推理步骤相对简单的问题。

据测试机构透露，豆包等大模型能准确运用求导公式和三角函数定理，但在面对较为复杂的推导和证明问题时，就很难继续得分。

在重点考查实验探究能力的化学和物理试卷中，各模型的平均分更是只有34分和39分（满分分别为100分和110分）。化学单项最高分由豆包获得，成绩为49.5分，而GPT-4o仅有42分。

大模型在应对考试的灵活性上也不如人类。例如，在物理试卷中有一道送分题，人类考生可以根据"时间不会倒流"这一常识排除错误选项，轻易选对正确答案"C"，而大模型却几乎全军覆没。

要想学会像人类一样思考和解决问题，大模型还有很长的路要走。

不过，据麦肯锡报告分析，大模型的价值创造潜力是惊人的。到2030年，大模型有望在全球推动49万亿人民币的经济增量。

目前，从技术创新到商业落地，大模型已经开始为我们的日常工作生活和各行业的AI转型提供动能。

虽然生成式AI目前确实还有不足，但相信在以豆包大模型为代表的众多生成式AI技术和产品的共同努力下，未来简单的高考试卷对它们来说将不再是挑战。在更广泛的应用场景中，它们将交出更加完美的答卷。