随着全国各地高考成绩的陆续公布,众多考生的分数成为了社会关注的焦点。然而,在这个大考季节,还有一群特殊的"考生"也交出了他们的"答卷"——那就是由各大AI公司研发的人工智能大模型。
6月24日,极客公园发布了一份引人注目的高考新课标Ⅰ卷大模型评测报告。在这份报告中,GPT-4o以562分的高分夺得文科总分第一名,而字节跳动旗下的豆包大模型则以542.5分的成绩,成为国产AI中的佼佼者。
紧随其后的是百度文心一言4.0的537.5分和百川智能"百小应"的521分。值得注意的是,本次大模型高考评测使用的是与河南省考卷完全相同的试题。根据河南高考录取分数线,文科本科一批录取分数线为521分,这意味着豆包等三款国产AI大模型都成功达到了一本线的标准。
当前,生成式AI大模型技术正处于商用普及的初期阶段。无论是个人的工作和生活,还是各行各业的生产和创作,AI大模型技术都在逐渐发挥其赋能作用。
然而,我们也应看到,生成式AI技术仍处于发展的初级阶段。AI是否足够"聪明",仍然是影响相关技术和产品体验的关键因素。
因此,用高考试题来测试AI大模型的能力,无疑是一种既有趣又直观的评判方式。下面,就让我们具体看看这些大模型在面对高考试卷时的表现。
语言能力是优势,豆包大模型作文获好评
从评测结果来看,语文和英语这两门语言类考试,是大模型有能力与人类考生一较高下的领域。在客观题部分,多家产品都拿到了满分或接近满分的成绩。
得益于中文语言的"主场优势",三款国产大模型在语文考试中名列前茅,分别是百小应的128分、字节豆包的125.5分和腾讯元宝的120.5分。在少数开放性的阅读理解和语言文字运用问题上,各家大模型的得分略有差距,但在写作部分,大模型的表现还有待提高。
作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师对AI写出的文章给出了这样的评价:"AI写出的文章大多结构清晰完整,逻辑性强,语言通顺流畅。但理性有余而感性不足,缺乏感情色彩,自然也就缺乏感染力。"
然而,在众多AI作文中,豆包大模型的作文却获得了阅卷老师的一致好评。夏老师表示,豆包的文章展现出了不错的思想深度和思辨能力,对就业结构、伦理等方面的担忧,以及用反问句自然过渡,引出解决问题的方法,都颇为亮点。整体上,豆包的文章"结构严谨,层层推进,语句流畅,认识全面"。
英语写作同样是大模型面临的一大挑战。在本次评测中,所有大模型的听力部分都默认获得了满分30分。在阅读和语言运用这两大项客观题上,GPT-4o、百小应、通义千问都拿到了满分80分,豆包和文心一言4.0也接近满分。
然而,在40分的写作考试中,最高分仅有29分,分别由GPT-4o和百小应获得。各家模型在英语写作上主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。
在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o以237分的成绩,平均分达到79分,优于多数人类考生。在国产大模型产品中,豆包的文综成绩最高,达到224.5分,其中历史科目更是以82.5分的成绩,在所有9款大模型中排名第一。
在政治考试中,GPT-4o出人意料地获得了88分的最高分,百小应和豆包的得分也都超过了80分。而在地理考卷中,由于涉及大量图片问题,对大模型来说是一个不小的挑战。尽管如此,图像理解能力较强的GPT-4o还是获得了最高分,但仅有68分。
根据河南高考分数段统计数据,GPT-4o的562分在文科考生中排名第8811名,相当于人类考生的前2.45%。而仅次于GPT-4o、位列国产AI第一名的豆包大模型,文科成绩542.5分,超过文科一本线20分,处于前4.27%的位置。
由此可见,在过去一年多的时间里,国产AI技术能力取得了显著进步,已经接近国际顶尖大模型的水平。
理科考试成绩有待提高,AI并非全能
然而,与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上的差距仍然很大。包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,但大模型的理科最好成绩还无法进入人类考生的前30%。
以数学试卷为例,在9款大模型产品中,仅有GPT-4o、文心一言4.0和豆包的得分超过了60分(满分150分)。目前的大模型只能正确推理步骤相对简单的问题。
据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但在面对较为复杂的推导和证明问题时,就很难继续得分。
在重点考查实验探究能力的化学和物理试卷中,各模型的平均分更是只有34分和39分(满分分别为100分和110分)。化学单项最高分由豆包获得,成绩为49.5分,而GPT-4o仅有42分。
大模型在应对考试的灵活性上也不如人类。例如,在物理试卷中有一道送分题,人类考生可以根据"时间不会倒流"这一常识排除错误选项,轻易选对正确答案"C",而大模型却几乎全军覆没。
要想学会像人类一样思考和解决问题,大模型还有很长的路要走。
不过,据麦肯锡报告分析,大模型的价值创造潜力是惊人的。到2030年,大模型有望在全球推动49万亿人民币的经济增量。
目前,从技术创新到商业落地,大模型已经开始为我们的日常工作生活和各行业的AI转型提供动能。
虽然生成式AI目前确实还有不足,但相信在以豆包大模型为代表的众多生成式AI技术和产品的共同努力下,未来简单的高考试卷对它们来说将不再是挑战。在更广泛的应用场景中,它们将交出更加完美的答卷。