7月18日,上海人工智能实验室对外公布了一项引人注目的测试结果:7个AI大模型参与了全面的高考科目测试。据“司南”评测体系的负责人透露,组织AI模型“参加高考”的真正目的,在于评估它们的真实能力,识别技术短板,以促进技术的持续发展和完善。
此次测试的结果显示,书生・浦语2.0系列的文曲星大模型(简称“浦语文曲星”)、阿里通义千问大模型Qwen2-72B以及GPT-4o在文科和理科的测试中均取得了优异的成绩,成绩均超过了今年高考人数最多的河南省的“一本”和“二本”分数线。
从官方发布的资料来看,参加这次“高考”的AI大模型还包括零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B,以及法国AI初创公司Mistral的Mixtral 8×22B。
此次评测的特点包括:
-
全面考核:对所有题目进行了评分,不仅限于特定题型,包括含图的高考题目。
-
考前公开:所有参与评测的开源模型均为今年高考前公开的版本,确保了测试的公正性。
-
专业评分:邀请了有高考阅卷经验的教师进行评分,以确保评分标准与高考保持一致。
-
完全透明:答案生成代码、模型答卷及评分结果均已开源。
在综合科目的测试中,Qwen2-72B、GPT-4o和浦语文曲星再次位居文理科前三。阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”,而浦语文曲星则以468.5分成为理科最高分,两者均超过了“非开源国际插班生”GPT-4o的成绩(文科531分,理科467分)。相比之下,国外发布的Mixtral 8x22B的平均得分最低,表现不如国内大模型。
阅卷教师普遍认为,尽管AI大模型在基础知识掌握上表现不俗,但在逻辑推理和知识应用的灵活性上还有待提高。具体来说,AI在回答主观题时往往难以完全理解题意,对代词的指向理解不足,导致答案偏离题目要求;在解答数学题目时,解题过程显得机械,缺乏逻辑性,尤其在几何题上,经常出现与空间逻辑不符的推断;对于物理和化学实验题,理解较为肤浅,难以准确识别和运用实验器材。
此外,AI大模型在生成内容时也存在编造虚构信息的问题,例如编造看似合理但实际不存在的诗句,或在明显计算错误的情况下继续“硬着头皮”给出答案,这些都给阅卷老师带来了不小的困扰。
根据上海人工智能实验室上个月公布的AI高考全卷结果,Qwen2-72B、GPT-4o和书生・浦语2.0文曲星(InternLM2-20B-WQX)在本次大模型高考中表现突出,得分率均超过70%。大部分模型在语文和英语科目上表现良好,但在数学科目上仍有很大的提升空间。
更多评测细节,请点击此处查看。
-
《上海人工智能实验室发布首个AI高考评测结果:语数英总分最高303分,数学全部不及格》