AI学霸大比拼：通义千问、GPT-4o等七大模型高考秀，文科学霸前三名，理科学霸超二本！

7月18日，上海人工智能实验室对外公布了一项引人注目的测试结果：7个AI大模型参与了全面的高考科目测试。据“司南”评测体系的负责人透露，组织AI模型“参加高考”的真正目的，在于评估它们的真实能力，识别技术短板，以促进技术的持续发展和完善。

此次测试的结果显示，书生・浦语2.0系列的文曲星大模型（简称“浦语文曲星”）、阿里通义千问大模型Qwen2-72B以及GPT-4o在文科和理科的测试中均取得了优异的成绩，成绩均超过了今年高考人数最多的河南省的“一本”和“二本”分数线。

从官方发布的资料来看，参加这次“高考”的AI大模型还包括零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B，以及法国AI初创公司Mistral的Mixtral 8×22B。

此次评测的特点包括：

全面考核：对所有题目进行了评分，不仅限于特定题型，包括含图的高考题目。
考前公开：所有参与评测的开源模型均为今年高考前公开的版本，确保了测试的公正性。
专业评分：邀请了有高考阅卷经验的教师进行评分，以确保评分标准与高考保持一致。
完全透明：答案生成代码、模型答卷及评分结果均已开源。

在综合科目的测试中，Qwen2-72B、GPT-4o和浦语文曲星再次位居文理科前三。阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”，而浦语文曲星则以468.5分成为理科最高分，两者均超过了“非开源国际插班生”GPT-4o的成绩（文科531分，理科467分）。相比之下，国外发布的Mixtral 8x22B的平均得分最低，表现不如国内大模型。

阅卷教师普遍认为，尽管AI大模型在基础知识掌握上表现不俗，但在逻辑推理和知识应用的灵活性上还有待提高。具体来说，AI在回答主观题时往往难以完全理解题意，对代词的指向理解不足，导致答案偏离题目要求；在解答数学题目时，解题过程显得机械，缺乏逻辑性，尤其在几何题上，经常出现与空间逻辑不符的推断；对于物理和化学实验题，理解较为肤浅，难以准确识别和运用实验器材。

此外，AI大模型在生成内容时也存在编造虚构信息的问题，例如编造看似合理但实际不存在的诗句，或在明显计算错误的情况下继续“硬着头皮”给出答案，这些都给阅卷老师带来了不小的困扰。

根据上海人工智能实验室上个月公布的AI高考全卷结果，Qwen2-72B、GPT-4o和书生・浦语2.0文曲星（InternLM2-20B-WQX）在本次大模型高考中表现突出，得分率均超过70%。大部分模型在语文和英语科目上表现良好，但在数学科目上仍有很大的提升空间。

更多评测细节，请点击此处查看。

《上海人工智能实验室发布首个AI高考评测结果：语数英总分最高303分，数学全部不及格》

微信扫一扫：分享

相关文章

GPT-4时代终结！4月30日全面切换至「全能王」GPT-4o

欧盟委员会出招啦，要搞个AI大计划，目标是当全球AI的领头羊

钢铁巨人暗藏AI杀手锏：宝信软件年赚22亿的工业密码

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

发表回复取消回复