678CHAT AI资讯 AI学霸大比拼:通义千问、GPT-4o等七大模型高考秀,文科学霸前三名,理科学霸超二本!

AI学霸大比拼:通义千问、GPT-4o等七大模型高考秀,文科学霸前三名,理科学霸超二本!

7月18日,上海人工智能实验室对外公布了一项引人注目的测试结果:7个AI大模型参与了全面的高考科目测试。据“司南”评测体系的负责人透露,组织AI模型“参加高考”的真正目的,在于评估它们的真实能力,识别技术短板,以促进技术的持续发展和完善。

AI学霸大比拼:通义千问、GPT-4o等七大模型高考秀,文科学霸前三名,理科学霸超二本!插图

此次测试的结果显示,书生・浦语2.0系列的文曲星大模型(简称“浦语文曲星”)、阿里通义千问大模型Qwen2-72B以及GPT-4o在文科和理科的测试中均取得了优异的成绩,成绩均超过了今年高考人数最多的河南省的“一本”和“二本”分数线。

从官方发布的资料来看,参加这次“高考”的AI大模型还包括零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B,以及法国AI初创公司Mistral的Mixtral 8×22B。

此次评测的特点包括:

  • 全面考核:对所有题目进行了评分,不仅限于特定题型,包括含图的高考题目。

  • 考前公开:所有参与评测的开源模型均为今年高考前公开的版本,确保了测试的公正性。

  • 专业评分:邀请了有高考阅卷经验的教师进行评分,以确保评分标准与高考保持一致。

  • AI学霸大比拼:通义千问、GPT-4o等七大模型高考秀,文科学霸前三名,理科学霸超二本!插图1

    完全透明:答案生成代码、模型答卷及评分结果均已开源。

在综合科目的测试中,Qwen2-72B、GPT-4o和浦语文曲星再次位居文理科前三。阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”,而浦语文曲星则以468.5分成为理科最高分,两者均超过了“非开源国际插班生”GPT-4o的成绩(文科531分,理科467分)。相比之下,国外发布的Mixtral 8x22B的平均得分最低,表现不如国内大模型。

阅卷教师普遍认为,尽管AI大模型在基础知识掌握上表现不俗,但在逻辑推理和知识应用的灵活性上还有待提高。具体来说,AI在回答主观题时往往难以完全理解题意,对代词的指向理解不足,导致答案偏离题目要求;在解答数学题目时,解题过程显得机械,缺乏逻辑性,尤其在几何题上,经常出现与空间逻辑不符的推断;对于物理和化学实验题,理解较为肤浅,难以准确识别和运用实验器材。

此外,AI大模型在生成内容时也存在编造虚构信息的问题,例如编造看似合理但实际不存在的诗句,或在明显计算错误的情况下继续“硬着头皮”给出答案,这些都给阅卷老师带来了不小的困扰。

根据上海人工智能实验室上个月公布的AI高考全卷结果,Qwen2-72B、GPT-4o和书生・浦语2.0文曲星(InternLM2-20B-WQX)在本次大模型高考中表现突出,得分率均超过70%。大部分模型在语文和英语科目上表现良好,但在数学科目上仍有很大的提升空间。

更多评测细节,请点击此处查看。

  • AI学霸大比拼:通义千问、GPT-4o等七大模型高考秀,文科学霸前三名,理科学霸超二本!插图2

    《上海人工智能实验室发布首个AI高考评测结果:语数英总分最高303分,数学全部不及格》

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1329.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部