AI大模型参加高考能考多少分？

来源：新华社

大模型参加高考，能考多少分？极客公园日前发布高考新课标Ⅰ卷大模型评测报告，GPT-4o 以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”521分。

据介绍，本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批录取分数线为521分，豆包等三款国产AI成功冲上一本线。而与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下。相比河南理科511分的一本线，大模型尚有较大差距。

语文、英语的语言类考试，是大模型有能力和人类考生较量的赛场，多家产品能拿到客观题目的满分或接近满分。三款国产大模型产品获得了语文考试前三名，分别是百小应、字节豆包和腾讯元宝，得分依次为128分、125.5分和120.5分。除了少数开放性的阅读理解和语言文字运用问题，各家大模型主要丢分在语文写作上。本次评测的语文作文阅卷人表示，Al写出的文章大多有清晰完整的结构，有逻辑性，语言通顺流畅。但其理性有余，感性不足，缺乏感情色彩，缺乏感染力。

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得30分满分。但是在40分的写作考试中，最高分只有29分，各家模型的英语写作主要丢分在表达空泛、缺少细节上。

在由历史、地理、政治组成的新课标文综考卷评测中，GPT-4o获得237分的成绩，平均分达到79分，优于多数考生。国产大模型产品中，豆包的文综成绩最高，分数达到224.5分，其中历史科目拿到82.5分，在所有9款大模型中得分第一。政治考试中，GPT-4o获得了88分的最高分，百小应和豆包得分超过80。地理考卷有大量图片问题，对一众大模型是不小的挑战，GPT-4o得到最高分68分。

与此同时，大模型在数学、物理、化学等数理学科上差距极大，包括GPT-4o在内的所有大模型都无法达到及格水平。以数学试卷为例，9款大模型产品中，仅GPT-4o、文心一言4.0和豆包获得60分以上成绩（满分150分）。据测试机构透露，豆包等大模型能准确运用求导公式和三角函数定理，但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷，各模型平均分更是只有34分和39分（满分为100和110）。化学单项最高分由豆包获得，成绩为49.5分，GPT-4o仅有42分。大模型在应对考试的灵活性上也不如人类，要学会像人类一样思考和解决问题，大模型还有很长的路要走。

Breaking News

AI大模型参加高考能考多少分？

More in 关注:

Leave a Comment Cancel

施坦威钢琴Hopper专卖

美东最大华人事务所之一

美国最大亚裔理财集团

近期文章

北卡最大中餐厅

夏洛特最大火锅店益鼎香

南北卡亚太裔联合商会

2025 年 2 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28