科技中国

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
当前位置: 首页 > 智车 > 正文

国内七家主流大模型挑战2025高考数学:只有DeepSeek、讯飞星火最后得分超过140

2025-06-11 08:22:38 来源:IT之家 A+A-

2025年高考还在进行中,昨天已经考完了语文和数学,相信大家也在网上看到了很多关于这两门学科试卷难度的讨论,比如昨天数学考完后,关于“数学难不难”的话题瞬间爆上了热搜。

当然,试卷的难度对于不同的同学来说可能会有不同的感受,不过作为科技编辑,小编比较感兴趣的是,今年的数学试卷对于目前很火的 AI 来说难不难呢?

想到这,今天我们不妨就这次高考的数学卷来一次大模型之间的比拼,让各家的大模型化身“高考学子”,完整地做一套高考数学卷,看看它们各自能拿多少分。

在模拟过程中,小编选择了以下几名具有代表性的大模型“考生”,分别是:

DeepSeek R10528

通义千问 Qwen3-235B-A22B

讯飞星火 X1-0420

豆包 Seed-Thingking-v1.5

文心 X1Turbo

腾讯混元 Hunyuan T1latest

GPT o3

另外需要说明的是,由于目前网络流出的试题存在多个版本,不完全一致,存在题目不完整的情况,通过多版本交叉验证+老师解题验证的方式进行评测,总分是150分。

同时还邀请了一位专业的评分老师来辅助我们对大模型的答案进行评分:

汪鹏:十年高中数学一线教研专家,主导省级数学教学创新课题,精研命题策略与高分突破路径。

此外,因 DeepSeek 网页版 OCR 转写不稳定,还有腾讯混元在高考时间段不能用拍图识别的功能,针对类似情况,我们采用 OCR 转写后输入答题。

由于考题较多,我们无法把所有题目的大模型答题流程和答案都一一呈现,所以这里我们仅挑选一些题目来说明。

话不多说,我们先来看题吧。

1、第1题

首先是比较简单的选择题第1题:

这道题比较容易,DeepSeek R1的回答如下:

然后是通义千问

讯飞星火作答:

豆包也给出了正确答案:

文心一言的答案如下:

腾讯混元的回答:

GPT o3的答案:

对于选择题第1题,各家大模型都给出了正确的答案,仔细看具体的解题流程可能不同,但不影响答案的正确性。

2、第5题

下面稍微上点难度,选择题第5题是一道函数题:

各家大模型的答案和截图过程如下:

DeepSeek :

通义千问:

讯飞星火:

豆包:

文心一言:

腾讯混元:

GPT o3:

这一道选择题的正确答案是 A,全部答对。

3、第8题

接下来我们看更难一点的题,选择题第8题,这也是一道涉及到对数的函数题:

面对这道题,各家大模型给出的答案如下:

DeepSeek R1:

通义千问:

讯飞星火:

豆包大模型:

文心一言:

腾讯混元:

GPT o3:

这道题目的正确答案是 B,豆包大模型和 DeepSeek 答错了,其他的大模型均给出了正确的答案。

4、第16题

接下来我们来看解答题,解答题的评分不只看结果,还要看解题的过程,过程不对也会被扣分。这里我们以解答题的第16题来作为例子,这道题已经是解答题中偏中等难度的题目,涉及数列和函数相关的知识点。

我们先看 DeepSeek R1,给出的结果没有扣分项,可以得到满分:

通义千问的解答和最终答案也是正确的:

讯飞星火的回答,解题过程清晰明了,答案正确:

然后是豆包大模型的回答,同样步骤和结果都没什么问题:

文心一言第二个小题答案错了,只能得到6分:

腾讯混元两个小题的回答都存在问题,因此这道题只能得0分:

GPT o3的两个回答解题过程都没有问题,但是第二个小问的最后结果呈现表达上有点小瑕疵,得14分:

5、第18题

最后是难度更高,挑战比较大的第18题,

面对这道题,讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3的解题过程和答案都没什么问题,拿到了17分满分,而文心 X1模型的答案存在错误,得分为10分。

Deepseek:

通义千问:

讯飞星火:

豆包大模型:

文心一言:

腾讯混元:

GPT o3:

以上是这次七家大模型挑战2025高考数学全国1卷的部分题目作答情况的举例,下面我们再来看这次“考试”各位大模型“考生”的总体得分情况:

可以看到,在这次“考试”中,DeepSeek、讯飞星火两家表现突出,是唯二突破140分的大模型,稳居国内大模型数学能力的第一梯队,在考生中也达到了“尖子生”标准。其中,DeepSeek 以143分的成绩位列榜首,讯飞星火以141分紧随其后,位居第二,GPT o3则以138分获得第三名。

本次排名第一的 DeepSeek R1模型,是在5月28日升级了最新版本,也是本次评测的模型里最“新”的一位考生,升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升,但其在实际应用中也暴露出了一些明显短板。首先在实测中,我们发现 DeepSeek 在 OCR 识别效果不理想,出现不少题目识别错误,为确保准确性,我们只能用其他 AI 将试卷图片转化为文本问题,再给到 DeepSeek 作答;其次,DeepSeek 模型版本较大,导致推理速度慢、资源消耗高,在实际的教学场景中可能面临响应效率问题。

此外,在这次考试中仅以2分之差紧随其后的讯飞星火,是在4月20日升级,版本较早,但在模型量级更小的情况下,其依然取得了141分的高分,并显著超越了豆包等其他参与测评的国内大模型。尤其值得一提的是,讯飞星火 X1是基于全国产算力平台训练出来的,可见他们背后的自主技术研发实力值得肯定,讯飞在教育领域长达20多年的资源积累,也体现在了讯飞星火在数学能力上的高效准确。

作为国产大模型的代表,豆包、通义千问等大模型分数紧跟 GPT o3,基本上和国际顶尖的模型水平打了个平手。

此次国内外大模型参考“2025高考数学”,也是深度推理模型的一场大考,和去年相比,AI 的数学能力有了非常明显的提升。2025年将是 AI 应用落地的爆发期,如何让 AI 更好的成为我们的帮手,拓展 AI 在教育领域深度应用的更多可能性,将推理模型的优势与教学实际深度结合等等,或许就是我们用 AI 来作答高考试卷背后的用意和价值所在。

(责任编辑:Diy92)

热点推荐

大众ID2 GTI Club sport版曝光:机械式限滑差速器加持 最大马力286匹

6月23日消息,据Autocar 报道,内部人士透露,大众汽车正在为即将推出的ID2GTI开发一款高性能的Clubsport 版本。注意到,前轮驱动的ID2GTI已经以接近量产的概念形式亮相,

2025-06-24 08:37:18

2025款奥迪S4Avant 车型正式上市:搭3.0升涡轮增压V6发动机,售价52.18万元起

6月23日消息,奥迪宣布旗下2025款奥迪S4Avant 车型正式上市,该车主打运动化,继续搭载3.0升涡轮增压V6发动机,最大功率260千瓦,峰值扭矩500牛・米,官方指导价为52.18万元

2025-06-24 08:37:18

据称鸿蒙智行上周新增订单9500台左右,尊界S800车型订单稳步增长

6月23日消息,博主@孙少军09发文,透露鸿蒙智行上周新增订单9500台左右,尊界"继续持平"。其同时援引42号车库提供的尊界客户画像,认为尊界S800实现"破圈",转向社交名片,从

2025-06-24 08:37:18

2026款悦达起亚赛图斯SUV车型将于7月2日正式上线,现款2023款售价11.99万元起

6月23日消息,悦达起亚宣布旗下2026款国产赛图斯SUV车型将于7月2日发布,作为比较,目前在售的2023款定价为11.99万元至15.99万元。作为参考,目前海外版本新款赛图斯路测

2025-06-24 08:37:18

新款沃尔沃 XC60将于6月26日正式上线:高通骁龙8155芯片、升级11.2英寸中控屏

6月23日消息,沃尔沃汽车今日宣布,新款XC60将于6月26日在全国上市。据介绍,新款XC60升级高通骁龙8155车规级芯片,并搭载11.2英寸中控屏,智能语音助手"小沃"支持主驾全时

2025-06-24 08:37:18

小米首款SUV车型 YU7不用6座设计真实原因:提供更大空间、舒适度更佳

6月23日消息,小米YU7将于6月26日正式发布上市,雷军今天对网络热议的"小米首款SUV,为什么不做目前最热门6座SUV"话题进行回应,强调该车使用5座设计可提供更大空间、舒

2025-06-24 08:37:18

特斯拉 Robotaxi无人驾驶网约车服务正式上线,危险操作引发热烈争议

6月23日消息,特斯拉于今日早些时候在得克萨斯州奥斯汀正式推出了备受瞩目的Robotaxi 无人驾驶网约车服务,然而据Wccftech 报道,一段显示该服务车辆可能做出危险举动

2025-06-24 08:37:18

小米 YU7新配色流金粉正式上线:粉色漆面基底上叠加浅金色金属颗粒

6月23日消息,小米YU7将于6月26日正式发布上市,官方今日继续对新车进行预热。据小米创办人、董事长兼CEO雷军称,小米YU7一共有9种颜色,有跑车色系、时尚色系、豪华色系

2025-06-23 08:37:18

贾跃亭:法拉第未来FXSuperOne再次获得美国MCN机构500台付费预订单

6月23日消息,今日法拉第未来创始人、合伙人、首席产品及用户生态官贾跃亭宣布,FX已与专注于北美市场和TikTok 的MCN直播电商生态服务机构TellingInc.签署500台MPV产

2025-06-23 08:37:18

比亚迪官方正式回应“海豹将用固态电池”等传闻:消息不实

6月23日消息,据财联社,针对"固态电池将搭载海豹车型"等传闻,比亚迪今日回应称,此为不实消息,"目前都是未知的,首款车型和参数都不是官方报道。"近日市场有消息称,比亚迪

2025-06-23 08:37:18

L4级自动驾驶观光车Yokee01A正式发布,用于景区文旅场景的14座设计

6月23日消息,厂商Yokee在其"Yokee无人驾驶观光车产品发布会"中公布了一款L4级自动驾驶无人观光车Yokee01A。获悉,该车采用14座设计,配备3颗激光雷达+11个摄像头,搭载

2025-06-23 08:37:18

2026款上汽名爵MG5轿车6月30日将正式上线:提供256色氛围灯/8扬声器 新增气泡橙/安第斯灰车漆

6月23日消息,上汽名爵宣布旗下2026款MG5轿车将于6月30日在天津MGHoliday 活动现场上市,该车主要新增气泡橙与安第斯灰两款车漆,升级配备同级唯一的256色氛围灯、同级

2025-06-23 08:37:18

五菱 星光730正式发布:三种动力系统可选的7座MPV

6月23日消息,五菱星光730官图已发布,作为一款全新MPV车型,五菱星光730基于天舆架构开发,采用7座布局,提供汽油、纯电以及插电混合动力三种动力系统。注意到,从外观设计

2025-06-23 08:37:18

小鹏 G7下周正式公布 售价23.58万元起

6月23日消息,小鹏汽车官微今日宣布,小鹏G7"下周见"。该车此前已经启动预售,预售价为23.58万元。汇总该车主要信息如下:新车定位中型SUV,尺寸为4892×1925×1

2025-06-23 08:37:18

奇瑞捷途自由者2.0T DXWD穿越版正式上市,官方售价14.49万元起

6月23日消息,捷途自由者2.0TDXWD穿越版车型已上市,官方指导价为14.49万元。该车型在价格上与此前上市的2.0TD穿越两驱版保持一致,同时为购车用户提供了包括自由膨胀

2025-06-23 08:37:18