滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI高考大考：DeepSeek、讯飞星火领跑，数学能力谁更强？

时间：2025-06-08 18:06:30 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

在2025年高考数学科目考试结束后，网络上关于试卷难度的讨论热度不减。作为科技领域的观察者，我们不禁好奇，对于当前备受瞩目的AI技术而言，这份数学试卷是否同样具有挑战性？为了回答这个问题，我们组织了一场特别的“考试”，邀请了多家知名的大模型参与，模拟完成了一套高考数学试卷。

本次“考试”中，我们挑选了以下几家具有代表性的大模型作为“考生”：DeepSeek R1 0528、通义千问 Qwen3-235B-A22B、讯飞星火 X1-0420、豆包 Seed-Thinking-v1.5、文心 X1 Turbo、腾讯混元 Hunyuan T1 latest和GPT o3。由于网络流传的试题版本不一，我们通过多版本交叉验证和教师解题验证的方式，确保评测的准确性，试卷总分为150分。

我们特别邀请了一位拥有十年高中数学教研经验的专家汪鹏老师，对大模型的答案进行评分。考虑到部分模型在OCR识别方面的限制，我们采用了OCR转写后输入答题的方式进行处理。

接下来，让我们通过几道典型题目，看看这些大模型的表现如何。

首先是选择题第一题，各家大模型均给出了正确答案，显示出它们在基础题目上的稳定表现。

选择题第五题是一道涉及函数的题目，所有大模型再次全部答对，进一步证明了它们在复杂题目上的解题能力。

然而，在选择题第八题中，豆包大模型和DeepSeek出现了错误，而其他模型均给出了正确答案。这道题目涉及对数函数，显示出部分模型在处理特定数学知识点时的局限性。

在解答题方面，我们以第16题为例，这是一道涉及数列和函数的题目。DeepSeek、通义千问、讯飞星火和豆包大模型均给出了正确的解题过程和答案，而文心X1和腾讯混元则出现了不同程度的错误。

最后，我们来看难度更高的第18题。讯飞星火、豆包大模型、DeepSeek、通义千问和GPT o3均获得了满分，而文心X1则因答案错误而失分。

经过综合评分，DeepSeek以143分的成绩位列榜首，讯飞星火以141分紧随其后，GPT o3以138分获得第三名。这次“考试”不仅展示了AI在数学领域的强大能力，也暴露了部分模型在实际应用中的短板。

DeepSeek作为最新版本的大模型，在思考推理和数学能力方面表现出色，但OCR识别效果不佳，且推理速度慢、资源消耗高。讯飞星火则凭借其较小的模型量级和高效的数学能力，在评测中取得了优异成绩，显示出其在教育领域的深厚积累。

豆包和通义千问等大模型也表现出色，与国际顶尖模型水平相当。这次“考试”不仅是对AI数学能力的一次检验，更是对未来AI在教育领域深度应用的一次探索。

更多>同类资讯

丽天智能获超亿元Pre-B轮融资，光伏智能机器人研发与布局再提速

本轮融资将加速公司在光伏电站组件自动化安装关键技术研发、全球产业化布局以及市场拓展。据悉，丽天智能成立于2022年7月，法定代表人为王士涛，注册资本为1849.28万元，专注于光伏能源智能机器人领域，是一家…

03-14

云天励飞湛江落子：首个国产AI推理千卡集群，开启推理时代新征程

03-14

WindClaw上线：AI智能体与金融数据融合，开启投研效率提升新篇章

03-14

对话海信贾少谦：AI浪潮下，中国制造如何借势实现弯道超车？

03-14

五菱缤果S 525km旗舰款上市，长续航配丰富礼包，售价8.68万元起

03-14

缤果S 525km旗舰款上市！8.68万起享长续航与智能配置新体验

03-14

16.98万元起售！iCAR V27硬派登场增程四驱+高阶智驾解锁多元出行

03-14

追觅百亿押注手机赛道：联手努比亚打造“AI旗舰”，黄金定制版售价惊人

03-14

Anthropic成立智库，关注强大AI对社会带来的严峻挑战

03-14

OpenClaw爆火：AI智能体潜力无限，安全稳定性挑战待解

美国媒体认为，这类AI智能体需要较高系统权限才能执行任务，如访问文件、运行程序或连接用户账户，配置不当可能导致数据泄露甚至被恶意利用。网络安全专家表示，这类系统容易遭受一种针对大语言模型的安全技术攻击——“…

03-14

海尔智家AWE再发力：AI之眼2.0与机器人携手，开启无人家务新纪元

今年，海尔智家通过智能家电、智慧家庭、智慧生活的全面升级，持续构建以用户为中心的平台服务型科技生态企业，不仅展现了自身的落地成果，也为整个行业向真正的“无人家务”时代迈进，提供了可借鉴、可落地的实践路径与发展…

03-14

中科曙光突破海外技术垄断发布首款全栈自研400G无损高速网络

观点网讯：3月12日，中科曙光宣布实现国产高端原生RDMA技术重大突破，正式发布首款全栈自研400G无损高速网络——scaleFabric。据了解，中科曙光scaleFabric是首款国产全栈自研IB网络…

03-14

亚信全新品牌AIStorm启航：以AI驱动安全助力全球产业数智化升级

依托亚信在网络安全与数智化领域深厚的产品技术积淀与丰富的行业服务经验，AIStorm以新加坡为全球运营枢纽，深耕港澳及东南亚市场，提供强大的技术支撑与本地化服务，致力于为全球企业与关键行业领域构建智能、安全、…

03-14

AI赋能话音新未来：运营商借全融合网络解锁多模态业务创新路径

（全球TMT2026年3月13日讯）在MWC 2026期间，GlobalData首席分析师Andy Hicks发布了《ReinventingVoice: A Converged, AI-Enabled, a…

03-14

Utilidata与NexGen Cloud携手：以AI电力编排解锁数据中心隐藏算力

Utilidata与欧洲AI云服务提供商NexGen Cloud正在部署一个AI驱动的电力编排平台，该平台旨在释放现有数据中心内更多的计算容量——在不需要额外电网电力的情况下，可能将可用AI基础设施提升多达…

03-14

点击查看更多 +

全站最新

AI智力成本狂降128倍，2026Agent全面爆发，人类如何迎接新变革？

AWE2026期间快手电商发力：家电数码消费呈现新趋势与新增长点

方程豹钛3闪充版上市！三电升级+补能生态完善购车享18个月免费闪充

五菱缤果S 525km旗舰款登场以硬核实力重塑A0级代步新体验

15.38万起！方程豹钛3闪充版上市，充电快又智能，出行焦虑全消

iCAR V27携地平线HSD登场硬派SUV开启智能出行新体验

热门内容

本栏最新

缤果S 525km旗舰款上市！8.68万起享长续航与智能配置新体验

16.98万元起售！iCAR V27硬派登场增程四驱+高阶智驾解锁多元出行

超充时代来临：欣旺达如何以技术革新驱动电动汽车补能变革？

陈都灵携手零跑A10，创意营销与产品实力双驱动，3月26日全球上市引期待

2026智能电动汽车发展高层论坛启幕共探产业新路径绘就低碳新蓝图

声网AWE2026大放异彩：RTC与对话式AI融合，引领硬件交互新变革

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.