ITBear旗下自媒体矩阵:

AI高考数学大比拼,豆包元宝并驾齐驱,o3表现引思考!

   时间:2025-06-09 11:20:59 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,一场别开生面的高考数学模拟测试吸引了广泛关注。此次测试并非由传统考生参与,而是六大人工智能模型——字节的豆包、腾讯的元宝、阿里的通义、百度的文心X1Turbo、深度求索的DeepSeek以及OpenAI的o3,共同挑战2025年新课标Ⅰ卷的14道客观题。

测试环境严格,所有模型在无系统提示和联网搜索的条件下独立作答,且每个模型只有一次答题机会。测试题目总分73分,包括单选题、多选题和填空题,全面考察了模型的数学推理能力。

测试结果显示,豆包和元宝以并列第一的68分成绩脱颖而出,展现了卓越的数学解题实力。相比之下,DeepSeek和通义分别以63分和62分紧随其后,但稍显不足。而文心X1Turbo和o3的表现则令人遗憾,尤其是o3,仅得34分,显示出对高考数学题目的适应性有待提高。

深入分析各模型的答题情况,豆包、通义和元宝在单选题上表现优异,均获得了35分。DeepSeek因两道题失误而失分,最终得30分;而o3在单选题上更是表现不佳,仅得20分,错误率高达50%。然而,在多选题方面,豆包、DeepSeek和元宝均展现出了强大的稳定性,三道题全部答对。

值得注意的是,尽管通义在答题速度上表现出色,但在多选题的关键时刻出现了判断失误,导致得分不理想。此次测试不仅揭示了各模型在数学解题上的潜力和短板,也反映出它们在逻辑推理和细节处理方面的进步与不足。

与去年相比,这些人工智能模型在数学能力上有了显著提升,特别是在公式应用和逻辑推理方面。尽管仍存在一定的错误和缺陷,但此次测试无疑为AI在高考数学领域的应用和发展奠定了坚实基础。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version