在万众瞩目的第66届国际数学奥林匹克竞赛(IMO)中,中国队再度展现了卓越的数学才能,毫无悬念地将金牌榜首位收入囊中,共计收获六枚金牌,其中两位选手更是以满分佳绩闪耀全场,团队总分高达231分,遥遥领先其他队伍。
然而,相较于中国队如预期般的辉煌战绩,网络上更引人关注的却是AI领域的最新动态。在专门用于评估AI大模型数学能力的MathArena.ai平台上,包括OpenAI的o3与o4-mini、谷歌的Gemini 2.5、马斯克的Grok-4以及国产DeepSeek-R1等在内的顶级AI模型,纷纷接受了考验。
遗憾的是,这些AI大模型在IMO级别的数学挑战面前,表现并不理想,全军覆没。即便是得分最高的谷歌Gemini 2.5,也仅获得了13分,相当于总分的31%,远未达到奖牌线。
正当众人以为这就是AI当前的极限时,OpenAI却抛出了一枚震撼弹。他们宣布,自家最新研发的通用推理模型,在完全模拟人类参赛的条件下,成功解答了五道题,总得分35分,达到了IMO金牌的分数线,仿佛为AI界赢得了一枚“虚拟金牌”。
不过,这一消息迅速引发了争议。首先,关于消息的发布时间,OpenAI选择在IMO闭幕式刚结束不久,就迫不及待地公布了这一“重大突破”,比规定的成绩发布时间提前了一周,这无疑是一种“抢跑”行为,让不少网友为其他参赛选手鸣不平。
其次,关于金牌的认证问题,虽然OpenAI一直强调的是“压上了金牌及格线”,但不少媒体为了吸引眼球,直接将其解读为“AI夺得金牌”。而事实上,OpenAI并未收到参加IMO的邀请,所谓的“35分”也并未经过官方认证。
这一系列事件不仅让人们重新审视了AI的能力边界,也引发了关于AI与人类思考能力的深刻讨论。在日常生活中,AI的广泛应用已经屡见不鲜,从学生利用AI代写论文,到白领依赖AI生成报告,再到媒体行业AI撰稿的占比不断攀升,人类正面临着前所未有的“思考能力危机”。
更值得关注的是,过度依赖AI可能导致人类的思维出现惰性,产生认知依赖症。神经可塑性研究表明,长期依赖AI处理认知工作,会使大脑神经网络发生重构,决策区域的活跃度下降,而信息处理区域则变得异常活跃。这不仅会削弱人类的创新能力和原创性,还可能增加接收错误信息的风险。
为了应对这一挑战,有人提出了“以AI治理AI”的策略。具体而言,就是利用AI自身的算法能力来监管和优化AI技术的应用,同时通过分析用户的使用习惯和心理机制,来避免过度依赖AI的情况发生。例如,通过分析用户的使用频次、情感表现等,提供特定的“AI戒断”方法,帮助用户降低对AI的依赖程度。
AI的发展已成大势所趋,其“出圈”表现背后不仅仅是算法的精进,更是人类认知主导权的微妙变化。如何在享受AI带来的便利的同时,保持对技术的警惕,避免沦为算法的附庸,成为当下亟待解决的问题。