一场不同寻常的“人机对决”在香港科技大学的期末考场悄然上演——一支研究团队将搭载ChatGPT-5.2模型的智能眼镜送入考场,以“作弊者”身份完成《计算机网络原理》期末考试。最终,这款AI设备仅用30分钟便交出92.5分的答卷,成绩跻身全年级前5%,碾压95%的人类考生。这场实验不仅引发对技术伦理的讨论,更将传统教学评估体系的局限性推至风口浪尖。
实验由该校张军教授与孟子立教授团队主导,旨在通过模拟真实作弊场景,测试AI在标准化考试中的表现。研究团队从12款主流智能眼镜中筛选硬件,最终选定乐奇Rokid产品——其摄像头分辨率、显示屏集成度及开发自由度均优于meta等竞品。软件层面则采用OpenAI最新模型ChatGPT-5.2,通过“眼镜-手机-云端”链路实现题目拍摄、答案生成与屏幕显示的全流程自动化。
考试过程中,AI眼镜展现出惊人的效率:学生低头审题时,设备同步捕捉试卷内容并传输至云端;大模型在0.8秒内完成推理,答案经反向链路返回并显示在镜片上。在多项选择题与单页短答题中,AI均获满分;面对跨页逻辑题时,虽在复杂计算部分出现细微偏差,但中间步骤完整度与推理连贯性仍远超多数人类考生。研究团队坦言:“AI的中间步骤甚至比部分学生的最终答案更规范。”
然而,这场“完美作弊”背后,智能眼镜的技术短板亦暴露无遗。实验数据显示,持续高分辨率图像传输导致设备电量在30分钟内从100%骤降至58%,功耗问题成为全天候使用的最大障碍。摄像头清晰度直接影响答题稳定性——当题目出现模糊或反光时,AI因信息缺失导致推理错误率显著上升。团队成员指出:“目前商业设备的硬件性能仍无法支撑高压考试场景的持续运行。”
比技术局限更值得关注的,是实验对传统评估体系的冲击。长期以来,标准化考试以“标准答案”为核心,重点考察记忆能力与步骤推导。但当AI在这些维度展现出绝对优势时,考试的本质开始受到质疑。英国雷丁大学此前研究显示,混入AI生成的答卷中,94%成功通过人工审核,且平均成绩高于真实学生。这种现象引发教育界深思:当机器比人类更擅长“交答案”,考试究竟在衡量什么?
教育心理学家指出,人类能力包含语言、逻辑、空间、人际等八大智能维度,而传统笔试仅能捕捉其中极小部分。例如,提出创新问题的能力、在信息缺失时做出判断的能力,以及理解现实情境的能力,这些真正区分学生素养的关键指标,往往被压缩成试卷上的单一分数。纽约大学Stern商学院近期推出的AI口试评估系统,正是试图通过追问决策依据与思路走向,将评估重心从“结果”转向“过程”。该系统中,Claude、Gemini等模型独立评分后交叉审查,以暴露学生理解盲区。
部分高校已开始尝试改革评估方式。国外某大学引入展示型作业与现场答辩,要求学生口头解释方案推演过程;另有机构采用“过程性档案袋”,记录学生从提出问题到解决问题的完整轨迹。这些变革背后,是教育者对技术时代的回应——当AI能稳定完成信息提取与标准作答,课堂与考试必须转向考察人类独有的判断力、理解力与选择力。
这场人机同场考试犹如一面镜子,既照见智能设备的潜力边界,也映出传统评估体系的陈旧框架。技术无法被简单阻挡,但如何引导其成为辅助思考的工具,而非替代人类思维的“作弊器”,将成为教育领域的新课题。正如研究团队所言:“重点不是AI能否考赢学生,而是我们该用什么标准衡量真正的学习。”









