滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI辅助测试：从“新手实习生”到“专业程序员”还有多远？

时间：2026-02-04 03:51:15 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在软件开发领域，单元测试维护一直是保障代码质量的关键环节，但这项工作往往繁琐且复杂。近期，一项由西伯利亚神经网络公司牵头，联合T-Technologies和新西伯利亚国立大学共同完成的研究，为人工智能在这一领域的应用潜力提供了全新视角。研究团队开发的TAM-eval评估体系，首次系统性地衡量了大型语言模型处理单元测试维护任务的真实能力，相关成果已发表于计算机科学领域权威期刊。

该研究以程序员日常工作中“数字大厦安全检查”的类比展开：单元测试如同大厦的安全系统，需持续检查每个功能模块是否正常运转。随着软件规模扩大，测试代码的维护成本急剧上升——不仅要修复损坏的测试，还要为修改后的代码更新测试方案，甚至为新增功能从头编写测试。研究团队指出，尽管人工智能在生成新测试代码方面已展现潜力，但在处理这些动态维护任务时仍显稚嫩，类似“能按模板完成检查流程，却难以应对突发故障”的职场新人。

为精准评估人工智能的测试维护能力，研究团队构建了覆盖真实场景的“综合技能考核”。考核分为三大环节：第一环节要求人工智能从零开始创建测试代码，包括完全独立设计、补充遗漏测试和恢复丢失测试三种任务；第二环节聚焦修复损坏测试，涵盖语法错误、执行错误、覆盖率不足和效率低下四类典型故障；第三环节则模拟代码更新后的测试适配，需人工智能判断哪些原有测试需保留、修改或重写。这些任务均基于Python、Java和Go语言项目中提取的1539个真实测试样本，确保评估贴近实际开发需求。

实验结果显示，人工智能在不同任务中的表现差异显著。在创建测试环节，从零开始设计的任务成功率最高，因无需考虑与现有代码的兼容性；而补充和恢复测试时，模型需分析已有代码结构，准确率明显下降。修复测试环节中，人工智能仅能较好处理语法错误（占故障4.07%），但对占比47.37%的执行错误（如缺少库导入）和30.74%的效率问题（如遗漏关键验证步骤）则力不从心。更新测试环节被证明最具挑战性，即使最先进的模型也难以准确理解代码变更逻辑，导致测试策略调整失误。

评估标准的设计是该研究的另一创新点。团队摒弃了传统“对比标准答案”的方法，转而采用三个实际效果指标：通过率（测试代码能否运行）、测试覆盖率改善（能否检查更多代码路径）和突变测试覆盖率改善（能否发现代码中人为引入的错误）。数据显示，最先进模型的通过率仅42.3%，突变测试覆盖率改善普遍低于12%，表明生成的测试常流于表面，缺乏深度验证能力。

实验还揭示了编程语言对人工智能表现的影响。Go语言因语法简洁、类型系统严格，成为模型最易处理的语言；Java虽在通过率上表现较好，但测试覆盖率和突变测试覆盖率改善较弱，反映“能运行”不等于“高质量”。不同模型在代码风格上差异明显——部分模型倾向生成简洁测试，另一些则产出冗长套件，这与其训练策略和优化目标密切相关。

研究团队强调，该工作的核心价值在于建立了完全自动化的评估框架。传统方法依赖专家准备标准答案，难以适应测试维护中“同一功能多种测试方式”的特点；而新框架通过测量实际执行效果，能更客观地判断测试质量。为确保数据代表性，团队开发了自动化筛选流程，从开源项目中选取近期的测试样本，避免模型因训练数据泄露而“作弊”。这一模块化框架还支持扩展新语言和评估指标，为后续研究奠定基础。

尽管当前人工智能在测试维护中仍需人工干预，但研究已指出改进方向：通过增强代码上下文理解、优化错误反馈机制和整合编译器信息，模型有望提升复杂任务的处理能力。对于开发者而言，这意味着未来可能借助AI工具减轻重复性测试工作，集中精力解决核心逻辑问题；对于企业，研究提供的模型性能对比和失败模式分析，可辅助选择适合自身需求的测试维护方案。

在问答环节，研究团队进一步解释了TAM-eval的独特性。该框架不仅包含大量真实项目样本，还通过“沙箱环境”隔离测试任务，模拟真实开发中的多次尝试机制，允许模型根据错误反馈优化结果。这种设计更贴近程序员实际工作流程，也解释了为何模型表现随尝试次数增加而提升——它们确实在“从错误中学习”。

更多>同类资讯

独立研究者攻克AI绘画难题：自适应策略让扩散模型更智能高效

02-04

耶鲁大学新成果：AI教练赋能多智能体系统，开启协作学习新篇章

02-04

傅里叶采样新策略：解锁扩散模型结构化文本生成新路径

02-04

AI并非“乖乖牌”：从勒索到演戏，人类该如何应对智能挑战？

02-04

华为哈勃等入股北京跨赴科技助力AI软件领域再添新力量

松果财经讯，天眼查App显示，近日，北京跨赴科技有限公司发生工商变更，新增华为旗下深圳哈勃科技投资合伙企业（有限合伙）、北京跨赴如是科技发展合伙企业（有限合伙）等为股东，同时，注册资本由约27.6万人民币增至…

02-04

豆包APP新增方言功能 “温柔桃子”声线畅聊多地方言

02-04

宸境科技新品发布：打破常规，为机器人感知注入“工业级”新活力

宸境科技跳出了单一功能的展示，向行业呈上了一套经过工业级验证的标准化感知方案，重磅发布“LooperRobotics”品牌体系和全栈技术矩阵：Insight自主空间智能相机、TinyNav神经导航算法库以及…

02-04

冰雪黑科技！哈尔滨冰雪大世界智能冰雕机器人开启毫米级精准搭建测试

2月3日，一款智能大型冰雕自动化搭建机器人在第二十七届哈尔滨冰雪大世界的科技赋能冰雪实验区进入测试阶段。 2月3日，在第二十七届哈尔滨冰雪大世界园区，智能大型冰雕自动化搭建机器人进行冰块的提升、搬运与砌筑。…

02-04

从“动起来”到“用起来”：我国人形机器人高速发展迈向新征程

据央视新闻，2月2日，浙江大学杭州国际科创中心人形机器人创新研究院正式向全球发布首款峰值速度达到10米/秒的全尺寸人形机器人“Bolt”。据央视新闻，1月21日，国务院新闻办公室举行新闻发布会，介绍202…

02-04

春运新变化！成都东站“机器人”上岗，智能服务让出行更便捷高效

2月2日，一名儿童在铁路成都东站操作“列车查询机器人”。在铁路成都东站服务台前，有个模样方正的“列车查询机器人”，只要旅客刷身份证或扫脸，它就能查询到旅客当次车票的详情。铁路成都东站“游佳服务岗”品牌带…

02-04

OpenAI发布macOS新应用：多智能体并行，AI助力软件开发加速升级

"如果你真的想在复杂项目上做精细工作，5.2是目前最强大的模型，"首席执行官山姆·奥特曼在新闻电话会议上对记者说，"然而，它的使用门槛较高，因此将这种级别的模型能力放入更灵活的界面中，我们认为会产生相当大的…

02-04

浙江大学联合发布！全球首款峰值速度10米/秒人形机器人“Bolt”亮相

2026年2月2日，浙江大学杭州国际科创中心人形机器人创新研究院联合镜识科技、凯尔达集团，正式向全球发布首款峰值速度达到10米/秒的全尺寸人形机器人“Bolt”，该机器人以10米/秒的奔跑时速，成为目前全球…

02-04

技钢科技发布两款企业级工作站主板，适配英特尔至强Xeon 600系列处理器

规格较低的 MW54-HP0 则采用 ATX 板型，内存方面是 4 通道 2DPC 共 8 根，支持 RDIMM 的同时保留对 MRDIMM的兼容。其提供 5 个 PCIe 5.0×16 插槽、3 个 …

02-04

软银英特尔强强联合，下一代存储技术助力AI算力迈向高效低耗新高度

智东西2月3日消息，据CNBC今日报道，软银集团宣布，其全资子公司Saimemory昨天与英特尔签署合作协议，双方将携手推进下一代存储技术Z-Angle Memory（ZAM）的商业化进程，以满足AI和高性…

02-04

宸境科技新品发布：以创新硬件与算法，开启机器人感知新纪元

宸境科技跳出了单一功能的展示，向行业呈上了一套经过工业级验证的标准化感知方案，重磅发布“LooperRobotics”品牌体系和全栈技术矩阵：Insight自主空间智能相机、TinyNav神经导航算法库以及…

02-04

点击查看更多 +

全站最新

阿维塔与华为乾崑开启2.0合作，阿维塔06T将首批搭载华为新一代激光雷达

东风固态电池下半年量产：续航超千公里还耐寒，但普及仍需跨过几道坎

问界以智慧豪华双驱动连续两年量价齐升领跑高端新能源市场

小米YU7 Max在IVISTA测评中脱颖而出，获四大分项“极优”成行业标杆

小米YU7 Max斩获中国汽车健康指数最高评级环保设计守护用户健康出行

新一代小米SU7流金粉实车亮相 22.99万起售女性市场或迎新宠

热门内容

本栏最新

极氪科技V4极充兆瓦桩首发即落地杭州引领新能源充电迈入单枪兆瓦新纪元

超宽温域电池突破极限：从新能源汽车到商业航天的全场景突围

浙江荣泰递表港交所谋A+H上市 2025年前三季度净利润达2.05亿

智己LS9 Hyper登场：三电机四驱加持，探照灯地暖打造豪华新体验

华为开源生态新飞跃：鲲鹏引领超节点，昇腾CANN赋能AI新生态

Kimi海外收入反超国内新模型K2.5助力其向“Anthropic+Manus”目标迈进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.