滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

小模型大能量！9B参数AI终端任务逆袭，挑战32B前辈

时间：2026-06-26 04:40:48 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，终端代理正逐渐成为技术发展的焦点。这类AI不仅能编写代码、管理文件，还能在命令行环境中执行复杂任务。然而，尽管市场需求旺盛，学术界在训练这类模型方面却长期面临挑战——缺乏高质量数据、训练流程不稳定、评估标准缺失等问题，让高校和独立研究者难以与大公司竞争。如今，华盛顿大学与艾伦人工智能研究所联合推出了一套名为TMAX的解决方案，试图打破这一僵局。

研究团队的核心思路是：通过构建大规模、高难度的训练环境，结合优化的强化学习方法，将小型模型训练成终端任务高手。实验结果显示，一个仅有90亿参数的模型在权威基准测试Terminal-Bench 2.0上取得了27%的得分，不仅超越了所有同等规模的开源模型，甚至击败了参数量达320亿的多个前辈模型。这一成果的代码、数据和模型已全部公开，供全球研究者复现和改进。

终端代理的训练难度远超普通聊天机器人。普通AI的交互是单轮的——用户提问，模型回答；而终端代理需要处理多轮交互，例如根据命令执行结果调整策略、管理多个程序、处理不同文件格式，甚至在出错时自行修复。这种“边走边看边调整”的模式对强化学习提出了极高要求：训练数据需覆盖真实场景的复杂性，训练过程需保持长期稳定性，基础设施需支持高资源消耗的虚拟环境。

为解决数据问题，研究团队构建了TMAX-15K数据集，包含14600个可运行的终端任务环境。每个任务不仅提供题目描述，还配备独立的Docker容器、自动化检测程序和可能的文件素材。数据集通过九维度组合系统生成，涵盖系统管理、安全、数据处理等九个领域，支持Python、C、Bash等八种编程语言，任务复杂度从短命令到需执行六十条指令的极复杂任务不等。验证方式也经过精心设计，除精确文本匹配外，还包括指标阈值、对抗语料库、模糊等价等五种方法，确保任务难度适中且分布均衡。

训练算法采用DPPO（散度近端策略优化），这是对传统GRPO算法的改进。DPPO通过监测训练与推理状态的偏差，在偏差过大时自动屏蔽部分信号，从而减少训练崩溃风险。研究还发现，强制模型最后一层输出层使用高精度计算、将组大小设为32（即每道题同时生成32条候选轨迹），能显著提升训练稳定性。基础设施方面，团队基于开源框架搭建，使用H100集群训练，每次完整训练需2至3天。

实验表明，TMAX-15K训练出的模型在多个基准测试中表现优异。在Terminal-Bench Lite上，其得分比排名第二的数据集高出4.2分；在更难的Terminal-Bench 2.1上，优势扩大至3.3分。训练过程中，模型始终保持较高的平均操作步数，且每回合生成的文字长度随训练推进稳步增长，显示其学会了用更复杂的策略解决问题。横向对比中，TMAX-9B的表现接近闭源商业模型Claude Haiku 4.5，而参数量仅为后者的三分之一。

为验证模型是否仅“死记硬背”，研究团队设计了三组泛化实验。在任务泛化测试中，TMAX-9B在软件工程bug修复和数学竞赛题上的得分分别提升9.5和17.8个百分点；在工具泛化测试中，模型在四种不同接口下的表现均优于基础模型；在模型家族泛化测试中，同一训练方案应用于Qwen 3 8B后，得分提升超10个百分点。这些结果证明，训练带来的是通用能力提升，而非对特定任务或工具的适应。

研究也揭示了当前方法的局限。数据生成完全依赖合成数据，无法确定模型是否真正超越了生成数据所用的前沿模型；训练过程仍易崩溃，限制了训练步数；评测接口和上下文长度较简单，与业界顶尖产品存在差距。尽管如此，这项研究为学术界提供了一套完整的、可复现的训练“菜谱”，其数据生成方法、稳定性技巧和细节选择，为后续研究奠定了坚实基础。对终端代理领域感兴趣的读者，可通过arXiv编号2606.23321查阅完整论文，或访问GitHub项目hamishivi/tmax获取所有资源。

更多>同类资讯

海光同济强强联手！国产千卡智算集群开启AI赋能工程新时代

06-26

DeepSeek技术升级加速：开启大规模招聘，多领域岗位虚位以待

06-26

AI职场大考：真实办公场景下，最强组合仅得66.3分说明了什么？

06-26

清华大学提出OpenRath框架：用"会话对象"破解AI多智能体协作"黑箱"困境

06-26

AI助力因果推断：定位"助手"角色，守护科学推断的严谨边界

06-26

参数总量不变，仅调整分配方式，语言模型性能竟获显著提升？

06-26

从“没教材”到“精训练”：6000条数据助力AI终端代理能力跃升

06-26

DeepSeek高调发布招聘信息七大类岗位广纳贤才寻找闪光发亮的你

06-26

AI思路混乱有救了？约翰斯·霍普金斯大学给出“自我整理”新解法

06-26

苹果Mac芯片战略调整：入门级先推M6，2027年高端版直上M7系列

06-26

宝马集团再发力：Figure 03人形机器人投身工厂物流复杂排序新任务

06-26

具身智能新突破：RoboScience Visics模型赋能机器人跨场景灵活作业

06-26

商汤科技布局智能体领域：2026年将推全模态基座引领新趋势

06-26

AI助力志愿填报：高考出分三天，超500万考生获个性化“定心”指南

06-26

零跑D99震撼登场！25万级标配空悬四驱，终结MPV续航焦虑新标杆

06-26

点击查看更多 +

全站最新

魏牌高山7“跨界”引争议：MPV加高底盘，是创新突围还是营销迷局？

苹果官网突维护后调价 MacBook Neo涨900元库克曾称涨价难避免iPhone或跟进

百度高考服务数据揭晓：1500万考生借AI志愿助手，真人专家背书成新亮点

奥迪E5 Sportback第三次OTA升级来袭！智能驾驶与座舱交互再进阶

丰田叫停雷克萨斯LF-ZC量产，新技术将转投继任车型未来待定

10万级纯电SUV新选择！东风纳米06智趣版上市，续航智驾双在线

热门内容

本栏最新

零跑D99震撼登场！25万级标配空悬四驱，终结MPV续航焦虑新标杆

亿纬锂能25周年庆启新程：创新驱动发展，携手伙伴共赴能源变革新未来

零跑D99上市！24.98万起售，双动力七座布局，科技豪华一步到位

PearlError-包含视频过滤

宇树科技R1人形机器人降价至2.99万元起行业价格下探或成趋势

亿纬锂能25周年庆启新程：创新驱动发展携手共赴智能零碳未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.