在清华大学交叉信息学院的实验室里,助理教授吴翼正带领团队攻克强化学习领域的前沿课题。这位90后学者与蚂蚁集团研究院合作开发的异步强化学习训练框架AReaL-lite,于今年5月正式开源后,已在AI训练效率提升方面展现出显著优势。该框架通过优化GPU资源调度,成功将训练过程中的资源浪费率降低40%,这项突破源于吴翼团队对传统训练模式的颠覆性思考。
吴翼的科研轨迹呈现出独特的探索路径。2023年创立的边塞科技作为AReaL项目的前身,虽经历创业初期的团队磨合阵痛,却为后续技术突破积累了宝贵经验。"真正的创新者要敢于到无人区开拓",这位清华博导在指导学生时反复强调。他独创的"快速决策法"颇具趣味:当面临艰难选择时,抛硬币的瞬间往往能让人看清内心真实倾向,这种将直觉与理性结合的方式,帮助他在科研方向上多次做出关键抉择。
在具身智能领域,吴翼描绘出令人振奋的未来图景。他预测智能体将突破数字世界界限,通过多模态交互成为物理世界的"智慧大脑"。以家庭场景为例,用户只需发出"整理房间"的模糊指令,机器人就能自主规划数小时的清洁任务,甚至预判主人未明说的需求。这种能力源于强化学习特有的探索机制——让AI在实践反馈中持续优化行为策略,而非依赖人类预设的固定程序。
技术落地的挑战同样不容忽视。吴翼坦言,从数字智能体到物理具身化的跨越面临双重考验:数字世界的指令执行成功率可达99%,而现实场景中机器人完成开门、抓取等动作的成功率仍不足60%。他提出的解决方案是构建分层架构:将运动控制等底层能力比作"小脑",负责即时反应;将预训练大模型作为"大脑",处理复杂推理。这种设计既保留了强化学习在动态环境中的适应性,又借助大模型的先验知识提升任务规划能力。
在组织管理方面,吴翼正在蚂蚁集团内部推行极简团队模式。他打造的6人核心团队打破传统分工壁垒,算法工程师同时承担系统架构与数据处理工作。"当团队规模超过200人,沟通效率就会成为瓶颈",这位崇尚"小而美"的学者解释道。他要求成员每天使用AI工具处理至少30%的工作,这种"以AI养AI"的模式不仅提升效率,更催生出新的产品灵感。
社交媒体上的吴翼展现出与实验室截然不同的面貌。这位自称"高能量I人"的教授在小红书平台拥有数万粉丝,他分享的科研日常常配以奶茶打卡照片,招聘启事也巧妙融入生活元素。这种亲和力背后,是对技术传播的深刻理解:"酒香也怕巷子深,AI时代更要主动展示创新成果"。从字节跳动实习生成长为学术带头人,吴翼用十年时间走出了一条独特的AI创新之路。
对于技术伦理的思考贯穿吴翼的科研生涯。当被问及是否愿意为理想隐姓埋名时,他给出肯定答复:"如果能建立从0到1的突破,我愿意在后续阶段退居幕后。"这种务实态度体现在他对奖励机制的研究中——相比追求海量数据,他更关注如何设计"恰到好处"的提示词,就像教师为学生布置难度适中的习题,这种精细化的训练方法正在重塑AI的能力边界。












