滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

清华等团队创新AI训练法："甜蜜点学习"让智能体学习效率显著跃升

时间：2026-02-04 03:51:53 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

清华大学联合小米公司、浙江大学、南洋理工大学及中科院自动化所的研究团队，在人工智能训练领域取得突破性进展。他们提出的"甜蜜点学习"（Sweet Spot Learning, SSL）方法，通过引入分层奖励机制，显著提升了智能体在复杂任务中的学习效率。这项研究成果已发表于学术平台arXiv，编号为2601.22491v1。

研究灵感源自网球运动中的"甜蜜点"概念——球拍上能产生最佳击球效果的特定区域。团队将这一理念应用于AI训练，认为通过引导智能体聚焦高质量解决方案区域，可以突破传统二元奖励机制的局限。传统方法仅以"成功/失败"评判结果，导致智能体难以理解任务本质，容易陷入低效探索或依赖偶然成功模式。

新算法构建了多层级奖励体系，将解决方案空间划分为不同质量等级。以手机界面操作为例，点击位置越接近目标中心，获得的奖励值越高；在数独任务中，每正确填充一个数字都会获得部分奖励，引导智能体逐步完成全局推理。这种设计使智能体不仅能判断对错，还能感知解决方案的优劣程度。

实验数据显示，该方法在12个基准测试中均表现优异。在安卓界面控制任务中，30亿参数模型的成功率从75.62%提升至82.41%；长期规划任务中，相同规模模型的成功率提高14.6%；数独求解准确率更是实现翻倍增长。特别值得注意的是，使用40%训练数据的SSL模型即可达到传统方法100%数据量的性能水平。

技术实现层面，研究团队通过数学证明确保了算法的两个关键特性：一是保持解决方案质量排序，即相同成功率下更优方案获得更高评分；二是增强梯度信噪比，提供更稳定的学习信号。消融实验表明，将解决方案划分为4个质量层级能在区分度和稳定性间取得最佳平衡，层级过少会导致指导不足，过多则可能引入噪声。

该算法展现出良好的跨任务迁移能力。在感知任务训练的模型应用于规划任务时，仍能保持性能提升，证明其培养的"追求质量"学习模式具有普适性。实际部署中，算法仅需对传统策略梯度方法进行最小化修改，将二元奖励替换为分层奖励即可，这种轻量化设计使其易于集成到现有强化学习框架。

研究团队同时指出算法的局限性：甜蜜点区域设计仍需部分领域知识，复杂约束任务中可能存在局部评估与全局目标的偏差。为防范奖励黑客攻击，算法保留了二元正确性校验作为基础约束，确保甜蜜点奖励仅用于放大正确解决方案。计算开销方面，该方法主要依赖几何距离计算，无需额外神经网络参数或大量标注数据。

目前，该技术已在自动化测试、智能客服、机器人控制等领域展现出应用潜力。例如帮助AI学习更自然的对话策略，或引导机器人完成更精准的动作序列。研究团队正探索自适应甜蜜点调整、多目标优化等改进方向，期待通过更精细的反馈机制推动AI技术发展。完整技术细节可查阅论文arXiv:2601.22491v1。

更多>同类资讯

云天励飞布局AI推理赛道未来三年大算力芯片战略剑指成本与效能突破

02-04

云天励飞布局AI推理赛道未来三年大算力芯片战略剑指成本与效能突破

02-04

京东春节豪掷超13亿升级员工福利，骑手暖心补贴让年货配送更安心

02-04

AI浪潮催生光纤新周期：供需共振下行业龙头如何把握增长机遇？

02-04

马斯克母亲上海“认车”小插曲：深蓝与特斯拉的美丽误会见证国货崛起

02-04

2026科技营销新航向：抖音赋能品牌构建体系化增长引擎

近日，“2026抖音科技生态年度盛典”落地，以人群破圈、新品心智渗透、AI技术链路和生态闭环为核心，提出一套全新的体系化解决方案。由于新方案聚焦于品牌营销的体系化重塑，这意味着品牌应增加对可持续内容供给能…

02-04

马斯克整合SpaceX与xAI，多领域布局能否引领太空与AI新未来？

02-04

摩尔线程AI Coding Plan登场：国产GPU赋能，30天免费体验开启智能编程新篇

02-04

2025胡润中国品牌榜揭晓：苹果居首，茅台微信等品牌价值表现亮眼

02-04

智元机器人2月8日将办《机器人奇妙夜》，两百余台机器人主导，无缘今年春晚

红星资本局2月3日消息，今日，智元机器人宣布，将于2月8日20:00直播全球首个大型机器人晚会《机器人奇妙夜》。此前有传闻称，智元与宇树科技竞争春晚席位，红星资本局今日了解到，智元将不参加2026年马年春晚…

02-04

玖锦科技成都高新区开工新项目助力电子信息产业迈向源头创新新高度

同时，该项目将构建“实验室-中试线-量产线”一体化创新体系，支撑国家重大战略需求，推动先进技术向通信、卫星互联网、量子科技等前沿领域转化，加速从原理验证到规模生产的全流程迭代。作为扎根成都高新区发展的国家…

02-04

网易海洋冒险RPG《遗忘之海》2月5日开启封测，PC端配置要求公布

02-04

拼多多AI硬件价格“跳水”：十元耳机百元眼镜，普及之路前景几何？

但在雷科技看来，能登上 CES 舞台的 AI 硬件本身就是凤毛麟角；想看 AI 硬件竞争到底有多激烈，那还得上拼多多。但在雷科技看来，这些低价产品本身也没有想着在体验上拉开差距。不过话又说回来，既然这些低…

02-04

联想摩托罗拉Razr 70系列通过阿联酋TDRA认证或上半年发布 Edge 70 Fusion配置曝光

IT之家 2 月 3 日消息，外媒 xpertpick 挖掘数据获悉，联想旗下摩托罗拉 Razr 70 和 Razr 70 Ultra两款手机目前已经通过阿联酋 TDRA 认证，暗示这两款机型有望于今年上半…

02-04

小米今年IoT新品阵容曝光：NAS、耳夹式耳机等多款产品有望年内登场

IT之家 2 月 3 日消息，消息博主 @智慧皮卡丘昨日表示，小米今年将推出一系列 IoT 新品，包括Tag追踪器、手表、NAS、手环、（新一代）AI 眼镜、耳夹式耳机。 @智慧皮卡丘在回复中提到，小米…

02-04

点击查看更多 +

全站最新

阿维塔与华为乾崑开启2.0合作，阿维塔06T将首批搭载华为新一代激光雷达

东风固态电池下半年量产：续航超千公里还耐寒，但普及仍需跨过几道坎

问界以智慧豪华双驱动连续两年量价齐升领跑高端新能源市场

小米YU7 Max在IVISTA测评中脱颖而出，获四大分项“极优”成行业标杆

小米YU7 Max斩获中国汽车健康指数最高评级环保设计守护用户健康出行

新一代小米SU7流金粉实车亮相 22.99万起售女性市场或迎新宠

热门内容

本栏最新

2026科技营销新航向：抖音赋能品牌构建体系化增长引擎

小米YU7 Max在IVISTA测评中脱颖而出，获四大分项“极优”成行业标杆

小米YU7 Max斩获中国汽车健康指数最高评级环保设计守护用户健康出行

新一代小米SU7流金粉实车亮相 22.99万起售女性市场或迎新宠

小米YU9高寒测试曝光！增程大SUV硬刚理想L9，车顶或藏玄机，30万起售？

雷军直播揭秘新一代SU7：2月13日左右展车进店，配置升级涨价也值

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.