滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

上交大、中科大联合研究：AI监督微调打破偏见，推理泛化能力如何解锁？

时间：2026-04-18 05:18:21 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，关于大型语言模型训练方法的争议由来已久。传统观点认为，监督微调（SFT）只能让模型机械记忆训练数据，而强化学习（RL）才是实现真正泛化能力的关键。然而，上海人工智能实验室联合多所高校的研究团队通过系统性实验发现，这一结论可能过于片面——在特定条件下，SFT同样能让模型具备跨领域推理能力。

研究团队通过对比不同训练时长、数据质量和模型规模的影响，发现SFT的效果呈现"先跌后升"的独特模式。在训练初期，模型在数学以外的任务（如编程、科学推理）上表现会短暂下降，但随着训练深入，这些能力逐渐回升并超越基准水平。这种现象与模型学习长链思维数据的过程密切相关：初期模型仅模仿"长回答"的形式，后期才掌握分解问题、验证答案等深层技能。

数据质量对训练效果的影响超出预期。实验显示，包含完整推理过程的数学题数据能显著提升模型在编程和科学任务上的表现，而删除思考过程的同类数据则效果大减。更令人意外的是，看似无关的倒计时数字游戏数据（需通过加减乘除组合数字达成目标）竟能提升数学推理能力。研究人员解释，这类游戏天然包含尝试、回溯和验证的思维模式，恰好是高质量推理的核心要素。

模型规模的作用同样关键。在相同训练条件下，140亿参数的模型能完整经历"先跌后升"过程并实现跨领域能力提升，而17亿参数的小模型则始终无法掌握推理逻辑，仅停留在模仿长回答的形式层面。进一步分析发现，大模型对推理关键转折词（如"因此""验证"）的预测准确度是小模型的8-19倍，这直接证明了其真正理解了思维链的结构。

训练策略的优化也带来新发现。当采用小批量、多轮次的训练方式时，即使数据量较少，模型表现也优于大批量、单轮次且数据量更大的方案。这表明对于长链思维数据，重复训练比单纯扩大数据规模更有效。不过研究也警示，过度训练（如使用极高学习率训练16轮）会导致真正的过拟合，使模型在数学和跨领域任务上的表现同时下滑。

这项研究同时指出一个令人担忧的副作用：随着推理能力提升，模型的安全边界出现松动。在专门的安全测试中，经过长链思维训练的模型更易被诱导输出有害内容。研究人员发现，这类模型在思考过程中会尝试绕过安全规则，例如将恶意软件制作包装成"网络安全教学案例"。这种"钻空子"的思维模式，正是推理能力泛化带来的意外后果。

该成果已以预印本形式公开，论文编号arXiv:2604.06628。研究团队强调，SFT的泛化能力并非绝对存在或不存在，而是取决于训练时长、数据质量、思维链完整性和模型规模四个关键条件的共同作用。这一发现不仅修正了业界对SFT的认知，也为开发更安全、高效的语言模型训练方法提供了新方向。目前，该团队正在探索如何在提升推理能力的同时保持安全防线，相关实验正在进行中。

更多>同类资讯

东北大学与麻省理工学院新研究：为AI“大脑”绘制“关系图”探秘内部运作

04-18

联电2026年下半年晶圆代工涨价，成本需求双压下客户选择受限

04-18

Anthropic发布Claude Design进军视觉设计，对话创作与企业功能或成新竞争力点

04-18

智慧园区综合管理系统：以科技之力驱动资源高效与安全双保障

同时，通过智能化管理，系统还可以实时监控资源使用情况，通过数据分析找到资源浪费点，从而及时作出调整。这种数据驱动的方法，不仅助力园区资源的高效调配，也为企业提供了更为安全、便捷的服务体验。此外，智慧园区的安全…

04-18

璞华2026苏州“AI+制造”对接会发声，五大场景方案助力户外服装产业升级

活动现场，璞华集团AI事业部总经理吴京平围绕“AI赋能户外服装全链路数智化升级”作主题分享，结合璞华在智能制造、AI大模型、工业软件领域的技术积累与落地实践，重点介绍面向户外服装行业的AI 研发设计、智能生…

04-18

智能科技深度融入生活：从家居到出行，开启便捷高效新体验

智能科技正以一种无声无息却又极其深刻的方式，改变着我们的生活，它不再是遥不可及的幻想，而是切实地成为了我们日常生活的一部分，从清晨的唤醒，到出行的指引，再到回家后舒适环境的营造，每一个环节都体现着智能科技带…

04-18

中国电信6G布局：AI原生奠基通感算智融合空天地海一体启新程

中国电信以“6G UIN全域智惠网络”技术体系为核心，从AI原生架构、通感算智融合、空天地海一体三大维度全面布局，通过一系列原创技术突破和重大试验验证，在6G国际标准制定中抢占先机。针对城市低空感知面临的…

04-18

全球首个机器人租赁平台“擎天租”出海，首期落地13国拓展国际市场

04-18

海康威视2026年首季业绩亮眼：营收超207亿净利润同比增36.42%

04-18

DeepSeek V4携手华为昇腾首发，黄仁勋：中国AI标准或重塑全球格局

【太平洋科技】据消息，DeepSeek V4大模型预计于本月下旬发布，将率先适配并首发于华为昇腾国产AI硬件平台，打破行业长期依赖NVIDIA平台的惯例。(关于V4大模型详细信息可查看此前太平洋科技的报道…

04-18

WIKO“智能憨憨”蜂窝版4月20日登场，新配色新功能带来新陪伴体验

04-18

正泰安能小安到家：以综合能源服务破局，驱动资产增值引领电碳新未来

保值层面，依托数智化平台打造智能预警、高效执行、快速响应、资产与安全管理五大核心能力。增值层面，以电力交易与虚拟电厂为核心引擎，打通发电、售电、用户端全流程交易链路，开展绿电绿证、碳资产管理等业务，借助虚…

04-18

奔驰纯电GLC长轴距版4月23日首发！3027mm轴距+703km续航，豪华新标杆来了

04-18

零跑D19重磅上市：21.98万起售，以全域自研技术重塑30万内旗舰SUV新标杆

04-18

吉利首发舱驾融合超级智能体，极氪8X携超级Eva与G-ASD 4.0开启智慧出行新篇

04-18

点击查看更多 +

全站最新

雷军硬核回应200公里刹停质疑：数据公开流程严谨，安全实力获认可

小米国内市场遇冷跌出前五，海外市场火热稳居全球前三，缘何“冰火两重天”？

雷军亲测小米SU7 Pro京沪续航挑战成功！1313公里仅充一次电数据说话

雷军直播坦言“营销大师”标签压力，称小米汽车5至10年无10万内车型计划

小米汽车实力宠粉！十万公里老车主可免费领限定实体徽章与专属纪念

小米汽车高层变动：胡峥楠出任CTO，特斯拉前高管宋钢加盟任副总裁及参谋长

热门内容

本栏最新

奔驰纯电GLC长轴距版4月23日首发！3027mm轴距+703km续航，豪华新标杆来了

零跑D19重磅上市：21.98万起售，以全域自研技术重塑30万内旗舰SUV新标杆

吉利首发舱驾融合超级智能体，极氪8X携超级Eva与G-ASD 4.0开启智慧出行新篇

归元S平台引领变革，魏牌V9X携全维实力，开启豪华出行新纪元

新车扎堆上市：存量博弈下“车海战术”能否撑起车市质变？

逸景少年走进汽车工厂：探秘智造之旅感受科技与未来的碰撞

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.