滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

李想汽车研究院创新Switch-KD框架，助力小模型高效“看懂”图片世界

时间：2026-04-27 22:24:20 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，大型视觉语言模型凭借“看图说话”的能力备受关注，但高昂的内存和算力需求却成为其广泛应用的一大阻碍。这类模型若部署在手机、车载系统等资源有限的设备上，往往面临“水土不服”的困境。为解决这一问题，李想汽车研究团队提出了一种名为Switch-KD的创新蒸馏框架，为模型轻量化提供了新思路。

传统知识蒸馏技术通过“老师模型”向“学生模型”传递知识，已在纯文字AI领域取得显著成效。然而，视觉语言模型需同时处理图像和文字信息，知识传递的复杂性大幅增加。现有方法多聚焦于语言输出阶段的监督，对视觉信息的传递监督不足，导致视觉与语言知识传递缺乏内在一致性。

Switch-KD框架的核心突破在于将视觉与语言知识统一到语言概率空间进行传递。其设计灵感源于一个生动的场景：让老师模型通过学生模型的“眼睛”观察世界，并对比两者对图像的解读差异。具体而言，学生模型的视觉编码器输出图像特征后，这些特征会被“切换”至老师模型的投影器和语言大脑，生成一组概率预测。通过比较这组预测与老师模型自身视觉输入的输出，可量化视觉知识传递的损失，从而实现无需额外模块的统一监督。

为进一步提升蒸馏效率，研究团队设计了动态双向逻辑差异损失函数（DBiLD）。该函数针对语言模型输出的“长尾分布”特性，通过Kneedle算法动态确定高价值信息区域的边界，自动调整参与对比的词汇数量。与传统固定阈值方法不同，DBiLD通过比较老师和学生在高概率词汇上的相对排序差异，而非绝对概率值，使知识传递更聚焦于模型的核心判断逻辑。该函数采用双向验证机制，既以老师模型为基准约束学生，也以学生模型的自信判断反哺老师，形成闭环优化。

实验结果显示，Switch-KD框架显著提升了小模型的性能。在10个权威测试基准上，5亿参数的学生模型综合评分达60.1分，较同规模基线模型提升3.6分。尤其在处理模糊照片等复杂视觉任务时，其表现优于纯标准对齐蒸馏方法3.4分。中等规模模型（15亿参数）在减少76%训练数据的情况下，仍取得比对比方法高4.4分的成绩。注意力图可视化进一步证实，Switch-KD训练的学生模型能更精准地捕捉图像语义核心区域，接近老师模型的表现水平。

消融实验深入验证了各设计模块的有效性。加入视觉切换机制后，模型得分提升1.3分，其中模糊照片处理任务提升最显著；DBiLD损失函数的动态k值选择、反向KL散度及双向结构设计，共同贡献了2.3分的提升；蒸馏阶段的选择实验表明，在微调阶段引入Switch-KD可获得最佳效果，避免预训练阶段蒸馏的边际效益递减问题。实验还揭示了老师模型规模与学生容量的匹配规律：当学生模型较小时，过大的老师模型反而可能因知识过载导致性能下降。

尽管Switch-KD在模型轻量化领域取得进展，但其应用仍受限于架构同质性要求。当前框架要求老师与学生模型共享特征空间和词汇表，难以直接应用于异构模型间的知识传递。研究团队正探索引入适配器层或开发架构无关的蒸馏方法，以扩展Switch-KD的适用范围。这一方向若取得突破，将进一步推动AI模型在资源受限设备上的部署，为智能终端的本地化AI应用提供技术支撑。

对于普通用户而言，这类研究意味着更高效的智能设备体验。经过Switch-KD优化的5亿参数模型，已在图像理解任务上展现出接近更大模型的性能，且具备响应速度快、隐私保护强等优势。随着技术迭代，未来更多AI功能有望脱离云端依赖，在本地设备上实现即时运行，为日常生活带来更多便利。

Q&A

Q1：Switch-KD如何实现视觉与语言知识的统一传递？A：该框架通过“视觉切换”机制，将学生模型的图像特征输入老师模型的语言处理通路，生成概率预测。通过比较这一预测与老师模型自身视觉输入的输出，在语言概率空间内量化视觉知识传递的损失，从而避免单独设计视觉特征对齐模块。

Q2：DBiLD损失函数如何动态确定参与对比的词汇数量？A：函数采用Kneedle算法分析词汇概率分布曲线的拐点，将曲线从陡峭到平缓的临界位置对应的排名序号作为动态k值。该方法根据不同样本的输出分布自动调整k值，确保仅聚焦于高概率词汇区域，排除低价值噪声干扰。

Q3：为何选择在微调阶段而非预训练阶段进行蒸馏？A：实验表明，预训练阶段蒸馏仅带来0.9分的提升，而微调阶段蒸馏可提升2.3分，且双阶段蒸馏未产生累加收益。因此，研究团队采用“预训练+蒸馏微调”的两阶段方案，以平衡训练效率与蒸馏效果。

更多>同类资讯

望圆智能冲击IPO：高毛利光环下，研发短板与市场风险待解

与同赛道其他玩家相比，望圆在细分市场的头部地位和成本整体控制水平确实拔尖，但在技术溢价方面存在明显短板——研发开支占收入比仅3.75%，远低于其他机器人企业8%~30%的普遍水平。它在盈利能力和商业落地上已…

04-27

上交大等团队发布PRL-BENCH：AI挑战物理研究，真实能力边界在哪？

04-27

让AI学会“认真看图”：V-GIFT方法为视觉理解注入新活力

04-27

五所高校联合攻克AI持续学习难题：最优传输理论助力对抗遗忘

04-27

艺术与科技共舞：机器人演绎经典，AI时代艺术教育如何破局新生？

04-27

GPT-5.5发布：长上下文质变，定价翻倍下中国开发者的机遇与挑战

国产模型在编程能力上正在逼近，DeepSeekV3.2、Qwen3.6在LMArena编程榜单上已经跻身前十；但在复杂推理、顶层科研场景上，FrontierMath Tier 4国产最优解尚不在同一量级，但…

04-27

AI安全风险受瞩目多家企业主动为高能力模型设置访问门槛

《参考消息》4月27日刊发文章《“太危险而不宜向公众开放”AI企业为最强模型设限渐成趋势》。该模型在化学、生物学任务及实验设计方面的表现，显著优于当前公开可用的模型。 Anthropic与OpenAI对近…

04-27

郭明錤爆料：OpenAI携手高通联发科研发手机芯片 2028年或迎量产新篇

04-27

MiniMax港股表现低迷：大跌14% 市值较峰值缩水半数

04-27

联发科北京车展亮剑：3nm座舱芯片引领AI汽车新潮流，2nm芯片蓄势待发

04-27

最高法院定音：露韦美恶意诉讼宇树科技败诉赔偿8万并担诉讼费

04-27

脉脉CEO林凡谈ChatGPT Images2.0：互联网信任受冲击，实名社交曙光初现

04-27

高德专车全面升级，“AI专车管家”全流程融入，打造出行新体验

04-27

离开独角兽后创业，许华哲：家庭机器人是未来，智能争夺战已打响

我创业这事，跟我爸妈聊，他们肯定是说支持，但你要不创业也不错，因为在他们的视角里，在清华只做教书这一件事，对他们来说也足够好，甚至会是更好的选择。不是别人做了一个什么，我们要立刻有别人有的这个东西；别人做了…

04-27

千诀科技：类脑智能突破“缸中之脑”想象，重塑机器人未来生态

核心原因是，L2场景下的数据能够持续回流、反哺模型，而那些直奔L4的端到端方案，恰恰因为数据量达到及格线的门槛太高，在起步阶段就耗尽了弹药。他总结道，“工业场景要求太高了，既要节拍又要精度，你用模型做最后会…

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

黄鹤之星领航班走进华为：共话数智未来，携手开启企业转型新篇章

元戎首席科学家阮翀首秀：基座模型破局智驾困境，驱动组织AI变革

海康存储北京车展秀实力：多款车载新品亮相，赋能汽车智能化新未来

国家超算互联网限时免费开放DeepSeek-V4对话开启百万上下文普惠新篇

欣旺达北京车展秀实力：“欣星环”电池发布，“能量家生活馆”引领新能源生活

吉利第5代帝豪i-HEV智擎混动北京车展首秀动力节能安全全面升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.