滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

首尔大学突破：为扩散模型找到嵌入语言模型的理想“插入点”

时间：2026-05-26 00:39:57 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域长期存在两种主流生成技术路线：以ChatGPT为代表的自回归语言模型，通过逐字预测完成文本生成；而以Stable Diffusion为代表的扩散模型，则擅长从随机噪声中逐步“擦除”出清晰图像。然而，当研究者尝试将扩散模型应用于语言生成时，始终面临效果不如传统语言模型的困境。首尔大学数据科学团队最新提出的混合架构DiHAL，通过将扩散模块植入预训练Transformer内部特定层级，成功突破了这一瓶颈。

传统扩散语言模型主要在词嵌入空间或独立潜变量空间操作，这类方法存在根本性缺陷。词嵌入空间的几何结构复杂，微小去噪误差就可能导致语义漂移；独立潜变量空间虽能部分缓解问题，但需要额外编解码器，且压缩过程会损失信息。研究团队发现，预训练Transformer内部已存在多层经过优化的连续表示，这些中间层既保留了丰富的语义信息，又具备更适合扩散操作的几何特性。

为确定最佳植入位置，研究团队构建了包含局部曲率、单调性和有效秩的三维度量体系。局部曲率反映数据点邻域的紧凑程度，曲率越大去噪过程越稳定；单调性衡量全局方向刚性，值越高表示几何结构越稳定；有效秩则表征数据实际分布的维度复杂度。通过标准化这三个指标并计算综合得分，团队在80亿参数规模的Llama和Qwen模型中，均准确识别出靠近输入端的第三层和第二层为最优植入点。

实验数据显示，几何选层策略与实际训练验证结果高度吻合。在Llama模型中，选层得分最高的第三层验证损失为0.331，而深层第27层损失高达0.656；Qwen模型中，最优第二层损失仅0.060，深层第30层损失飙升至276.584。这种差异在30次重复实验中保持稳定，Spearman相关系数达0.91以上，证明几何指标可有效预测扩散桥接难度。

DiHAL架构采用“扩散桥”设计，将选定层以下的Transformer替换为UNet结构的扩散模块，保留上层网络完成最终生成。该模块通过2D空间重排技术适配图像处理架构，训练时结合去噪损失、重建损失、语言建模损失和知识蒸馏损失四重目标。在30万条文本数据的诊断性对比中，DiHAL生成困惑度仅136.02，多样性指标达0.5913，显著优于Diffusion-LM等传统方法。

完整训练后的评估显示，几何选层策略在语言建模质量上接近理论最优值。Llama模型中，几何选层的负对数似然为4.91，困惑度135.64，优于验证损失最低层的165.67；Qwen模型中，几何选层困惑度144.03，与最优层差距不足4%。相比之下，深层植入导致质量断崖式下降，第31层困惑度高达175.91。

这项研究揭示了扩散语言模型性能瓶颈的新视角：除离散-连续转换难题外，植入位置的几何特性同样关键。通过数学工具量化中间层的扩散友好性，团队为混合架构设计提供了可计算的选层标准。尽管当前实现存在推理延迟增加72%-1170%的代价，但其开创的几何分析框架为后续优化指明了方向，包括主动塑造层几何特性、探索多层植入等潜在改进路径。

更多>同类资讯

华丰科技新品发布：从电互连到光互连，拓展高端互连新版图

07-01

AI赋能新趋势：Claude Code团队负责人预言未来团队需这五类新型角色

以 Claude Code 团队为例，内部传统的「岗位标签」正在被彻底撕下，取而代之的是 5 类基于行为模式的「非绑定」新型角色：原型师、构建者、清理师、增长师、维护者。随着项目逐渐成熟，他又会转向增长师和维…

07-01

北大与朗新科技携手成立AI联合实验室共绘“AI+能源”产学研融合新蓝图

朗新科技董事长徐长军表示，AI正在成为重塑国家能源格局和数字基础设施的核心力量，此次合作将充分释放AI在国计民生中的变革潜能，走出一条理论有高度、落地有实效的创新发展之路，以硬核科技助力能源高质量发展。此…

07-01

苹果紧急发布安全更新应对AI黑客威胁，调整策略守护用户设备安全

【环球网科技综合报道】7月1日消息，据appleinsider和forbes报道称，为应对人工智能技术加速黑客攻击速度的新现实，苹果公司于本周一打破常规，发布了iOS26.5.2、iPadOS 26.5.…

07-01

丰立智能：谐波减速器高增长，定增7.3亿扩产44万台精密减速器

公司拥有约80台测试台架，可同时测试160个型号谐波减速器产品，通过24小时不间断老化测试验证新产品可靠性，并与国际头部企业开展等条件PK测试，确保每款产品各项指标达标。随着本次定增募投项目的顺利推进，丰立…

07-01

邬贺铨解析工业互联网新阶段：智能体融入的机遇、挑战与破局之道

在本次大会上，邬贺铨院士发表了题为《面向智能体应用的工业互联网》的主旨演讲，系统梳理了工业互联网的发展脉络，剖析了智能体嵌入工业互联网的机遇、挑战和应对之策。 PLC、SCADA、工业互联网平台是工业互联…

07-01

Codex，1个月吃掉150GB流量，写满4T硬盘，疯了吗？

07-01

千问功能重大调整，不再支持用户创建智能体

7月1日，据《读佳》报道，由于产品功能调整，目前千问已不支持创建智能体，平台中已有的拟人化互动类智能体也会在7月中旬前正式下线，下线后，用户将无法继续访问相关智能体配置及历史对话记录，不过可以通过复制、截图等方式保存智能体配置信息及重要对话记录。

07-01

AI助力突破技术壁垒国产KrF光刻胶树脂研发迈出关键一步

07-01

国产算力新突破！同济携手海光打造千卡集群解锁工程智能新未来

07-01

优必选推全尺寸超仿生人形机器人U1系列

在近期举办的全球发布会上，一家科技企业正式推出全尺寸超仿生人形机器人“优世界”U1系列，涵盖半身版U1 Lite、高配全身版U1 Pro及高动态全身版U1 Ultra三款机型，定价区间为11.98万元至99万元。该系列尚未正式发售便已引发市场关注，全渠道订单量突破13361台，成为全球首款具备规模化量产能力的同类产品。

07-01

专访大晓王飞：世界模型构建进化闭环，具身智能落地迈关键一步

07-01

苹果紧急发布安全更新：应对AI黑客威胁，缩短补丁推送时间护安全

【环球网科技综合报道】7月1日消息，据appleinsider和forbes报道称，为应对人工智能技术加速黑客攻击速度的新现实，苹果公司于本周一打破常规，发布了iOS26.5.2、iPadOS 26.5.…

07-01

机构调研聚焦A股硬科技赛道人形机器人与半导体材料成资金新宠

07-01

天空工场创投基金布局广泛：投资至少58家企业，多领域成果显著

07-01

点击查看更多 +

全站最新

半程销量领跑，上汽自主新能源海外三线并进开启新篇章

2026上海电科臻和：第一季度快乐会议精彩纷呈共赴下一季拼搏之约

石头科技6月30日股价上扬1.52% 主力资金净流入超千万回购分红同步推进

石头科技6月30日股价微涨1.52% 主力资金净流入超千万机构看好后市

大众ID.ERA 5S内饰曝光：小屏引争议，1.5L插混能否撑起务实家用？

设计加92号油的车加95号油就能动力足还省油？别再被这些说法误导了！

热门内容

本栏最新

岚图泰山X8纯电版7月交付，配置拉满，30万级SUV市场激战将启

iCAR V27首轮大规模OTA升级来袭智能驾驶等140余项功能焕新升级

iCAR V27首轮大规模OTA升级来袭智能驾驶安全座舱全面焕新升级

缤果PRO上市月余车主反馈：好看好开又实用，城市代步新选择

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

AI产业下半场：技术创新与产业落地融合下的五大趋势与机遇洞察

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.