滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

巴勒斯坦团队创新：三相变换器让AI语言模型训练效率大幅提升

时间：2026-04-27 22:34:22 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一项由巴勒斯坦研究机构提出的新技术，正在为人工智能语言模型的训练效率带来突破性提升。这项被称为“三相变换器”（3PT）的方法，通过借鉴19世纪电力工程中的三相交流电原理，将语言模型内部的信息处理方式重新设计，实现了训练速度提升近一倍、模型质量显著改善的效果。相关研究以预印本形式发布，论文编号为arXiv:2604.14430，为AI领域提供了新的技术思路。

传统AI语言模型的核心架构是Transformer，其运作机制类似于一条“信息高速公路”：每个词语经过处理后转化为高维数字向量，在模型中流动并完成计算。如何优化这条高速公路上的信息流动，一直是研究者关注的重点。三相变换器的创新之处在于，它将原本单一的信息通道拆分为三条并行的“车道”，并让这三条车道以类似三相电的方式协同工作。具体而言，每个词语的向量被均匀分为三段，分别称为“A相”“B相”“C相”，每段各占总长度的三分之一。通过精心设计的操作，这三段信息在模型处理过程中保持动态平衡，从而提升整体效率。

这一设计的核心操作包括四类：首先是“相位旋转层”，它被插入到模型的每个处理单元中，对三段信息分别施加120度间隔的旋转变换，确保三者之和始终为零；其次是“相位感知归一化”，将传统的整体归一化操作改为对三段信息分别处理，避免相互干扰；第三是“相位对齐的注意力机制”，通过调整注意力头的数量使其能被三整除，确保每个注意力头完整落在某一相位分段内；最后是“加布里埃尔号角注入”，利用数学曲线为模型注入绝对位置信号，弥补现有技术在位置编码上的不足。

实验数据显示，这套方法在轻量化方面表现突出。在一个拥有1.23亿参数的标准语言模型上，三相结构仅增加了1536个可训练参数，占总参数量的0.00124%。然而，这种微小的改动带来了显著效果：模型在标准测试集WikiText-103上的困惑度下降了7.20%，同时训练达到相同质量所需的步骤数减少了近一半，收敛速度提升至1.93倍。更令人惊讶的是，这种改进并非通过增加模型复杂度实现，而是通过优化信息流动的几何结构达成。

位置编码的优化是三相变换器的另一大亮点。现有主流模型普遍采用RoPE技术编码词语间的相对位置关系，但对绝对位置的处理较为模糊。三相结构开辟的“直流隧道”为解决这一问题提供了新途径。研究者将“加布里埃尔号角”数学曲线注入这一通道，该曲线的值随词语位置递减，且总和增长极慢，确保无论序列多长，注入的总能量始终有限。这种设计既编码了“开头特殊、后面模糊”的语言直觉，又与RoPE的工作空间完全正交，两者互不干扰且相互补充。实验证明，叠加使用三相结构和RoPE的模型，困惑度比单独使用RoPE的模型降低了15%。

这项研究的探索过程并非一帆风顺。初期实验中，三相结构在传统Transformer架构上表现优异，但在移植到采用RoPE的现代架构时却效果不佳。研究者通过重新审视发现，三相结构和RoPE并非竞争关系，而是可以叠加使用的工具。这一认知转折推动了后续实验的优化，最终形成了精简后的三相变换器方案。实验还发现，随着模型规模的扩大，三相结构的优势更加明显，但在123M参数规模下，分段数N=1和N=3的性能差异在统计上无法区分，表明“三相”并非绝对最优，而是提供了参数共享的灵活选择。

三相变换器的自我稳定性也令人瞩目。即使去掉所有显式的平衡约束，模型在训练过程中仍能自发维持三个相位的均值接近，波动幅度仅为激活值的1%。这种特性与物理学中的诺特定理相呼应：相位旋转层创造的旋转对称性和相位归一化创造的尺度不变性，共同产生了约束相位均值的守恒量，使得梯度下降过程自然维持平衡。研究者在12层模型中还发现，相位旋转层的可学习角度参数在训练后呈现出“U形”分布规律，揭示了线性初始化策略的局限，为未来改进提供了方向。

从550万参数到1.23亿参数的跨规模验证表明，三相变换器的效果具有可重复性。在123M参数规模下，模型的困惑度从17.31降至16.06，降幅7.20%；用BPB指标衡量，降幅为2.62%。尽管与一些经过专门微调的GPT-2家族模型相比仍有差距，但研究者强调，真正的对比应基于配置完全相同、仅变量不同的RoPE基准模型实验。这项研究的意义不仅在于提供了一个“训练快一倍”的技巧，更在于展示了如何将外部知识转化为模型架构约束的方法论，为AI开发效率的提升提供了新思路。

更多>同类资讯

对话Momenta曹旭东：自动驾驶领航，驶向物理AI新未来

04-27

李想汽车研究院创新Switch-KD框架，助力小模型高效“看懂”图片世界

04-27

望圆智能冲击IPO：高毛利光环下，研发短板与市场风险待解

与同赛道其他玩家相比，望圆在细分市场的头部地位和成本整体控制水平确实拔尖，但在技术溢价方面存在明显短板——研发开支占收入比仅3.75%，远低于其他机器人企业8%~30%的普遍水平。它在盈利能力和商业落地上已…

04-27

上交大等团队发布PRL-BENCH：AI挑战物理研究，真实能力边界在哪？

04-27

让AI学会“认真看图”：V-GIFT方法为视觉理解注入新活力

04-27

五所高校联合攻克AI持续学习难题：最优传输理论助力对抗遗忘

04-27

艺术与科技共舞：机器人演绎经典，AI时代艺术教育如何破局新生？

04-27

GPT-5.5发布：长上下文质变，定价翻倍下中国开发者的机遇与挑战

国产模型在编程能力上正在逼近，DeepSeekV3.2、Qwen3.6在LMArena编程榜单上已经跻身前十；但在复杂推理、顶层科研场景上，FrontierMath Tier 4国产最优解尚不在同一量级，但…

04-27

AI安全风险受瞩目多家企业主动为高能力模型设置访问门槛

《参考消息》4月27日刊发文章《“太危险而不宜向公众开放”AI企业为最强模型设限渐成趋势》。该模型在化学、生物学任务及实验设计方面的表现，显著优于当前公开可用的模型。 Anthropic与OpenAI对近…

04-27

郭明錤爆料：OpenAI携手高通联发科研发手机芯片 2028年或迎量产新篇

04-27

MiniMax港股表现低迷：大跌14% 市值较峰值缩水半数

04-27

联发科北京车展亮剑：3nm座舱芯片引领AI汽车新潮流，2nm芯片蓄势待发

04-27

最高法院定音：露韦美恶意诉讼宇树科技败诉赔偿8万并担诉讼费

04-27

脉脉CEO林凡谈ChatGPT Images2.0：互联网信任受冲击，实名社交曙光初现

04-27

高德专车全面升级，“AI专车管家”全流程融入，打造出行新体验

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

黄鹤之星领航班走进华为：共话数智未来，携手开启企业转型新篇章

元戎首席科学家阮翀首秀：基座模型破局智驾困境，驱动组织AI变革

海康存储北京车展秀实力：多款车载新品亮相，赋能汽车智能化新未来

国家超算互联网限时免费开放DeepSeek-V4对话开启百万上下文普惠新篇

欣旺达北京车展秀实力：“欣星环”电池发布，“能量家生活馆”引领新能源生活

吉利第5代帝豪i-HEV智擎混动北京车展首秀动力节能安全全面升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.