ITBear旗下自媒体矩阵:

荣耀端侧AI语音技术突破,国际顶会INTERSPEECH认可其多语种研究成果

   时间:2025-08-24 04:19:01 来源:观察者网编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在荷兰鹿特丹,国际音频领域的顶级盛会INTERSPEECH于近日圆满落幕。此次大会中,荣耀携手上海交通大学所取得的两项研究成果,成功吸引了全球语音科学界的目光。荣耀的两篇论文,聚焦于端侧多语种任务的解决方案,不仅被INTERSPEECH2025录用,更获得了在大会上展示技术成果的宝贵机会。这一成就,标志着荣耀在端侧AI语音技术领域的深耕细作得到了国际权威学术会议的认可。

INTERSPEECH作为国际音频领域的风向标,其收录的论文代表了全球语音技术研究的最新趋势。荣耀与上海交通大学的合作研究,正是针对当前端侧AI语音技术面临的重大挑战:在移动设备有限的计算与存储资源下,如何实现与云端相媲美的多语种实时语音识别与通话翻译体验。这一研究,无疑为行业带来了新的突破。

在INTERSPEECH的学术交流现场,荣耀的两位AI专家详细阐述了团队的创新成果。据了解,荣耀研发团队与上海交通大学共同攻克了“端侧实现高准确率、高响应速度翻译体验”的技术难题,提出了独创性的解决方案,并将相关技术成功转化为实际应用,实现了从学术研究到产业应用的无缝对接。

在移动互联网时代,语音已成为人机交互的关键方式,而端侧语音技术的突破对于提升用户体验至关重要。然而,行业一直面临两难选择:依赖云端处理的语音翻译方案存在隐私泄露的风险,而传统端侧方案则受限于设备算力,难以实现实时性与准确性的平衡。荣耀的研究项目从一开始就确立了“纯端侧实现媲美云端的通话翻译体验”的目标,这要求研发团队在算力、存储、功耗等多重约束下,解决两大核心难题。

经过不懈努力,荣耀团队创新性地提出了两大技术方案。首先,通过创新的注意力机制与决策策略的结合,实现了端侧AI的流式语音识别能力,用户无需等待说完整句话即可启动识别与翻译,大大降低了延迟。其次,提出了全新的投机采样推理模块,该模块与主模型协同工作,能够高效预测接下来可能出现的词汇,从而在不影响准确性的前提下,显著提升了推理速度。

这两项技术方案不仅在学术评审中获得了高度评价,在实际测试中也展现出了卓越的性能。它们成功地将传统方案3-4GB的内存占用压缩至800MB,节省了75%的存储空间;同时,翻译准确率提升了16%,推理速度提升了38%,实现了“小而美”的技术突破。依托这些创新,荣耀成功构建了全球首个端侧语音大模型,该模型嵌入了中、英、德、法、西、意等6个语种包,仅需0.8B参数量,用户无需额外下载语音包即可实现多语种互译,并支持离线使用,从源头上保障了隐私安全。

荣耀在端侧AI语音技术领域的这一突破,并非偶然,而是品牌长期深耕AI战略的必然结果。自阿尔法战略公布以来,荣耀在AI技术领域的投入始终保持持续性与前瞻性,从AI体验的落地到技术的开源,再到端侧语音大模型的突破,荣耀形成了一条清晰的战略演进路径。此前,在世界人工智能大会期间,荣耀还发布了自研的多模态感知大模型MagicGUI,以7B参数规模,支撑底层AI智能体的多模态感知与自动执行规划能力,达到了行业领先水平。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version