近日,Interspeech 2026 公布录用结果,江苏省语言计算及应用重点实验室共有 4 篇论文被会议接收。Interspeech 由国际语音通信协会 ISCA 主办,长期被视为语音研究领域最具国际影响力的学术会议之一,本届会议主题为 Speaking Together,其录用成果集中反映了语音语言技术前沿的发展方向。
江苏省语言计算及应用重点实验室(以下简称“实验室”)由思必驰科技股份有限公司牵头,联合上海交通大学、苏州大学共建,是江苏省在通用人工智能领域布局的重要战略科技力量。实验室以思必驰的产业平台为依托,汇聚上海交大、苏大的顶尖科研资源,形成“产学研用”深度融合的创新共同体,聚焦语言计算核心技术,贯通基础理论、关键算法、产业落地的全链条创新。
本次收录成果聚焦听觉感知、语言认知、大模型及智能体、全链路对话系统柔性定制等关键方向,持续增强了思必驰在复杂场景语音识别可靠性、语音大模型高效适配、面向部署工程化交付的核心能力,支撑思必驰智慧出行座舱交互、智慧办公会议转写、智慧物联远场对话的体验升级,并提升面向多行业客户的标准化交付效率与可扩展能力。下面介绍本次收录的代表性成果:
面向可靠性的语音识别评估与弃权机制
该成果面向会议转写、车载指令等高安全场景中错误识别被高置信度掩盖的痛点,直接支撑识别结果可信、可控的客户价值。
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
语音识别系统在噪声与语义歧义条件下,常生成看似置信度较高、实则错误的转录,给用户与下游应用带来误导,而传统词错误率指标只衡量准确率,难以刻画结果的可靠性。该工作提出具备弃权感知能力的转录框架,使识别模型能够在不确定片段上显式选择弃权,并提出可靠性导向指标 RAS,在转录信息量与错误规避之间进行权衡,其权衡参数依据人类偏好进行校准。训练上先以监督式自举完成初始化,再结合强化学习训练出具备弃权能力的识别模型。实验表明,该方法在保持有竞争力识别准确率的同时,显著提升转录结果的可靠性,为高安全要求的语音交互提供可控的识别质量保障。

无参考的语音识别结果评估
该成果面向远场家居、车载等噪声环境中识别结果难以离线校验的需求,直接支撑无需标注即可提升识别质量的客户价值。
Read What You Hear: Reference-Free Hypotheses evaluation with Acoustic Discrepancy
语音识别评估通常依赖参考转写,已有的无参考方法则较多依赖模型内部置信度或额外语言模型。该工作提出 READ 指标,直接基于语音信号对识别候选进行评估,强调识别候选的声学基础。方法利用预训练自回归语音合成模型,在给定文本假设的条件下计算语音单元的条件似然,从而衡量语音与文本之间的细粒度声学差异,且无需额外训练即可用于识别候选的优化。实验表明,READ 与识别错误表现出相关性,可改善识别结果,相对错误率最高降低达 20%,在噪声环境下提升尤为明显。该方向归属听觉感知技术体系,并借助语音合成能力实现跨语音与文本的声学校验,为复杂声学环境下的识别质量提升提供新的评估手段。

语音大模型的低资源适配与跨模态对齐
该成果面向多语种、多方言与新领域快速上线时数据采集成本高的痛点,直接支撑低成本、快适配的客户价值。
TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs
语音大语言模型的后训练日益依赖高效的跨模态对齐与鲁棒的低资源适应,但大规模音频与文本配对数据的采集成本居高不下。已有的纯文本对齐方法通过从转录文本模拟 CTC 后验分布来缓解这一负担,却对不确定性与错误率的控制有限,课程设计在很大程度上仍依赖启发式策略。该工作提出 TASU2,一种可控的 CTC 模拟框架,能够在指定词错误率范围内模拟 CTC 后验分布,生成与声学解码接口更加匹配的文本派生监督信号,从而在无需语音合成的条件下平滑调节监督难度,使系统化的后训练课程成为可能。在多种源域到目标域的适应设定下,TASU2 在领域内与领域外识别任务上均优于已有方法,并持续超越纯文本微调及基于语音合成的数据增强等强基线,同时有效缓解源域性能退化。该方向归属听觉感知技术体系,并与大模型及智能体技术体系的语音大模型优化紧密结合,为识别能力向新场景的快速迁移提供高效路径。

统一可复现的语音理解实验框架
该成果面向不同模型方案难以横向比较、训练结果难以复现的工程痛点,直接支撑面向部署的可靠选型与高效交付的客户价值。
A Unified and Reproducible Experimentation framework for Speech Understanding
语音基础模型与语音大语言模型推动了语音理解的进步,但面向部署的模型选择仍受两方面制约:不一致的后处理使评估结果难以直接比较,不同数据规模与训练流程下的训练结果也难以复现。该工作提出统一实验框架 SURE,对预测格式、文本归一化与评分方式进行标准化,并在真实的声学与语言压力条件下,对从传统流水线到语音大语言模型的多类强系统进行跨范式评估。除评估外,SURE 还引入智能体辅助的训练转换流程,将论文与代码映射为遵循统一协议、基于匹配开源数据子集的版本化、可运行训练流水线,从而整体提升面向部署评估的可比性与可复现性,为模型规模化选型与工程交付提供统一、可复现的支撑。

产品落地:智慧出行、智慧办公与智慧物联产品的持续升级
上述研究方向正持续转化为思必驰智慧出行、智慧办公与智慧物联三大领域的产品能力升级。识别结果在噪声与歧义场景下更可信,多语种与新领域的适配更快速,面向部署的模型选型与交付更可复现,语音反馈更自然及时,弱网与低功耗条件下的使用体验更顺畅。依托相关能力,思必驰在多行业项目中的交付效率与场景适配速度持续提升,为客户提供更一致、更可靠的语音交互服务。
结语
长期以来,思必驰深度参与国内外学术前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等顶级学术会议上屡获佳绩,持续产出高质量科研成果,彰显了在人工智能语音语言关键技术领域的深度探索和重大突破。思必驰秉持科研与产业应用紧密结合的理念,将持续推进高水平科研成果向产品能力转化,围绕真实业务场景打磨可落地、可规模化、可持续优化的语音语言技术体系。
【关于思必驰】
作为专业的对话式人工智能平台型企业,思必驰具有源头技术创新和应用创新的能力,自2022年7月获国家科技部批准建设“语言计算国家新一代人工智能开放创新平台”以来,接连于2023-2024年获批组建苏州市、江苏省、长三角三级创新联合体,并于2025年携手上海交通大学、苏州大学,牵头组建“江苏省语言计算及应用重点实验室”,成为国家人工智能战略科技力量的重要组成部分。
思必驰承担了包括国家重点研发计划、国家发改委“互联网+”重大工程和人工智能创新发展工程、国家工信部人工智能与实体经济深度融合项目、长三角科技创新共同体联合攻关计划项目等十余项国家级、省部级项目,展现出卓越的科研实力与项目落地能力。
思必驰深耕语音语言领域,凭借自主研发的核心技术多次在国际研究机构评测中夺得冠军;曾三度斩获国内人工智能最高奖“吴文俊奖”,荣获中国专利优秀奖,以及信通院车载智能语音交互系统最高级别认证等重要荣誉。技术创新能力备受全球瞩目,被高盛全球人工智能报告列为关键参与者,也被Gartner评为东亚五大明星AI公司之一。
截至2025年年底,思必驰拥有近100项全球独创技术,已授权知识产权1700余项,其中已授权发明专利700余项,牵头/参与了70余项国家/行业/团体标准,获得23项国家级的产品认证,8项算法通过深度合成算法备案。思必驰坚持自主的大模型技术路线,加速研发端云协同的分布式智能体系统,以任务型交互为核心,结合智能硬件感知优势,推进分布式的可规划的可信智能体落地,服务企业客户。











