滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

耶路撒冷希伯来大学新发现：语音AI竟在内部悄悄“翻译”文字思考

时间：2026-07-04 06:04:56 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当语音助手“听懂”你的指令并给出回应时，你是否好奇过它的内部运行机制？是直接处理声音信号，还是存在某种隐秘的转换过程？一项由国际研究团队完成的新研究给出了令人意外的答案：那些看似直接处理语音的AI系统，实际上在内部悄悄将声音转化为文字，用文字进行思考后再转换回语音输出，且这一过程完全由模型自主“学会”，无需人工干预。

为探究这一现象，研究团队以“语音-文本交错语言模型”为研究对象。这类模型的工作流程类似三段式流水线：先将语音转换为数字编码，再由核心语言模型处理，最后将结果转回语音输出。近年研究发现，若在训练核心模型时同时使用声音编码和文字数据，模型在语音任务中的表现会显著提升，但背后的原因一直未明。

研究团队采用了一种名为“logit lens”的分析工具，该工具可截取模型中间层的信息并转换为词汇概率，从而观察模型在处理语音时的内部状态。通过对多个基于Llama3.2-3B和Qwen2.5系列构建的模型进行分析，研究人员发现，语音信息在模型内部经历了清晰的三阶段变化。

在模型的前几层，输出完全由声音编码占据，无实际意义；中间层开始，声音编码逐渐被文字词汇取代，模型在此阶段将声音“翻译”为文字并进行推理；最后几层，文字词汇概率下降，声音编码重新主导，模型将推理结果转回语音格式准备输出。这一过程类似于多语言外交官，将问题从一种语言转换为母语思考后再转回原语言回答。

更令人惊讶的是，模型在训练时未被明确要求将语音转录为文字，这种行为完全是自主探索的结果。为进一步验证，研究团队设计了测试方案，检查模型中间层是否不仅转录当前词，还能预测下一个词和最终答案。结果显示，模型在转录当前词时表现优异，在特定模型中，前50个候选词中约77%至80%的语音词汇能被正确转录；对下一个词的预测准确率虽较低，但仍明显高于随机水平；对最终答案的预测能力最为突出，约60%的问题答案能在中间层提前“浮现”。

那么，是什么训练条件让模型发展出这种能力？研究团队通过控制变量实验发现，只有同时满足两个条件的模型才具备明显隐式转录能力：一是从预训练的文字语言模型出发，二是训练数据中包含一定比例的语音-文字交错数据。预训练文字模型提供了强大的文字推理能力，而交错数据则提供了声音与文字对齐的学习信号。交错数据比例并非越高越好，过高可能削弱这种能力的形成。

研究还发现，隐式转录能力与模型回答常识性问题的能力存在正向相关关系。通过制作包含282道题目的常识问答数据集，研究人员发现，转录能力更强的模型在常识问答上的表现也更好，但这种关系并不完美，说明还有其他因素影响模型的常识水平。

在定性观察中，研究团队发现隐式转录是逐步建立的，模型会随着声音输入的增加不断更新对当前词的文字猜测，类似人类听到单词前几个音节后开始猜测整个词。同时，转录过程也会出错，错误通常与声音相似性有关，如将“lime”误认为“line”，这可能是语音模型与文字模型之间存在差距的根源之一。

这一发现为语音AI的优化提供了新方向。既然模型内部存在隐式转录机制，研究者可考虑直接优化这一中间过程，提升转录准确性和文字推理效率，从而整体提升语音AI的表现。然而，这也引发了新问题：依赖语音特有信息的任务（如识别说话者情绪、口音等）是否会因此受损？为何语音输入能力仍明显弱于文字输入能力？这些疑问有待未来研究进一步解答。对于普通用户而言，这项研究揭示了一个有趣的事实：当你与语音助手交流时，它的“大脑”里可能正在进行一场无声的文字翻译，用文字的逻辑决定如何回应你。

更多>同类资讯

大脑“关系地图”稳定性密码被破解：几何稳定性成行为预测关键

07-04

联动科技1000万美元收购Northstar 完善布局抢滩半导体测试细分市场

07-04

联动科技1000万美元收购Northstar 布局半导体测试拓展海外版图

07-04

月球样本为何敢“裸开”？火星土壤却要严防护？科学认知决定风险策略

07-04

詹姆斯·韦布望远镜新发现：冥王星与土卫六光谱缺口暗示未知分子存在

07-04

全球青年齐聚北京 “2026国际太空艺术设计共创营”开启跨学科太空探索之旅

07-04

中央网信办开展专项行动，重点整治娱乐团播乱象

07-04

同花顺回应「崩了」：目前已恢复，具体原因正在排查中

07-04

长征四号乙火箭升空！海洋二号E卫星接棒组网守护蓝色家园

新闻广播消息：该星将接替2018年发射的海洋二号B星，与在轨运行的海洋二号C星、D星等组网运行，开启我国海洋动力环境卫星星座二期工程新的篇章，确保我国海洋动力环境监测业务连续、稳定运行。（蔡贺涓编）（图…

07-04

从行星到矮行星：冥王星76年身份变迁，揭秘其“降级”背后的科学必然

如果说质量过小是先天缺陷，那1978年发现的第二个秘密，直接让冥王星的行星身份彻底站不住脚，这就是它的卫星卡戎。第一条，天体必须直接围绕太阳公转，不能依附于其他行星运转，彻底排除了所有卫星；第二条，天体自…

07-04

火星地球化面临多重挑战：物质、能量与时间限制下未来数百年或难宜居

再次给乐观主义者一剂强心针——火星表面实际上有足够的水来实现这一目标，甚至在形成海洋和湖泊之后还有剩余。一些较为极端的火星地球化方案，比如为了形成海洋、湖泊和富含氧气的大气层而必须让多颗含水彗星撞击火星表面…

07-04

小行星龙宫样本藏生命密码：DNA与RNA全部五种核碱基在太空中形成

在龙宫发现所有五种碱基，强化了生命分子成分在抵达地球前便已在太空中形成的观点一项新研究指出，来自小行星龙宫的样本中含有构成生命的基础五种碱基，这些分子是生命的字母。在龙宫小行星上发现全部五种核碱基表明，…

07-04

量子宇宙与心灵深处：多伊奇平行论与荣格原型的跨时空共鸣

最干净的解释是：光子真的同时走了两条路径，只是路径发生在不同的宇宙分支里。宇宙每时每刻都在分支，所有逻辑上可能的事，都在某个分支里真实上演，无限多次。它们像晶体一样，在多宇宙里结晶成稳定结构。原型看上去像是超…

07-04

横店资本2亿战略投资天兵科技补齐大运力短板助力商业航天发展

近日，横店集团旗下横店资本完成对国内商业航天头部企业天兵科技的2亿元战略投资，前瞻性布局商业航天核心环节。“天龙三号”是天兵科技面向低轨卫星星座大规模组网发射需求而研制的大型低温液体可重复使用运载火箭，近地…

07-04

月球样本为何敢“裸开封”？火星土壤却要“严防护”？认知差异决定风险等级

这个问题表面看是“防护穿不穿”，本质其实是一个科学判断：目标天体有没有“可能携带活的生物体系”。换句话说，月球样本的安全逻辑是：不是“假设有生命再去防”，而是“已有足够证据证明几乎不存在生命风险”，因此防护…

07-04

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

六年驾车电瓶养护误区终破除！实测揭秘：适度充电才是护车关键

自驾旅行必备！车载汽油发电机给锂电池充电全流程指南来啦

开车省油有妙招！合理调节车内设置，一年轻松省下几百油费

Claude Sonnet 5 正式发布：智能体能力升级，部分性能直追Opus 4.8

极核AE2 Pro首发：3000W动力+TCS加持，行驶质感不输油车，4199元起售

中车大连公司闪耀第四届“链博会” 展现硬核实力与风采

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.