当语音助手“听懂”你的指令并给出回应时,你是否好奇过它的内部运行机制?是直接处理声音信号,还是存在某种隐秘的转换过程?一项由国际研究团队完成的新研究给出了令人意外的答案:那些看似直接处理语音的AI系统,实际上在内部悄悄将声音转化为文字,用文字进行思考后再转换回语音输出,且这一过程完全由模型自主“学会”,无需人工干预。
为探究这一现象,研究团队以“语音-文本交错语言模型”为研究对象。这类模型的工作流程类似三段式流水线:先将语音转换为数字编码,再由核心语言模型处理,最后将结果转回语音输出。近年研究发现,若在训练核心模型时同时使用声音编码和文字数据,模型在语音任务中的表现会显著提升,但背后的原因一直未明。
研究团队采用了一种名为“logit lens”的分析工具,该工具可截取模型中间层的信息并转换为词汇概率,从而观察模型在处理语音时的内部状态。通过对多个基于Llama3.2-3B和Qwen2.5系列构建的模型进行分析,研究人员发现,语音信息在模型内部经历了清晰的三阶段变化。
在模型的前几层,输出完全由声音编码占据,无实际意义;中间层开始,声音编码逐渐被文字词汇取代,模型在此阶段将声音“翻译”为文字并进行推理;最后几层,文字词汇概率下降,声音编码重新主导,模型将推理结果转回语音格式准备输出。这一过程类似于多语言外交官,将问题从一种语言转换为母语思考后再转回原语言回答。
更令人惊讶的是,模型在训练时未被明确要求将语音转录为文字,这种行为完全是自主探索的结果。为进一步验证,研究团队设计了测试方案,检查模型中间层是否不仅转录当前词,还能预测下一个词和最终答案。结果显示,模型在转录当前词时表现优异,在特定模型中,前50个候选词中约77%至80%的语音词汇能被正确转录;对下一个词的预测准确率虽较低,但仍明显高于随机水平;对最终答案的预测能力最为突出,约60%的问题答案能在中间层提前“浮现”。
那么,是什么训练条件让模型发展出这种能力?研究团队通过控制变量实验发现,只有同时满足两个条件的模型才具备明显隐式转录能力:一是从预训练的文字语言模型出发,二是训练数据中包含一定比例的语音-文字交错数据。预训练文字模型提供了强大的文字推理能力,而交错数据则提供了声音与文字对齐的学习信号。交错数据比例并非越高越好,过高可能削弱这种能力的形成。
研究还发现,隐式转录能力与模型回答常识性问题的能力存在正向相关关系。通过制作包含282道题目的常识问答数据集,研究人员发现,转录能力更强的模型在常识问答上的表现也更好,但这种关系并不完美,说明还有其他因素影响模型的常识水平。
在定性观察中,研究团队发现隐式转录是逐步建立的,模型会随着声音输入的增加不断更新对当前词的文字猜测,类似人类听到单词前几个音节后开始猜测整个词。同时,转录过程也会出错,错误通常与声音相似性有关,如将“lime”误认为“line”,这可能是语音模型与文字模型之间存在差距的根源之一。
这一发现为语音AI的优化提供了新方向。既然模型内部存在隐式转录机制,研究者可考虑直接优化这一中间过程,提升转录准确性和文字推理效率,从而整体提升语音AI的表现。然而,这也引发了新问题:依赖语音特有信息的任务(如识别说话者情绪、口音等)是否会因此受损?为何语音输入能力仍明显弱于文字输入能力?这些疑问有待未来研究进一步解答。对于普通用户而言,这项研究揭示了一个有趣的事实:当你与语音助手交流时,它的“大脑”里可能正在进行一场无声的文字翻译,用文字的逻辑决定如何回应你。











