科技巨头谷歌近日在翻译领域迈出重要一步,将升级后的Gemini 2.5 Flash原生语音模型融入Google翻译,推出耳机实时语音翻译测试版功能。这一创新让任意耳机都能化身“翻译神器”,用户无需额外购置专用设备,只需佩戴耳机并打开Google翻译APP,点击“Live translate”即可开启实时翻译,获取单向同声传译服务。更引人注目的是,翻译过程不仅能精准传递语义,还能保留讲话者的语气、重音和语速,为跨语言交流带来更自然的体验。
与传统翻译工具不同,谷歌的新功能突破了硬件限制。无论是老旧有线耳机、普通蓝牙耳机,还是高端AI耳机,只需连接安装Google翻译的安卓设备,即可激活同声传译。这一特性与苹果今年9月推出的AirPods Pro 3实时翻译形成鲜明对比——后者仅支持特定机型,且需搭配升级至iOS 26或更高版本的iPhone 15 Pro及以上设备使用。谷歌的方案则以“零硬件成本”和“全机型适配”的优势,为更广泛的用户群体提供了实时翻译的可能。
在翻译质量上,谷歌通过Gemini 2.5 Flash原生音频处理技术实现了从“逐字直译”到“情感传递”的跨越。传统机器翻译往往因生硬逐句翻译而影响体验,而新功能不仅能识别语音内容,还能捕捉说话者的语调、重音和节奏。例如,英语中的调侃语调、西班牙语的热情重音、中文的含蓄语速,均能通过翻译完整保留,使对话更贴近真实场景。据谷歌产品管理副总裁罗斯·姚介绍,这一技术让跨语言交流更加自然,也便于区分不同发言者。
功能覆盖场景方面,谷歌实时翻译支持单向聆听与双向对话两种模式。用户佩戴耳机后,系统会自动监听周围环境语言,无论身处地铁、餐厅还是学术会议,均可将日语、韩语、德语等外语实时转换为中文播报。若需双向交流,双方佩戴耳机后,系统会自动识别说话者语言,无需提前设置语种,即可将对方语言翻译为母语传递至耳机,同时将用户回应翻译后通过手机播报给对方。演示视频显示,四人分别使用韩语、英语、中文和德语交流时,系统能精准识别主要说话者,并在对话中途灵活切换语言。目前,该功能已支持超过70种语言和2000个语言对的语音翻译。
尽管技术优势显著,谷歌的实时翻译仍面临准确率挑战。海外网友反馈称,部分场景下存在识别误差,尤其在专业学术领域表现有待提升。据谷歌披露,新升级的Gemini 2.5 Flash模型准确率已提升至71.5%,多轮对话质量从62%升至83%,但与科大讯飞等厂商高达95%的翻译准确率相比仍有差距。后者通过专用硬件实现离线翻译,并针对医疗、法律等领域提供定制化服务,目前仍是高端市场的首选。
市场格局方面,谷歌的入局正重塑同声传译赛道。此前,市场主要由三类玩家主导:一是以科大讯飞、时空壶为代表的硬件厂商,通过将翻译系统嵌入专属设备实现高精度翻译,但产品售价多在千元级,难以普及;二是以苹果为代表的生态依赖型方案,仅限特定机型用户使用,且支持语种有限;三是以Nebulabuds为代表的轻量化APP方案,通过手机APP连接普通耳机实现翻译,但需商业合作激活,尚未覆盖所有设备。谷歌的方案则以“零成本”和“全兼容”填补了市场空白,尽管准确率尚不及专业硬件,但已对传统方案构成冲击——实时翻译可能不再成为耳机或AI眼镜的核心卖点。
目前,耳机实时语音翻译测试版功能已向美国、墨西哥和印度的安卓用户推送,并计划于2026年扩展至苹果iOS生态及更多地区。这一布局不仅体现了谷歌在AI翻译领域的野心,也预示着跨语言交流正从“专业工具”向“普惠服务”转型。随着技术迭代,未来实时翻译的准确性、场景覆盖和用户体验或将迎来新一轮升级。











