滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

Mistral首个开源语音模型来了！全面碾压Whisper，多项测试超越GPT-4o mini

时间：2025-07-16 23:32:06 来源：智东西编辑：快讯团队 IP：北京 发表评论无障碍通道

智东西作者王涵编辑漠影

智东西7月16日消息，今日，谷歌和meta前研究人员创立的AI初创公司Mistral AI，最新发布了首个开源语音模型：Voxtral语音理解模型系列！

该模型包含24B和3B两个参数规模的版本，均基于Apache 2.0许可证开源，同时提供API服务接口。

Voxtral模型支持32k token的上下文窗口，能够处理长达30分钟的音频转录任务或40分钟的语义理解任务，在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。

Voxtral模型继承了Mistral Small 3.1基座模型的文本理解能力，除了基础的语音转文字功能外，还可以直接对音频内容进行问答交互，生成结构化摘要，并通过语音指令触发API调用。

在公告中，Mistral还给出了几个实例展现其语音生成能力，包括：

法国男人说法语：

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法国男人说英语：

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

还可以加背景音，例如在喧闹的大街上对话：

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就连印地语混杂英语都能生成：

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型应用场景中，Voxtral Mini转录版的性能优于OpenAI Whisper，而使用成本仅为后者的50%以下。在高阶应用场景中，Voxtral Small在保持与ElevenLabs Scribe相当性能水平的同时，使用成本同样控制在后者50%以下。

开发者可以在Le Chat上试用，通过Hugging Face平台获取模型进行本地部署，也可以使用云端API服务。

针对企业级应用，该模型支持私有化部署方案，可进行特定领域的微调适配，并提供高级上下文处理功能以及专属集成支持。

未来两周内Voxtral模型将在网页和移动端的语音模式中向所有用户推出。

一、转录能力全面碾压Whisper，3项测试超越GPT-4o mini

在转录能力上，Voxtral通过多个英语及多语种基准测试进行验证，每个任务的评测结果均采用跨语言宏平均词错率呈现，即数值越低越好。针对英语任务，还分别统计了短音频（＜30秒）和长音频（＞30秒）的平均表现。

结果显示，Voxtral在各项指标上全面超越当前领先的开源语音转录模型Whisper large-v3。在英语短音频，以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上，Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe，在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe。

在多语言基准测试FLEURS的评估中，Voxtral Small模型在所有任务上都超越了Whisper large-V3，并在法语和德语中占据榜单首位。

二、语音翻译成绩占据榜首，语音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

为了更好地测试Voxtral Small和Mini版本的语音理解能力，Mistral的研究团队将三项标准文本理解任务转换为语音输入形式，并构建了包含40个长音频样本的内部音频理解基准（AU Benchmark），要求模型完成复杂问答任务。还基于FLEURS-Translation基准测试了Voxtral的语音翻译性能。

测试结果显示，Voxtral Small在所有任务中与GPT-4o-mini及Gemini 2.5 Flash表现相当，并在语音翻译任务FLEURS Translation中，超越GPT-4o-mini及Gemini 2.5 Flash，位列第一。

在文本方面，Voxtral保留了其基座语言模型的文本处理能力，在各项文本测试中与Mistral Small 3.1成绩相当，官方称可直接替代Ministral和Mistral Small 3.1模型使用。

结语：Voxtral表现超越开源项目，但难敌商业模型

Mistral AI发布的Voxtral语音模型系列为开源语音AI领域带来了新的技术选择。

从测试结果上看，该模型在转录准确率上超越了同为开源的Whisper，但其与商业模型GPT-4o-mini及Gemini 2.5 Flash还是有着一定的差距，Scribe依旧是语音模型中的“老大”。

Mistral AI在公告中还特别提到，未来几个月，Voxtral模型的音频处理能力还会持续增强，并且将新增说话人分割、音频标记（如年龄和情绪）、词级时间戳、非语音音频识别等功能。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

MiniMax推出Agent全栈开发功能！一句话聊出演唱会选座系统，可锁座可支付

07-16

全球最亮、最节能：港科大研发出新一代 QRLED

07-16

吉利银河全新轿车星耀6申报：长超4.8米，或搭载全新一代雷神超混

07-16

宇树科技：1 到 3 年内机器人或许可以去流水线上打螺丝

07-16

比亚迪宋 L GT 申报：部分车型动力提升，或标配激光雷达

07-16

全球首款文商旅体专用双足机器人“镋钯”发布

07-16

百度阿里B站美股齐飞扬，百度携手Uber拓展海外无人驾驶市场

07-16

像素蛋糕方糖大模型引领AI创作革命，助力创意快速转化为生产力

值得一提的是，像素蛋糕8.0版本的创意模块，以独家研发的方糖大模型为依托，突破传统修图模式，打通AI创作路径，在现有AI祛路人、AI超清、AI补草地的场景上，推出了证件照换服装、AI布景、智能道具修复、智能…

07-16

马斯克xAI推出AI聊天伴侣：个性化数字伴侣服务引发热议

据媒体报道，此次更新后将上线两名新角色，一名是哥特风格的二次元女孩形象Ani，另一名则是卡通风格小熊猫“坏鲁迪”（Bad Rudy）。今天，我们正式迈出了将数据、模型、计算、分发渠道和人才结合起来的步伐”，…

07-16

AI大模型争霸赛：Llama、DeepSeek与Qwen谁将称雄？

性能PKLlama副总裁Ahmad AI-Dahle于今年4月6日在社交媒体平台X发布了一张测试图片，并配文“截至今天，Llama4 Maverick提供了一流的性能与成本比，其实验性聊天版本在LMAren…

07-16

钉钉换帅：陈航接力再出发，AI赛道迎战飞书挑战

三个月前，无招（陈航）正式回归阿里，接任钉钉CEO一职，叶军则被调回了阿里巴巴集团。今年2月，吴泳铭在阿里2025年财报电话会上点名钉钉：“集团内非常重要的To B资产——钉钉，未来在企业端会有非常多用A…

07-16

AI伴侣模式引热议：马斯克xAI公司Grok成“虚拟女友”新潮流？

这一消息不仅迅速在X平台上掀起热潮，还引发了关于人工智能、情感连接以及未来人机关系伦理的广泛讨论：AI的未来是成为人类的工具，还是伙伴或“替代品”？此前，类似Replika和Character.AI的AI伴侣…

07-16

AI+智算云强强联手，驱动多模态大模型加速赋能垂直行业

此次合作，三方将聚焦行业智能云解决方案共建、AI产品研发与生态协同、联合市场拓展等方向，依托格灵深瞳的AI算法能力、光环新网的高性能算力资源及光环云的智算云网综合服务能力，共同为金融、教育、安防、应急、低空…

07-16

“飞天”健身器上天！青岛英派斯为航天员健康护航

07-16

13亿会员费买了个寂寞？山姆闪电下架好丽友，盼盼、洽洽悄然换标，会员制灵魂何在？

07-16

点击查看更多 +

全站最新

像素蛋糕方糖大模型引领AI创作革命，助力创意快速转化为生产力

马斯克xAI推出AI聊天伴侣：个性化数字伴侣服务引发热议

AI大模型争霸赛：Llama、DeepSeek与Qwen谁将称雄？

钉钉换帅：陈航接力再出发，AI赛道迎战飞书挑战

AI伴侣模式引热议：马斯克xAI公司Grok成“虚拟女友”新潮流？

AI+智算云强强联手，驱动多模态大模型加速赋能垂直行业

热门内容

本栏最新

像素蛋糕方糖大模型引领AI创作革命，助力创意快速转化为生产力

马斯克xAI推出AI聊天伴侣：个性化数字伴侣服务引发热议

AI大模型争霸赛：Llama、DeepSeek与Qwen谁将称雄？

钉钉换帅：陈航接力再出发，AI赛道迎战飞书挑战

AI伴侣模式引热议：马斯克xAI公司Grok成“虚拟女友”新潮流？

AI+智算云强强联手，驱动多模态大模型加速赋能垂直行业

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.