阶跃星辰公司宣布,其开源的原生语音推理模型 Step-Audio-R1.1在全球知名的人工智能模型评测榜单上获得了第一名的佳绩。这一榜单由 Artificial Analysis Speech Reasoning 发布,专注于评估语音模型在音频处理和逻辑推理方面的能力,涵盖了准确率、响应时间等多个维度。
Step-Audio-R1.1以96.4% 的准确率超越了诸如 Grok、Gemini、GPT-Realtime 等一线闭源模型,刷新了历史最好成绩。在性能和速度的综合评估中,Step-Audio-R1.1展现了强大的实力,成为业界关注的焦点。
这款模型具有深度语音推理能力和实时响应功能,能够在没有额外延迟的情况下,端到端理解语音内容,具备 “像人类一样听到对话即思考” 的特点。其最新版本不仅提升了实时对话能力,还增强了复杂语音推理能力,完整的实时语音 API 计划于明年2月上线。目前,用户可以通过开放的聊天模式体验到 R1.1的核心功能,支持边想边说的流式推理。
在发布会上,阶跃星辰展示了模型在实际应用中的能力,例如分析猫咪的争斗声音和理解韩语歌词。这些案例展示了 Step-Audio-R1.1的分析能力和语音理解水平,进一步证明了其在复杂语音环境中的出色表现。
目前,Step-Audio-R1.1的权重已上传至 HuggingFace,开发者和研究人员可以免费下载和使用。同时,用户也可以前往阶跃星辰开放平台体验中心进行试用。对于关注 AI 技术和语音模型的人士而言,这无疑是一个值得期待的机会。
huggingface:https://huggingface.co/stepfun-ai/Step-Audio-R1.1
划重点:











