阿里云近日正式推出多模态交互开发套件,为AI硬件厂商提供了一站式接入大模型的解决方案。该套件集成了通义旗下的千问、万相和百聆三款基础大模型,分别负责语言理解与推理、图像生成以及语音交互,为开发者提供了全面的技术支撑。
针对硬件厂商在接入大模型时面临的低成本、低时延和功能丰富性等挑战,阿里云此次推出的开发套件旨在降低技术门槛。通过预置十多款覆盖生活、工作、娱乐和教育场景的Agent和MCP工具,硬件设备能够快速具备听、看、思考以及与物理世界交互的能力,从而满足多样化的市场需求。
在芯片适配方面,该套件已支持30多款主流ARM、RISC-V和MIPS架构的终端芯片,覆盖了市面上绝大多数硬件设备。阿里云还透露,未来将与玄铁RISC-V展开软硬协同优化,进一步提升在RISC-V架构上的推理性能,为开发者提供更高效的技术支持。
时延优化是多模态交互场景中的关键环节。阿里云针对这一需求推出了专有模型,将端到端语音交互时延压缩至1秒,视频交互时延控制在1.5秒以内,并支持全双工语音、视频和图文等多种交互方式,显著提升了用户体验。
该开发套件还接入了阿里云百炼平台生态,开发者可以灵活添加第三方提供的MCP和Agent模板,或通过A2A协议兼容其他Agent,从而扩展应用能力。这一设计为开发者提供了更大的创新空间,有助于推动AI硬件生态的繁荣发展。
在发布会现场,阿里云展示了多个基于该套件的落地场景。例如,在AI眼镜领域,通过结合千问VL和百聆CosyVoice模型,构建了完整的交互链路,支持同声传译、拍照翻译、多模态备忘录和录音转写等功能,为用户提供了便捷的智能体验。
家庭陪伴机器人是另一个重要应用场景。该解决方案能够实时监测异常状况并推送告警信息,用户还可以通过关键词快速查找和定位视频内容,与机器人进行对话交互并控制设备,为家庭生活增添了更多智能化元素。
该开发套件还适用于学习机、陪伴玩具和具身智能等多个领域,为AI硬件的多样化应用提供了强有力的技术保障。随着技术的不断进步和应用场景的持续拓展,阿里云的多模态交互开发套件有望在AI硬件市场中发挥更大作用。








