ITBear旗下自媒体矩阵:

阿里云发布多模态交互开发套件

   时间:2026-01-08 17:51:26 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

AIPress.com.cn报道

1月8日讯,阿里云发布多模态交互开发套件,为AI硬件厂商提供一站式接入大模型的能力。

这套工具集成了通义旗下三款基础大模型:千问负责语言理解和推理,万相负责图像生成,百聆负责语音交互。套件预置了十多款覆盖生活、工作、娱乐、教育场景的Agent和MCP工具,可以直接调用路线规划、旅行攻略、录音转写等能力。

阿里云想解决的问题是:硬件厂商想接大模型,但单靠基础模型很难同时满足低成本、低时延、功能丰富的需求。这套开发套件的定位就是降低门槛,让硬件设备能快速具备听、看、思考和与物理世界交互的能力。

芯片适配和时延优化

在芯片层面,套件适配了30多款主流ARM、RISC-V和MIPS架构的终端芯片,覆盖市面上大多数硬件设备。阿里云还透露,通义大模型未来将与玄铁RISC-V实现软硬协同优化,提升在RISC-V架构上的推理性能。

时延是硬件交互的关键指标。阿里云针对多模态交互场景推出了专有模型,端到端语音交互时延压到1秒,视频交互时延1.5秒,支持全双工语音、视频、图文等交互方式。

接入百炼平台生态

套件接入了阿里云百炼平台,开发者可以添加其他人提供的MCP和Agent模板,也可以通过A2A协议兼容第三方Agent,扩展应用能力。

落地场景展示

发布会现场展示了几个解决方案。

AI眼镜方向,基于千问VL和百聆CosyVoice模型,阿里云搭建了感知、规划、执行和长期记忆的完整交互链路,支持同声传译、拍照翻译、多模态备忘录、录音转写等功能。

家庭陪伴机器人方向,解决方案可以实时监测异常状况并推送告警,用户可以通过关键词查找定位视频,与机器人对话交互和控制设备。

此外还有学习机、陪伴玩具、具身智能等领域的应用场景。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version