ITBear旗下自媒体矩阵:

京东再发力AI领域!JoyAI-VL-Interaction模型开启视觉语言实时交互新篇

   时间:2026-06-17 09:42:48 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

京东研发团队近日宣布,将面向全球开源一款名为JoyAI-VL-Interaction的视觉语言实时交互模型,该成果在开源社区和海外人工智能技术领域引发广泛讨论。这款模型突破了传统多模态大模型“一问一答”的交互局限,首次实现了“实时流式交互”能力,特别适用于需要AI持续感知并响应的动态场景。

技术评估报告显示,研究团队选取了监控预警、实时计数、即时翻译、时间感知、直播解说引导及长程记忆六大核心场景,将JoyAI-VL-Interaction与豆包、Gemini的App内视频通话助手进行对比测试。在覆盖58个实际案例的评测中,该模型对豆包取得77.6%的综合胜率,对Gemini则达到87.9%的胜率。其中监控预警场景表现尤为突出,面对两个基线模型均保持100%的绝对优势。

据技术文档披露,JoyAI-VL-Interaction通过创新的多模态融合架构,实现了视觉信号与语言指令的毫秒级同步处理。在直播解说场景中,该模型能同时跟踪多个动态目标并生成连贯解说;在长程记忆测试里,可保持超过2小时的连续对话上下文关联。这些特性使其在工业质检、远程医疗、智能安防等需要持续人机协作的领域具有显著应用潜力。

开源版本将包含完整的模型架构、训练代码及预训练权重,支持开发者基于不同场景进行二次开发。研究团队特别强调,该模型在边缘计算设备上的优化表现,使其无需依赖云端算力即可实现实时交互,这为资源受限场景下的AI部署提供了新解决方案。目前已有多个行业合作伙伴启动技术对接,探索在智慧城市、智能制造等领域的落地应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version