ITBear旗下自媒体矩阵:

京东全球首推全栈开源JoyAI-VL-Interaction 开启实时视频交互新篇章

   时间:2026-06-23 17:03:41 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

京东近日宣布,全球首个全栈开源的视觉交互模型与部署系统——JoyAI-VL-Interaction实时视频视觉语言交互模型正式对外开放。该系统突破传统多模态模型“一问一答”的被动交互模式,通过原生适配vLLM-Omni架构,实现了AI对实时画面的持续感知、自主决策与主动响应能力,为安防监控、直播互动、工业指导等场景提供全新技术支撑。

传统图文或视频大模型通常依赖用户主动提问才能触发分析,在实时动态场景中存在明显局限。JoyAI-VL-Interaction通过三项核心创新重构交互范式:其一,模型可自主读取摄像头、监控设备及直播流等实时视频数据,自动识别火灾、跌倒等关键事件并即时预警,无异常时保持静默运行;其二,采用流式处理技术,无需等待完整视频上传即可对正在发生的画面进行实时响应,满足安防监控、同声传译等对时效性要求严苛的场景需求;其三,通过前后台协同机制,将复杂任务(如代码生成、工具调用)交由后台Agent处理,前台模型持续保持画面观测状态,确保交互连贯性。

与多数仅开放模型权重的开源项目不同,京东此次完整开源了模型权重、专属训练数据集、全流程训练方案及可部署工程框架。系统支持语音模块、可视化界面、第三方Agent及业务接口的灵活替换,具备多路视频输入兼容性,并集成长期记忆存储、语音交互及vLLM快速部署功能。开发者可基于此快速构建居家看护、安防预警、直播解说、电商导购、无障碍辅助等实景AI应用。

在覆盖监控预警、实时计数、多语言翻译等58组真人盲测中,该模型展现显著优势:对比豆包视频交互助手取得77.6%的综合胜率,较Gemini视频交互助手胜率达87.9%,尤其在安防预警场景中实现对两款竞品的100%压制。技术团队指出,这种性能差距源于自主交互能力已深度嵌入模型架构,而非依赖外部触发机制,使系统能更自然地融入动态环境。

目前,该模型已支持通过摄像头、监控流及直播流进行实时交互,其开源特性为行业提供了可定制化的技术底座。开发者可根据具体场景需求,调整语音交互模式、优化可视化界面或集成专业领域Agent,推动视觉语言交互技术在更多垂直领域的落地应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version