ITBear旗下自媒体矩阵:

京东全球首开源全栈实时视频交互模型JoyAI-VL-Interaction 助力开发者打造实景AI助手

   时间:2026-06-22 17:16:57 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

京东近日正式对外发布全球首个全栈开源的实时视频视觉语言交互模型——JoyAI-VL-Interaction,该系统获得vLLM-Omni框架的day-0原生支持,标志着人工智能在多模态交互领域取得重要突破。这一创新模型突破了传统AI助手的被动交互模式,通过持续观察视频流实现自主判断与实时响应,为开发者构建实景AI应用提供了全新范式。

与传统模型依赖用户提问才能启动分析不同,JoyAI-VL-Interaction具备主动认知能力。系统可持续监控视频画面变化,自主决定何时需要发出提醒或保持静默。在安防监控场景中,该模型能实时识别异常行为并立即预警;在直播解说场景中,可自动捕捉精彩瞬间并生成解说词,无需人工触发指令。这种主动交互模式使AI应用从"问答式"升级为"陪伴式",显著提升了用户体验的流畅度。

实时性是该模型的另一核心优势。通过优化视频流处理架构,系统能在画面变化时同步响应,延迟控制在毫秒级。在实时翻译场景中,可实现跨语言对话的无缝衔接;在工业操作指导场景中,能即时纠正操作人员的错误动作。测试数据显示,在58个真实流式场景评测中,该模型相比豆包视频通话助手的胜率达77.6%,较Gemini视频通话助手高出87.9%,尤其在视觉触发响应和实时处理能力上表现突出。

针对复杂任务处理需求,研发团队设计了智能体委托机制。当模型遇到代码生成、工具调用等超出处理能力的任务时,会自动将任务委派给后台大模型或专用Agent,同时保持前台对视频流的持续观察。任务完成后,系统能自然衔接对话上下文,实现前后台的无感知切换。这种设计既保证了实时响应能力,又拓展了模型的应用边界。

该系统提供高度模块化的开发接口,支持摄像头、直播流、监控流等多种视频输入,兼容语音交互、可视化界面、长期记忆等功能模块。开发者可自由替换ASR语音识别、TTS语音合成、后台模型等组件,快速集成自有业务系统。目前已有安防监控、老人看护、直播导购、操作指导等十余个行业应用案例,未来还可拓展至AI眼镜、无障碍辅助等可穿戴设备领域。

技术文档显示,JoyAI-VL-Interaction支持vLLM部署方案,可灵活适配不同算力环境。其开源架构包含完整的训练代码、推理引擎和示例应用,开发者既能基于现有框架快速开发,也能进行二次创新。这种开放策略有望推动实时视频交互技术加速普及,为智能助手领域带来新的发展机遇。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version