京东 JoyAI-VL-Interaction — 实时视频视觉语言交互模型

JoyAI-VL-Interaction — 京东开源的实时视频视觉语言交互模型

发布时间: 2026年6月(近日)
来源: 开源中国
原文: GitHub - XiaoMi/xiaomi-mimo-vl-miloco(MiMo 系列技术报告)

概述

京东于近日开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction。据介绍,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction 让大模型从"一问一答"走向"边看边说",开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。

一、三重核心突破

1.1 主动判断,而非被动回答

传统模型通常要等用户发起问题,才开始处理当前画面。JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。

场景示例:用户设置"裁判出示红牌时提醒我",模型就会持续值守画面,并在事件发生时自动预警,而不是等用户再问一句"刚才发生了什么"。

1.2 实时响应,而非事后总结

传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。

1.3 适时智能体委托

JoyAI-VL-Interaction 具备后台任务委派能力。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或 Agent:

层级 职责 特点
前台模型 持续观察现场,保持实时交互 轻量、低延迟、一直在场
后台大脑 处理复杂任务(代码生成、推理、工具调用) 结果返回后自然接回对话

这套"前台实时助手 + 后台智能大脑"的协作系统,前台负责在场,后台负责干重活。

二、技术架构

2.1 判断频率

在实时视频流中,JoyAI-VL-Interaction 每秒都会做一次判断:
- 继续观察、保持沉默
- 发现关键事件、主动回应
- 遇到复杂任务,交给后台 Agent 处理

"什么时候说话"不再只靠外部规则或定时触发,而是成为模型自己学会的能力。

2.2 输入输出支持

功能 支持情况
视频输入 摄像头、直播流、监控流等多种输入
语音输入 支持
语音输出 支持
可视化界面 内置 Gradio 界面
长期记忆 支持
后台模型接口 支持
部署方案 vLLM-Omni 原生支持

JoyAI 演示界面
JoyAI-VL-Interaction 的 Gradio 交互界面,支持视频流实时观察与语音对话

2.3 模块化设计

所有模块均可按需替换:
- ASR(语音识别)
- TTS(语音合成)
- 可视化界面
- 后台模型
- 外部工具
- 业务模块

开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。

三、评测效果

在 58 个真人盲评案例中,JoyAI-VL-Interaction 覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景:

综合胜率

对比对象 总体胜率 监控预警场景胜率
豆包视频通话助手 77.6% 100%
Gemini 视频通话助手 87.9% 100%

能力雷达图与详细结果

JoyAI 能力雷达图
JoyAI-VL-Interaction 在监控预警、实时计数、实时翻译等多维度评测中的能力分布
JoyAI 详细结果
JoyAI 与 Gemini / 豆包在各项任务上的详细盲评结果对比

在监控预警场景中对两个基线均取得 100% 胜率,说明其在实时视频理解和主动预警方面有显著优势。

四、技术亮点分析

  1. 全栈开源:不仅是模型权重,整个系统(推理框架、交互逻辑、模块接口)全部开源,这在实时视频 VLM 领域尚属首次
  2. vLLM-Omni day-0 支持:发布即获得主流推理框架支持,说明与 vLLM 团队有深度合作
  3. 流式决策:模型自主判断"该不该说话",是从被动问答到主动值守的关键跨越
  4. 后台委托架构:前台轻量、后台强大的分层设计,兼顾了实时性和复杂任务处理能力
苏ICP备19018690号-1