京东 JoyAI-VL-Interaction — 实时视频视觉语言交互模型
JoyAI-VL-Interaction — 京东开源的实时视频视觉语言交互模型
发布时间: 2026年6月(近日)
来源: 开源中国
原文: GitHub - XiaoMi/xiaomi-mimo-vl-miloco(MiMo 系列技术报告)
概述
京东于近日开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction。据介绍,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。
JoyAI-VL-Interaction 让大模型从"一问一答"走向"边看边说",开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。
一、三重核心突破
1.1 主动判断,而非被动回答
传统模型通常要等用户发起问题,才开始处理当前画面。JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。
场景示例:用户设置"裁判出示红牌时提醒我",模型就会持续值守画面,并在事件发生时自动预警,而不是等用户再问一句"刚才发生了什么"。
1.2 实时响应,而非事后总结
传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。
1.3 适时智能体委托
JoyAI-VL-Interaction 具备后台任务委派能力。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或 Agent:
| 层级 | 职责 | 特点 |
|---|---|---|
| 前台模型 | 持续观察现场,保持实时交互 | 轻量、低延迟、一直在场 |
| 后台大脑 | 处理复杂任务(代码生成、推理、工具调用) | 结果返回后自然接回对话 |
这套"前台实时助手 + 后台智能大脑"的协作系统,前台负责在场,后台负责干重活。
二、技术架构
2.1 判断频率
在实时视频流中,JoyAI-VL-Interaction 每秒都会做一次判断:
- 继续观察、保持沉默
- 发现关键事件、主动回应
- 遇到复杂任务,交给后台 Agent 处理
"什么时候说话"不再只靠外部规则或定时触发,而是成为模型自己学会的能力。
2.2 输入输出支持
| 功能 | 支持情况 |
|---|---|
| 视频输入 | 摄像头、直播流、监控流等多种输入 |
| 语音输入 | 支持 |
| 语音输出 | 支持 |
| 可视化界面 | 内置 Gradio 界面 |
| 长期记忆 | 支持 |
| 后台模型接口 | 支持 |
| 部署方案 | vLLM-Omni 原生支持 |

JoyAI-VL-Interaction 的 Gradio 交互界面,支持视频流实时观察与语音对话
2.3 模块化设计
所有模块均可按需替换:
- ASR(语音识别)
- TTS(语音合成)
- 可视化界面
- 后台模型
- 外部工具
- 业务模块
开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。
三、评测效果
在 58 个真人盲评案例中,JoyAI-VL-Interaction 覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景:
综合胜率
| 对比对象 | 总体胜率 | 监控预警场景胜率 |
|---|---|---|
| 豆包视频通话助手 | 77.6% | 100% |
| Gemini 视频通话助手 | 87.9% | 100% |
能力雷达图与详细结果

JoyAI-VL-Interaction 在监控预警、实时计数、实时翻译等多维度评测中的能力分布

JoyAI 与 Gemini / 豆包在各项任务上的详细盲评结果对比
在监控预警场景中对两个基线均取得 100% 胜率,说明其在实时视频理解和主动预警方面有显著优势。
四、技术亮点分析
- 全栈开源:不仅是模型权重,整个系统(推理框架、交互逻辑、模块接口)全部开源,这在实时视频 VLM 领域尚属首次
- vLLM-Omni day-0 支持:发布即获得主流推理框架支持,说明与 vLLM 团队有深度合作
- 流式决策:模型自主判断"该不该说话",是从被动问答到主动值守的关键跨越
- 后台委托架构:前台轻量、后台强大的分层设计,兼顾了实时性和复杂任务处理能力