技术资讯

京东 JoyAI-VL-Interaction — 实时视频视觉语言交互模型

23 Jun 2026 • 阅读时间 5 分钟

JoyAI-VL-Interaction — 京东开源的实时视频视觉语言交互模型

发布时间： 2026年6月（近日）
来源： 开源中国
原文： GitHub - XiaoMi/xiaomi-mimo-vl-miloco（MiMo 系列技术报告）

京东于近日开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction。据介绍，这也是全球首个全栈开源的 interaction 模型和系统，并获得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction 让大模型从"一问一答"走向"边看边说"，开发者基于这套框架，可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。

传统模型通常要等用户发起问题，才开始处理当前画面。JoyAI-VL-Interaction 可以持续观察视频流，自主判断什么时候该说话，什么时候该沉默。

场景示例：用户设置"裁判出示红牌时提醒我"，模型就会持续值守画面，并在事件发生时自动预警，而不是等用户再问一句"刚才发生了什么"。

传统视频理解更多是上传完整视频后再分析，但在安防预警、实时翻译、直播解说、操作指导等场景里，晚几秒，体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流，画面变化时就能响应。

JoyAI-VL-Interaction 具备后台任务委派能力。当模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或 Agent：

层级	职责	特点
前台模型	持续观察现场，保持实时交互	轻量、低延迟、一直在场
后台大脑	处理复杂任务（代码生成、推理、工具调用）	结果返回后自然接回对话

这套"前台实时助手 + 后台智能大脑"的协作系统，前台负责在场，后台负责干重活。

在实时视频流中，JoyAI-VL-Interaction 每秒都会做一次判断：
- 继续观察、保持沉默
- 发现关键事件、主动回应
- 遇到复杂任务，交给后台 Agent 处理

"什么时候说话"不再只靠外部规则或定时触发，而是成为模型自己学会的能力。

JoyAI 演示界面
JoyAI-VL-Interaction 的 Gradio 交互界面，支持视频流实时观察与语音对话

所有模块均可按需替换：
- ASR（语音识别）
- TTS（语音合成）
- 可视化界面
- 后台模型
- 外部工具
- 业务模块

开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。

在 58 个真人盲评案例中，JoyAI-VL-Interaction 覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景：

对比对象	总体胜率	监控预警场景胜率
豆包视频通话助手	77.6%	100%
Gemini 视频通话助手	87.9%	100%

JoyAI 能力雷达图
JoyAI-VL-Interaction 在监控预警、实时计数、实时翻译等多维度评测中的能力分布
JoyAI 详细结果
JoyAI 与 Gemini / 豆包在各项任务上的详细盲评结果对比

在监控预警场景中对两个基线均取得 100% 胜率，说明其在实时视频理解和主动预警方面有显著优势。