博客

长视频理解

hanghai tian

12 Jun 2026 • 阅读时间 4 分钟

长视频理解

详细

VideoRAG^1

VideoRAG 是一种用于长视频理解的检索增强生成（Retrieval-Augmented Generation）技术。它通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型（LVLMs）更好地理解和处理长视频内容。

具体来说，VideoRAG 使用开源工具从视频数据中提取音频、文字和对象检测等信息，将这些信息作为辅助文本与视频帧和用户查询一起输入到现有的 LVLM 中。这种方法计算开销低，易于实现，能与任何 LVLM 兼容。在多个长视频理解基准测试中，VideoRAG 展现出了显著的性能提升。

VideoRAG 的主要功能
检索增强生成：通过检索增强生成（RAG）技术，VideoRAG 能从长视频中提取与用户查询相关的辅助文本，帮助模型更好地理解和生成响应。
多模态信息提取：基于开源工具（如 EasyOCR、Whisper 和 APE），VideoRAG 从视频中提取多种类型的辅助文本，包括光学字符识别（OCR）、自动语音识别（ASR）和对象检测（DET）信息。
轻量级与高效性：VideoRAG 采用单次检索的方式，具有轻量级和低计算开销的特点，易于与现有的大型视频语言模型（LVLMs）集成。
VideoRAG 的技术原理
辅助文本提取：基于开源工具从视频中提取多种类型的辅助文本信息，包括光学字符识别（OCR）、自动语音识别（ASR）和对象检测（DET）等。分别处理视频的文本、音频和视觉内容，生成与视频帧对齐的文本描述。
检索模块：将提取的辅助文本信息存储在向量数据库中，通过检索技术从数据库中找到与用户查询最相关的文本片段。是通过将用户查询和视频内容的特征向量与数据库中的文本向量进行匹配来实现的。
生成模块：将检索到的辅助文本与视频帧和用户查询一起输入到现有的大型视频语言模型（LVLM）中。模型基于这些信息生成对用户查询的响应，辅助文本提供了额外的上下文信息，帮助模型更好地理解和生成与视频内容相关的回答。
跨模态对齐：通过辅助文本的引入，VideoRAG 促进了视频帧与用户查询之间的跨模态对齐，使模型能够更准确地关注与查询相关的关键帧。

MiniCPM^2

MiniCPM-o 是从 MiniCPM-V 升级而来的最新一代端侧多模态大模型（MLLM）系列。该系列模型现已支持图像、视频、文本及音频输入，并能够以端到端的方式提供高质量的文本与语音输出。MiniCPM-o 旨在实现卓越的性能与高效的部署。目前该系列中最受关注的模型包括：

MiniCPM-o 4.5: 🔥🔥🔥 该系列最新、最强大的模型。总参数量 9B，在视觉、语音及全双工多模态实时流式交互方面的表现接近 Gemini 2.5 Flash，是目前开源社区中功能最全面、性能最强的模型之一。全新的全双工多模态实时流能力意味着输出流（语音和文本）与实时输入流（视频和音频）互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全模态对话中实现“边看、边听、边说”，并能进行如“主动提醒”等主动交互。优化后的语音模式支持更自然、更具表现力且更稳定的中英双语实时交互，并支持声音克隆。此外，它还进一步增强了 MiniCPM-V 原有的视觉能力，包括出色的 OCR 能力、低幻觉率、以及多语言支持等。为了让这种全双工多模态实时流体验在 Mac 等端侧设备上本地运行，我们还同步推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC Demo。
MiniCPM-V 4.0: ⭐️⭐️⭐️ MiniCPM-V 系列中的一款高效模型。该模型拥有 4B 参数，在 OpenCompass 图像理解榜单中超越了 GPT-4.1-mini-20250414。得益于其轻量级的参数规模和高效的架构设计，MiniCPM-V 4.0 是手机端侧部署的理想选择。

长视频理解

详细

VideoRAG^1

MiniCPM^2

参考文献