博客

视频事故检测中的大语言模型综述

hanghai tian

13 Jun 2026 • 阅读时间 10 分钟

视频事故检测中的大语言模型：方法、数据集与挑战综述

基本信息

项目	内容
原文标题	Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges
作者	Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma (Iowa State University)
发表	IEEE Transactions on Intelligent Transportation Systems, 2025
arXiv	2507.02074v2
总页数	24 页
引用数	96 篇参考文献

一、研究背景

视频事故检测是智能交通系统中的关键问题。该领域经历了三个主要发展阶段：

时期	方法	准确率	延迟	主要局限
经典方法 (2000-2015)	光流、背景减除、轨迹分析、SVM	70-85%	<100ms	手工特征、环境敏感、泛化差
深度学习 (2015-2020)	CNN、3D CNN、Two-Stream、I3D、SlowFast	85-95%	100-500ms	黑盒、数据饥饿、缺乏语义理解
早期多模态 (2020-2022)	CLIP、UNITER、VideoCLIP、BLIP	88-92%	300-800ms	时序建模有限、语言理解浅层
LLM 时代 (2023-2025)	Video-LLaMA、VERA、CrashLLM、Holmes-V AD	85-92%	200ms-2s	计算成本高、幻觉风险、部署困难

核心转变： 从被动的像素级异常检测 → 主动的、上下文感知的、语言引导推理的事故解释。

二、论文核心贡献

2.1 融合策略分类法

论文提出了一套系统的 LLM 视频事故检测分类法，按三个维度划分：

融合策略
早期融合：在特征层面直接融合视频与文本特征
晚期融合：分别处理后再融合决策结果
混合融合：多层级交叉融合
LLM 角色
编码器：LLM 作为特征提取器
推理器：LLM 作为事故因果推理引擎
生成器：LLM 生成事故描述报告
端到端模型：一体化检测+解释
输入粒度
帧级：逐帧分析
片段级：短时窗口
视频级：整体视频理解

2.2 主要数据集

数据集	规模	来源	特点
DAD (Dashcam Accident Dataset)	~620 行车记录仪视频	自然驾驶	真实事故场景
UCF-Crime	~1900 视频，13 类异常	监控视频	弱监督学习基准
CADP	警察报告标注事故视频	交通事故报告	多视角
BDD100K	10 万+ 驾驶视频	众包驾驶数据	多样化任务
CrashEvent	特定事故事件	监控视频	专用于事故检测

2.3 代表性 LLM 系统

系统	基础模型	核心方法	性能亮点	延迟
Video-LLaMA	BLIP-2 + LLaMA	视频帧编码 + LLM 推理	多模态视频理解基础	~1-2s
VERA	LLaVA-1.5 微调	命名-解释范式	高 AUC + BLEU 分数	~300-800ms
CrashLLM	定制 LLM	上下文感知事故解释	可解释性突出	~500ms-1s
Holmes-V AD	VLM 框架	异常检测 + 描述生成	零样本泛化	~200-500ms
HybridMamba	Mamba 架构	状态空间模型融合	高效率时序建模	~200-400ms
LA V AD	免训练流水线	直接利用预训练 VLM	无需额外训练	依赖后端模型
ScVLM	VLM 适配	事故冲突分类	细粒度场景理解	~500ms
TrafficVLM	可控 VLM	交通视频字幕生成	可控叙述生成	~300-600ms
CRASH	上下文注意力	事故提前预判	预防性检测	~200-400ms

2.4 关键性能对比

准确率 vs 延迟权衡：LLM 系统虽然可解释性强，但检测准确率（85-92%）并未显著超越深度学习时代（85-95%）
核心优势不在准确率，而在于：
🎯 可解释性：能生成"车辆因急刹车而偏离，导致追尾碰撞"这类自然语言描述
🧠 因果推理：理解事故序列中的因果关系
🔄 小样本泛化：通过 few-shot 适应新的事故类型
📝 详细报告：生成结构化的事故分析报告

三、关键挑战

3.1 数据稀缺

现有数据集规模有限（DAD 仅 ~620 视频）
事故标注成本极高，罕见场景难以覆盖
解决方向：CARLA/SUMO 模拟器合成数据、自监督预训练、联邦学习

3.2 多模态对齐

视频与文本的时序同步在遮挡和变帧率下困难
交叉注意力机制可解决但计算复杂
解决方向：更高效的跨模态对齐方法

3.3 推理与可解释性

LLM 幻觉导致错误的事故报告
安全关键场景下不可接受
解决方向：稳健的基础约束（grounding）技术、因果干预模块

3.4 实时性约束

自动驾驶需要 <100ms 延迟，LLM 系统普遍 200ms-2s
7B+ 参数模型的计算开销是主要瓶颈
解决方向：模型量化、层级流水线（轻量检测器 → LLM 推理）、边-云混合架构

3.5 鲁棒性与失败模式

场景	性能下降幅度
遮挡场景（关键车辆被部分遮挡）	漏检率 40%
恶劣天气（雨/雪）	准确率下降 25%
黎明/黄昏光照	检测率降低 30%
对抗性攻击（人眼不可见的扰动）	假阴性率 60%
OOD 分布外场景	平均下降 12-16%

3.6 伦理与公平性

数据集偏见、隐私问题
解决方向：分层数据构建、偏见审计、差分隐私、可解释 AI

四、未来研究方向

4.1 合成训练数据

利用 CARLA/SUMO 模拟器生成多样化事故场景
混合真实-合成数据集 + 领域自适应技术

4.2 视频问答基准 (Video-grounded QA)

目前系统缺乏交互式问答能力
需要构建事故场景专用 QA 数据集（如 "是什么导致了碰撞？"、"哪辆车有过错？"）
可扩展 CADP 等数据集，加入问答标注

4.3 微调 VLM

在事故场景上微调 BLIP-2、Flamingo、Video-LLaMA 等模型
使用 LoRA 等高效微调方法降低计算成本
结合 TimeSformer / SlowFast 等时序模型捕捉动态事件

4.4 与自动驾驶系统集成

AV 流水线集成：LLM 事故检测作为感知-规划-执行流水线的高级组件
多传感器融合：LLM/VLM 语义理解 + LiDAR 几何信息 + 雷达速度数据
事故预判：CRASH 类模型可在事故发生前数秒发出警告，实现 Level 4/5 自动驾驶的主动安全

4.5 架构优化

效率优先：设计高效架构，同时报告延迟和准确率
训练免费方案：LA V AD 类零训练流水线降低部署门槛
层级处理：快滤器 → 深度推理的分层策略

五、核心观察与建议

对研究者的建议

效率优先架构设计：报告延迟与准确率同等重要
跨数据集验证：在不同数据集上评估泛化能力
考虑无训练/弱监督场景：减少数据依赖
隐私保护联邦学习：适用于多地视频数据

对实践者的建议

从轻量/无训练基线开始（如 LA V AD）
采用层级处理：快速筛选 → 片段深度推理
做好本地适配和持续监控
安全关键决策须保持人工在环

论文总结的三点发现

推理能力 vs 可部署性：丰富的时空推理往往伴随更高的计算成本
源域-目标域漂移：在一个数据集上训练的模型需要适配新的相机位置、交通模式
系统设计分层：实践中采用边缘优先过滤 + 延迟允许时选择性卸载到更强后端

六、个人笔记

这篇综述的核心价值在于： 系统梳理了 LLM 时代视频事故检测的完整技术演变路径，清晰指出了一个关键矛盾——LLM 提供了前所未有的可解释性和因果推理能力，但其检测准确率并未超越深度学习方法，而计算开销却高出几个数量级。"可解释但不可部署" 是当前领域的核心困境。

七、重点引文（⭐ 特别关注）

按重要性分为三个层级：

🔴 核心文献（本领域的代表性系统和方法）

编号	文献	理由
[54]	Wang et al., "Name and Explain Your Way to Action: A Video-based Framework for Anomaly Detection", 2024 (VERA)	最直接的可解释事故检测系统，微调 LLaVA-1.5，高 AUC+BLEU
[60]	Zanella et al., "Harnessing the Power of Large Language Models for Training-Free Video Anomaly Detection", 2024 (LA V AD)	免训练流水线，零额外数据部署，实用价值高
[38]	Video-LLaMA (2023)	视频理解基础 VLM，多模态时序建模的奠基工作
[67]	Liao et al., "CRASH: A Context-Aware Attention-based Framework for Crash Anticipation", 2024	事故预判系统，可在碰撞前数秒发出警告
[55]	Lv et al., "Video Anomaly Detection with Large Language Models", 2024	LLM 视频异常检测的直接尝试
[65]	Shi et al., "ScVLM: A Vision-Language Model for Driving Safety Critical Event Understanding", 2024	事故冲突分类，细粒度场景理解
[66]	Dinh et al., "TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning", 2024	可控交通视频字幕生成
[57]	Shihab et al., "Leveraging Video-LLMs for Crash Detection and Narrative Generation", 2024 (TRC-30)	同领域相关工作，事故叙事生成
[85]	Holmes-V AD	零样本异常检测 + 描述生成

🟡 关键数据集

编号	数据集	说明
[61]	DAD (Chan et al., 2016)	行车记录仪事故数据集，~620 视频
[62]	CADP (Bao et al., 2019)	基于警察报告标注的事故数据集
[10]	UCF-Crime (Sultani et al., 2018)	监控视频异常检测标准基准，~1900 视频
[63]	BDD100K (Yu et al., 2020)	10 万+驾驶视频，多任务标注

🟢 基础模型与方法

编号	文献	说明
[17]	OpenAI, GPT-4 Technical Report, 2023	LLM 能力基准
[18]	Alayrac et al., Flamingo, 2022	少样本视觉语言模型先驱
[19]	Li et al., BLIP-2, 2023	高效 VLM 对齐框架
[48]	Touvron et al., LLaMA 2, 2023	开源 LLM 基础
[52]	Hu et al., LoRA, 2021	高效微调方法
[68]	Zhu et al., MiniGPT-4, 2023	轻量 VLM 代表

🟣 重要综述

编号	文献	说明
[51]	Tang et al., "Video-based Traffic Accident Detection: A Survey", 2023	视频事故检测综述（本文的前身）
[25]	Baltrušaitis et al., "Multimodal Machine Learning: A Survey and Taxonomy", 2018	多模态学习经典综述
[70]	Hojjati et al., "Self-supervised Anomaly Detection: A Survey and Outlook", 2024	自监督异常检测综述
[73]	Suarez and Naval, "A Survey on Deep Learning Techniques for Video Anomaly Detection", 2020	视频异常检测深度学习综述
[95]	Shinde et al., "A Survey on Efficient Vision-Language Models", 2025	高效 VLM 综述
[96]	Liu et al., "Privacy-preserving Video Anomaly Detection: A Survey", 2025	隐私保护视频异常检测综述

🟠 基础设施与集成

编号	文献	说明
[92]	Dosovitskiy et al., CARLA, 2017	自动驾驶模拟器，合成数据生成
[93]	Pendleton et al., "Perception, Planning, Control, and Coordination for Autonomous Vehicles", 2017	AV 流水线架构经典
[94]	Wang et al., "Multi-sensor Fusion Object Detection in Autonomous Driving", 2025	多传感器融合综述

八、原始文档信息

项目	内容
原 PDF 路径	`/media/tianhanghai/文档/tianhanghai/files/papers/论文/2507.02074v2.pdf`
摘要保存路径	`record_whh/rsh_id_10_science/rsh_LLM视频事故检测综述/crash_detection_survey.md`
arXiv 链接	https://arxiv.org/abs/2507.02074v2
格式	24 页，IEEE 双栏格式
状态	✅ 已阅读 ✅ 已保存摘要

阅读时间：2026-05-28
来源：arXiv:2507.02074v2 (IEEE Trans. on Intelligent Transportation Systems, 2025)