视频事故检测中的大语言模型综述

视频事故检测中的大语言模型:方法、数据集与挑战综述

基本信息

项目 内容
原文标题 Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges
作者 Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma (Iowa State University)
发表 IEEE Transactions on Intelligent Transportation Systems, 2025
arXiv 2507.02074v2
总页数 24 页
引用数 96 篇参考文献

一、研究背景

视频事故检测是智能交通系统中的关键问题。该领域经历了三个主要发展阶段:

时期 方法 准确率 延迟 主要局限
经典方法 (2000-2015) 光流、背景减除、轨迹分析、SVM 70-85% <100ms 手工特征、环境敏感、泛化差
深度学习 (2015-2020) CNN、3D CNN、Two-Stream、I3D、SlowFast 85-95% 100-500ms 黑盒、数据饥饿、缺乏语义理解
早期多模态 (2020-2022) CLIP、UNITER、VideoCLIP、BLIP 88-92% 300-800ms 时序建模有限、语言理解浅层
LLM 时代 (2023-2025) Video-LLaMA、VERA、CrashLLM、Holmes-V AD 85-92% 200ms-2s 计算成本高、幻觉风险、部署困难

核心转变: 从被动的像素级异常检测 → 主动的、上下文感知的、语言引导推理的事故解释。


二、论文核心贡献

2.1 融合策略分类法

论文提出了一套系统的 LLM 视频事故检测分类法,按三个维度划分:

  1. 融合策略
  2. 早期融合:在特征层面直接融合视频与文本特征
  3. 晚期融合:分别处理后再融合决策结果
  4. 混合融合:多层级交叉融合

  5. LLM 角色

  6. 编码器:LLM 作为特征提取器
  7. 推理器:LLM 作为事故因果推理引擎
  8. 生成器:LLM 生成事故描述报告
  9. 端到端模型:一体化检测+解释

  10. 输入粒度

  11. 帧级:逐帧分析
  12. 片段级:短时窗口
  13. 视频级:整体视频理解

2.2 主要数据集

数据集 规模 来源 特点
DAD (Dashcam Accident Dataset) ~620 行车记录仪视频 自然驾驶 真实事故场景
UCF-Crime ~1900 视频,13 类异常 监控视频 弱监督学习基准
CADP 警察报告标注事故视频 交通事故报告 多视角
BDD100K 10 万+ 驾驶视频 众包驾驶数据 多样化任务
CrashEvent 特定事故事件 监控视频 专用于事故检测

2.3 代表性 LLM 系统

系统 基础模型 核心方法 性能亮点 延迟
Video-LLaMA BLIP-2 + LLaMA 视频帧编码 + LLM 推理 多模态视频理解基础 ~1-2s
VERA LLaVA-1.5 微调 命名-解释范式 高 AUC + BLEU 分数 ~300-800ms
CrashLLM 定制 LLM 上下文感知事故解释 可解释性突出 ~500ms-1s
Holmes-V AD VLM 框架 异常检测 + 描述生成 零样本泛化 ~200-500ms
HybridMamba Mamba 架构 状态空间模型融合 高效率时序建模 ~200-400ms
LA V AD 免训练流水线 直接利用预训练 VLM 无需额外训练 依赖后端模型
ScVLM VLM 适配 事故冲突分类 细粒度场景理解 ~500ms
TrafficVLM 可控 VLM 交通视频字幕生成 可控叙述生成 ~300-600ms
CRASH 上下文注意力 事故提前预判 预防性检测 ~200-400ms

2.4 关键性能对比

  • 准确率 vs 延迟权衡:LLM 系统虽然可解释性强,但检测准确率(85-92%)并未显著超越深度学习时代(85-95%)
  • 核心优势不在准确率,而在于:
  • 🎯 可解释性:能生成"车辆因急刹车而偏离,导致追尾碰撞"这类自然语言描述
  • 🧠 因果推理:理解事故序列中的因果关系
  • 🔄 小样本泛化:通过 few-shot 适应新的事故类型
  • 📝 详细报告:生成结构化的事故分析报告

三、关键挑战

3.1 数据稀缺

  • 现有数据集规模有限(DAD 仅 ~620 视频)
  • 事故标注成本极高,罕见场景难以覆盖
  • 解决方向:CARLA/SUMO 模拟器合成数据、自监督预训练、联邦学习

3.2 多模态对齐

  • 视频与文本的时序同步在遮挡和变帧率下困难
  • 交叉注意力机制可解决但计算复杂
  • 解决方向:更高效的跨模态对齐方法

3.3 推理与可解释性

  • LLM 幻觉导致错误的事故报告
  • 安全关键场景下不可接受
  • 解决方向:稳健的基础约束(grounding)技术、因果干预模块

3.4 实时性约束

  • 自动驾驶需要 <100ms 延迟,LLM 系统普遍 200ms-2s
  • 7B+ 参数模型的计算开销是主要瓶颈
  • 解决方向:模型量化、层级流水线(轻量检测器 → LLM 推理)、边-云混合架构

3.5 鲁棒性与失败模式

场景 性能下降幅度
遮挡场景(关键车辆被部分遮挡) 漏检率 40%
恶劣天气(雨/雪) 准确率下降 25%
黎明/黄昏光照 检测率降低 30%
对抗性攻击(人眼不可见的扰动) 假阴性率 60%
OOD 分布外场景 平均下降 12-16%

3.6 伦理与公平性

  • 数据集偏见、隐私问题
  • 解决方向:分层数据构建、偏见审计、差分隐私、可解释 AI

四、未来研究方向

4.1 合成训练数据

  • 利用 CARLA/SUMO 模拟器生成多样化事故场景
  • 混合真实-合成数据集 + 领域自适应技术

4.2 视频问答基准 (Video-grounded QA)

  • 目前系统缺乏交互式问答能力
  • 需要构建事故场景专用 QA 数据集(如 "是什么导致了碰撞?"、"哪辆车有过错?")
  • 可扩展 CADP 等数据集,加入问答标注

4.3 微调 VLM

  • 在事故场景上微调 BLIP-2、Flamingo、Video-LLaMA 等模型
  • 使用 LoRA 等高效微调方法降低计算成本
  • 结合 TimeSformer / SlowFast 等时序模型捕捉动态事件

4.4 与自动驾驶系统集成

  • AV 流水线集成:LLM 事故检测作为感知-规划-执行流水线的高级组件
  • 多传感器融合:LLM/VLM 语义理解 + LiDAR 几何信息 + 雷达速度数据
  • 事故预判:CRASH 类模型可在事故发生前数秒发出警告,实现 Level 4/5 自动驾驶的主动安全

4.5 架构优化

  • 效率优先:设计高效架构,同时报告延迟和准确率
  • 训练免费方案:LA V AD 类零训练流水线降低部署门槛
  • 层级处理:快滤器 → 深度推理的分层策略

五、核心观察与建议

对研究者的建议

  1. 效率优先架构设计:报告延迟与准确率同等重要
  2. 跨数据集验证:在不同数据集上评估泛化能力
  3. 考虑无训练/弱监督场景:减少数据依赖
  4. 隐私保护联邦学习:适用于多地视频数据

对实践者的建议

  1. 从轻量/无训练基线开始(如 LA V AD)
  2. 采用层级处理:快速筛选 → 片段深度推理
  3. 做好本地适配和持续监控
  4. 安全关键决策须保持人工在环

论文总结的三点发现

  1. 推理能力 vs 可部署性:丰富的时空推理往往伴随更高的计算成本
  2. 源域-目标域漂移:在一个数据集上训练的模型需要适配新的相机位置、交通模式
  3. 系统设计分层:实践中采用边缘优先过滤 + 延迟允许时选择性卸载到更强后端

六、个人笔记

这篇综述的核心价值在于: 系统梳理了 LLM 时代视频事故检测的完整技术演变路径,清晰指出了一个关键矛盾——LLM 提供了前所未有的可解释性和因果推理能力,但其检测准确率并未超越深度学习方法,而计算开销却高出几个数量级。"可解释但不可部署" 是当前领域的核心困境。


七、重点引文(⭐ 特别关注)

按重要性分为三个层级:

🔴 核心文献(本领域的代表性系统和方法)

编号 文献 理由
[54] Wang et al., "Name and Explain Your Way to Action: A Video-based Framework for Anomaly Detection", 2024 (VERA) 最直接的可解释事故检测系统,微调 LLaVA-1.5,高 AUC+BLEU
[60] Zanella et al., "Harnessing the Power of Large Language Models for Training-Free Video Anomaly Detection", 2024 (LA V AD) 免训练流水线,零额外数据部署,实用价值高
[38] Video-LLaMA (2023) 视频理解基础 VLM,多模态时序建模的奠基工作
[67] Liao et al., "CRASH: A Context-Aware Attention-based Framework for Crash Anticipation", 2024 事故预判系统,可在碰撞前数秒发出警告
[55] Lv et al., "Video Anomaly Detection with Large Language Models", 2024 LLM 视频异常检测的直接尝试
[65] Shi et al., "ScVLM: A Vision-Language Model for Driving Safety Critical Event Understanding", 2024 事故冲突分类,细粒度场景理解
[66] Dinh et al., "TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning", 2024 可控交通视频字幕生成
[57] Shihab et al., "Leveraging Video-LLMs for Crash Detection and Narrative Generation", 2024 (TRC-30) 同领域相关工作,事故叙事生成
[85] Holmes-V AD 零样本异常检测 + 描述生成

🟡 关键数据集

编号 数据集 说明
[61] DAD (Chan et al., 2016) 行车记录仪事故数据集,~620 视频
[62] CADP (Bao et al., 2019) 基于警察报告标注的事故数据集
[10] UCF-Crime (Sultani et al., 2018) 监控视频异常检测标准基准,~1900 视频
[63] BDD100K (Yu et al., 2020) 10 万+驾驶视频,多任务标注

🟢 基础模型与方法

编号 文献 说明
[17] OpenAI, GPT-4 Technical Report, 2023 LLM 能力基准
[18] Alayrac et al., Flamingo, 2022 少样本视觉语言模型先驱
[19] Li et al., BLIP-2, 2023 高效 VLM 对齐框架
[48] Touvron et al., LLaMA 2, 2023 开源 LLM 基础
[52] Hu et al., LoRA, 2021 高效微调方法
[68] Zhu et al., MiniGPT-4, 2023 轻量 VLM 代表

🟣 重要综述

编号 文献 说明
[51] Tang et al., "Video-based Traffic Accident Detection: A Survey", 2023 视频事故检测综述(本文的前身)
[25] Baltrušaitis et al., "Multimodal Machine Learning: A Survey and Taxonomy", 2018 多模态学习经典综述
[70] Hojjati et al., "Self-supervised Anomaly Detection: A Survey and Outlook", 2024 自监督异常检测综述
[73] Suarez and Naval, "A Survey on Deep Learning Techniques for Video Anomaly Detection", 2020 视频异常检测深度学习综述
[95] Shinde et al., "A Survey on Efficient Vision-Language Models", 2025 高效 VLM 综述
[96] Liu et al., "Privacy-preserving Video Anomaly Detection: A Survey", 2025 隐私保护视频异常检测综述

🟠 基础设施与集成

编号 文献 说明
[92] Dosovitskiy et al., CARLA, 2017 自动驾驶模拟器,合成数据生成
[93] Pendleton et al., "Perception, Planning, Control, and Coordination for Autonomous Vehicles", 2017 AV 流水线架构经典
[94] Wang et al., "Multi-sensor Fusion Object Detection in Autonomous Driving", 2025 多传感器融合综述

八、原始文档信息

项目 内容
原 PDF 路径 /media/tianhanghai/文档/tianhanghai/files/papers/论文/2507.02074v2.pdf
摘要保存路径 record_whh/rsh_id_10_science/rsh_LLM视频事故检测综述/crash_detection_survey.md
arXiv 链接 https://arxiv.org/abs/2507.02074v2
格式 24 页,IEEE 双栏格式
状态 ✅ 已阅读 ✅ 已保存摘要

阅读时间:2026-05-28
来源:arXiv:2507.02074v2 (IEEE Trans. on Intelligent Transportation Systems, 2025)

苏ICP备19018690号-1