视频事故检测中的大语言模型:方法、数据集与挑战综述
基本信息
| 项目 |
内容 |
| 原文标题 |
Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges |
| 作者 |
Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma (Iowa State University) |
| 发表 |
IEEE Transactions on Intelligent Transportation Systems, 2025 |
| arXiv |
2507.02074v2 |
| 总页数 |
24 页 |
| 引用数 |
96 篇参考文献 |
一、研究背景
视频事故检测是智能交通系统中的关键问题。该领域经历了三个主要发展阶段:
| 时期 |
方法 |
准确率 |
延迟 |
主要局限 |
| 经典方法 (2000-2015) |
光流、背景减除、轨迹分析、SVM |
70-85% |
<100ms |
手工特征、环境敏感、泛化差 |
| 深度学习 (2015-2020) |
CNN、3D CNN、Two-Stream、I3D、SlowFast |
85-95% |
100-500ms |
黑盒、数据饥饿、缺乏语义理解 |
| 早期多模态 (2020-2022) |
CLIP、UNITER、VideoCLIP、BLIP |
88-92% |
300-800ms |
时序建模有限、语言理解浅层 |
| LLM 时代 (2023-2025) |
Video-LLaMA、VERA、CrashLLM、Holmes-V AD |
85-92% |
200ms-2s |
计算成本高、幻觉风险、部署困难 |
核心转变: 从被动的像素级异常检测 → 主动的、上下文感知的、语言引导推理的事故解释。
二、论文核心贡献
2.1 融合策略分类法
论文提出了一套系统的 LLM 视频事故检测分类法,按三个维度划分:
- 融合策略
- 早期融合:在特征层面直接融合视频与文本特征
- 晚期融合:分别处理后再融合决策结果
-
混合融合:多层级交叉融合
-
LLM 角色
- 编码器:LLM 作为特征提取器
- 推理器:LLM 作为事故因果推理引擎
- 生成器:LLM 生成事故描述报告
-
端到端模型:一体化检测+解释
-
输入粒度
- 帧级:逐帧分析
- 片段级:短时窗口
- 视频级:整体视频理解
2.2 主要数据集
| 数据集 |
规模 |
来源 |
特点 |
| DAD (Dashcam Accident Dataset) |
~620 行车记录仪视频 |
自然驾驶 |
真实事故场景 |
| UCF-Crime |
~1900 视频,13 类异常 |
监控视频 |
弱监督学习基准 |
| CADP |
警察报告标注事故视频 |
交通事故报告 |
多视角 |
| BDD100K |
10 万+ 驾驶视频 |
众包驾驶数据 |
多样化任务 |
| CrashEvent |
特定事故事件 |
监控视频 |
专用于事故检测 |
2.3 代表性 LLM 系统
| 系统 |
基础模型 |
核心方法 |
性能亮点 |
延迟 |
| Video-LLaMA |
BLIP-2 + LLaMA |
视频帧编码 + LLM 推理 |
多模态视频理解基础 |
~1-2s |
| VERA |
LLaVA-1.5 微调 |
命名-解释范式 |
高 AUC + BLEU 分数 |
~300-800ms |
| CrashLLM |
定制 LLM |
上下文感知事故解释 |
可解释性突出 |
~500ms-1s |
| Holmes-V AD |
VLM 框架 |
异常检测 + 描述生成 |
零样本泛化 |
~200-500ms |
| HybridMamba |
Mamba 架构 |
状态空间模型融合 |
高效率时序建模 |
~200-400ms |
| LA V AD |
免训练流水线 |
直接利用预训练 VLM |
无需额外训练 |
依赖后端模型 |
| ScVLM |
VLM 适配 |
事故冲突分类 |
细粒度场景理解 |
~500ms |
| TrafficVLM |
可控 VLM |
交通视频字幕生成 |
可控叙述生成 |
~300-600ms |
| CRASH |
上下文注意力 |
事故提前预判 |
预防性检测 |
~200-400ms |
2.4 关键性能对比
- 准确率 vs 延迟权衡:LLM 系统虽然可解释性强,但检测准确率(85-92%)并未显著超越深度学习时代(85-95%)
- 核心优势不在准确率,而在于:
- 🎯 可解释性:能生成"车辆因急刹车而偏离,导致追尾碰撞"这类自然语言描述
- 🧠 因果推理:理解事故序列中的因果关系
- 🔄 小样本泛化:通过 few-shot 适应新的事故类型
- 📝 详细报告:生成结构化的事故分析报告
三、关键挑战
3.1 数据稀缺
- 现有数据集规模有限(DAD 仅 ~620 视频)
- 事故标注成本极高,罕见场景难以覆盖
- 解决方向:CARLA/SUMO 模拟器合成数据、自监督预训练、联邦学习
3.2 多模态对齐
- 视频与文本的时序同步在遮挡和变帧率下困难
- 交叉注意力机制可解决但计算复杂
- 解决方向:更高效的跨模态对齐方法
3.3 推理与可解释性
- LLM 幻觉导致错误的事故报告
- 安全关键场景下不可接受
- 解决方向:稳健的基础约束(grounding)技术、因果干预模块
3.4 实时性约束
- 自动驾驶需要 <100ms 延迟,LLM 系统普遍 200ms-2s
- 7B+ 参数模型的计算开销是主要瓶颈
- 解决方向:模型量化、层级流水线(轻量检测器 → LLM 推理)、边-云混合架构
3.5 鲁棒性与失败模式
| 场景 |
性能下降幅度 |
| 遮挡场景(关键车辆被部分遮挡) |
漏检率 40% |
| 恶劣天气(雨/雪) |
准确率下降 25% |
| 黎明/黄昏光照 |
检测率降低 30% |
| 对抗性攻击(人眼不可见的扰动) |
假阴性率 60% |
| OOD 分布外场景 |
平均下降 12-16% |
3.6 伦理与公平性
- 数据集偏见、隐私问题
- 解决方向:分层数据构建、偏见审计、差分隐私、可解释 AI
四、未来研究方向
4.1 合成训练数据
- 利用 CARLA/SUMO 模拟器生成多样化事故场景
- 混合真实-合成数据集 + 领域自适应技术
4.2 视频问答基准 (Video-grounded QA)
- 目前系统缺乏交互式问答能力
- 需要构建事故场景专用 QA 数据集(如 "是什么导致了碰撞?"、"哪辆车有过错?")
- 可扩展 CADP 等数据集,加入问答标注
4.3 微调 VLM
- 在事故场景上微调 BLIP-2、Flamingo、Video-LLaMA 等模型
- 使用 LoRA 等高效微调方法降低计算成本
- 结合 TimeSformer / SlowFast 等时序模型捕捉动态事件
4.4 与自动驾驶系统集成
- AV 流水线集成:LLM 事故检测作为感知-规划-执行流水线的高级组件
- 多传感器融合:LLM/VLM 语义理解 + LiDAR 几何信息 + 雷达速度数据
- 事故预判:CRASH 类模型可在事故发生前数秒发出警告,实现 Level 4/5 自动驾驶的主动安全
4.5 架构优化
- 效率优先:设计高效架构,同时报告延迟和准确率
- 训练免费方案:LA V AD 类零训练流水线降低部署门槛
- 层级处理:快滤器 → 深度推理的分层策略
五、核心观察与建议
对研究者的建议
- 效率优先架构设计:报告延迟与准确率同等重要
- 跨数据集验证:在不同数据集上评估泛化能力
- 考虑无训练/弱监督场景:减少数据依赖
- 隐私保护联邦学习:适用于多地视频数据
对实践者的建议
- 从轻量/无训练基线开始(如 LA V AD)
- 采用层级处理:快速筛选 → 片段深度推理
- 做好本地适配和持续监控
- 安全关键决策须保持人工在环
论文总结的三点发现
- 推理能力 vs 可部署性:丰富的时空推理往往伴随更高的计算成本
- 源域-目标域漂移:在一个数据集上训练的模型需要适配新的相机位置、交通模式
- 系统设计分层:实践中采用边缘优先过滤 + 延迟允许时选择性卸载到更强后端
六、个人笔记
这篇综述的核心价值在于: 系统梳理了 LLM 时代视频事故检测的完整技术演变路径,清晰指出了一个关键矛盾——LLM 提供了前所未有的可解释性和因果推理能力,但其检测准确率并未超越深度学习方法,而计算开销却高出几个数量级。"可解释但不可部署" 是当前领域的核心困境。
七、重点引文(⭐ 特别关注)
按重要性分为三个层级:
🔴 核心文献(本领域的代表性系统和方法)
| 编号 |
文献 |
理由 |
| [54] |
Wang et al., "Name and Explain Your Way to Action: A Video-based Framework for Anomaly Detection", 2024 (VERA) |
最直接的可解释事故检测系统,微调 LLaVA-1.5,高 AUC+BLEU |
| [60] |
Zanella et al., "Harnessing the Power of Large Language Models for Training-Free Video Anomaly Detection", 2024 (LA V AD) |
免训练流水线,零额外数据部署,实用价值高 |
| [38] |
Video-LLaMA (2023) |
视频理解基础 VLM,多模态时序建模的奠基工作 |
| [67] |
Liao et al., "CRASH: A Context-Aware Attention-based Framework for Crash Anticipation", 2024 |
事故预判系统,可在碰撞前数秒发出警告 |
| [55] |
Lv et al., "Video Anomaly Detection with Large Language Models", 2024 |
LLM 视频异常检测的直接尝试 |
| [65] |
Shi et al., "ScVLM: A Vision-Language Model for Driving Safety Critical Event Understanding", 2024 |
事故冲突分类,细粒度场景理解 |
| [66] |
Dinh et al., "TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning", 2024 |
可控交通视频字幕生成 |
| [57] |
Shihab et al., "Leveraging Video-LLMs for Crash Detection and Narrative Generation", 2024 (TRC-30) |
同领域相关工作,事故叙事生成 |
| [85] |
Holmes-V AD |
零样本异常检测 + 描述生成 |
🟡 关键数据集
| 编号 |
数据集 |
说明 |
| [61] |
DAD (Chan et al., 2016) |
行车记录仪事故数据集,~620 视频 |
| [62] |
CADP (Bao et al., 2019) |
基于警察报告标注的事故数据集 |
| [10] |
UCF-Crime (Sultani et al., 2018) |
监控视频异常检测标准基准,~1900 视频 |
| [63] |
BDD100K (Yu et al., 2020) |
10 万+驾驶视频,多任务标注 |
🟢 基础模型与方法
| 编号 |
文献 |
说明 |
| [17] |
OpenAI, GPT-4 Technical Report, 2023 |
LLM 能力基准 |
| [18] |
Alayrac et al., Flamingo, 2022 |
少样本视觉语言模型先驱 |
| [19] |
Li et al., BLIP-2, 2023 |
高效 VLM 对齐框架 |
| [48] |
Touvron et al., LLaMA 2, 2023 |
开源 LLM 基础 |
| [52] |
Hu et al., LoRA, 2021 |
高效微调方法 |
| [68] |
Zhu et al., MiniGPT-4, 2023 |
轻量 VLM 代表 |
🟣 重要综述
| 编号 |
文献 |
说明 |
| [51] |
Tang et al., "Video-based Traffic Accident Detection: A Survey", 2023 |
视频事故检测综述(本文的前身) |
| [25] |
Baltrušaitis et al., "Multimodal Machine Learning: A Survey and Taxonomy", 2018 |
多模态学习经典综述 |
| [70] |
Hojjati et al., "Self-supervised Anomaly Detection: A Survey and Outlook", 2024 |
自监督异常检测综述 |
| [73] |
Suarez and Naval, "A Survey on Deep Learning Techniques for Video Anomaly Detection", 2020 |
视频异常检测深度学习综述 |
| [95] |
Shinde et al., "A Survey on Efficient Vision-Language Models", 2025 |
高效 VLM 综述 |
| [96] |
Liu et al., "Privacy-preserving Video Anomaly Detection: A Survey", 2025 |
隐私保护视频异常检测综述 |
🟠 基础设施与集成
| 编号 |
文献 |
说明 |
| [92] |
Dosovitskiy et al., CARLA, 2017 |
自动驾驶模拟器,合成数据生成 |
| [93] |
Pendleton et al., "Perception, Planning, Control, and Coordination for Autonomous Vehicles", 2017 |
AV 流水线架构经典 |
| [94] |
Wang et al., "Multi-sensor Fusion Object Detection in Autonomous Driving", 2025 |
多传感器融合综述 |
八、原始文档信息
| 项目 |
内容 |
| 原 PDF 路径 |
/media/tianhanghai/文档/tianhanghai/files/papers/论文/2507.02074v2.pdf |
| 摘要保存路径 |
record_whh/rsh_id_10_science/rsh_LLM视频事故检测综述/crash_detection_survey.md |
| arXiv 链接 |
https://arxiv.org/abs/2507.02074v2 |
| 格式 |
24 页,IEEE 双栏格式 |
| 状态 |
✅ 已阅读 ✅ 已保存摘要 |
阅读时间:2026-05-28
来源:arXiv:2507.02074v2 (IEEE Trans. on Intelligent Transportation Systems, 2025)