基于HMM和LDA级联的视频异常检测

2013-12-02

杭州电子科技大学学报(自然科学版) 2013年2期

(杭州电子科技大学通信工程学院，浙江杭州310018)

0 引言

视频异常事件检测方法从数据集角度大致分为监督方法和非监督方法。监督的视频异常事件检测问题中，假定异常数据集是已知的。非监督的视频异常事件检测避免了监督方法的局限，无需任何先验知识，仅仅凭借不断获取的观测数据实现正常事件的聚类，达到视频异常事件检测的目的。为了提高检测的鲁棒性，近年来提出了大量的基于隐马尔可夫模型(Hidden Markov Model，HMM)的视频异常事件检测方法。文献1 考虑光照变化对基于HMM 异常检测的影响，提出了基于爱德华-普雷思科特(Hodrick-Prescott，HP)滤波方法处理特征序列。文献2 提取梯度方向直方图特征用于识别行为事件，HMM用于特征的时序建模。文献3 运用HMM与无限隐马尔可夫模型(infinite Hidden Markov Model，iHMM)结合的方法分析运动目标的轨迹并检测异常事件。文献4 将HMM 用于分析视频事件的语义结构。本文提出的基于HMM和隐藏狄利克雷分配(Latent Dirichlet Allocation，LDA)级联的异常检测方法提取的是视频事件的语义特征，与底层特征不同，语义特征关心的是事件的主要信息而忽略了少量的低概率事件信息。异常检测时，HMM 将语义特征视为观测量从而实现与LDA的级联。

1 算法

特征抽取包含两部分:底层特征抽取和LDA 语义特征抽取。首先，采用尺度不变特征变换算法[5](Scale-Invariant Feature Transform，SIFT)抽取二维图像位置信息(x，y)特征，接着，运用LDA[6]模型在底层特征基础上进一步抽取语义特征。

1.1 底层特征抽取

SIFT 利用高斯卷积核生成图像尺度空间，公式定义如下:

式中，G(x，y，σ)表示可变尺度高斯函数，I(x，y)是一幅二维图像。为了有效检测出特征点，SIFT提出高斯差分尺度空间(Difference of Gaussians，DoG)的概念:

通过不断对DoG 进行降采样得到多组图像金字塔后，寻找特征点的方法即对尺度空间中每个采样点和它相邻点进行比较。包括图像域和尺度域，每个采样点需与相邻26个采样点作对比，最终得到的极值点视为图像的特征点。

1.2 LDA 语义特征抽取

图1 LDA 图模型

图1阴影部分的参数w是观测变量，而其他变量是隐藏变量。LDA的各参数定义:θ Dirichlet(α)，zm，nMultinomial(θ)，wm，nMultinomial(βzm，n)。讨论图1的概率统计图，给定一篇文档w条件下其概率模型公式表示如下:

LDA的参数推理问题主要是计算给定文档条件下的隐变量后验概率分布:

由于α与β 耦合造成后验分布无法直接求出。文献6 采用变分EM算法对参数α和β 进行推理估计，并得到变分参数的估计值因为每帧图像即每篇文档在推理过程中都会产生不同的γ，因此将提取的参数γ 视为LDA 语义特征。

2 HMM 异常检测

如图2所示为HMM和LDA的级联模型示意图，图2(a)模型为LDA，图2(b)模型为HMM，级联的关键在于将LDA的语义特征作为HMM 观测量构造出混合高斯矩阵。异常事件的检测分为建模阶段和检测阶段。建模阶段是建立用于匹配的正常事件的先验知识库，本文采用的是经典EM算法。检测阶段相当于HMM的评估问题，解决模型的评估问题采用的是“前向-后向”算法。异常事件检测中，当观测量的发生概率小于人为设定的阈值时，判定待检测事件为异常事件，相反，待检测事件则判定为正常事件。

图2 HMM和LDA级联图模型

3 实验分析

设定某市区中心横向路段为禁止车辆通行的红灯状态，对训练和测试图像采用SIFT算法抽取底层特征，设置搜索特征点的尺度空间DoG 金字塔组数O=4，每组金字塔层数S=3。如图3所示，图3(a)无车辆通行时视为正常事件，图3(b)有车辆通行时视为异常事件。将禁行路段中取得的300帧视频图像用于实验测试，前100帧图像是训练部分的正常事件，后200帧是用于测试部分的异常事件，后200帧中的前100帧包含的图像序列全部是异常事件，而后100帧中每隔5帧包含一帧异常图像序列，总共包含20帧异常图像序列，每1帧图像作为模型输入观测量。实验测试运行于软件平台MATLAB 2009b，计算机系统为WINDOWS XP SP2，CPU 处理器为AMD Turion 1.61GHz。

3.1 特征提取

抽取的图像特征点代表了视频事件的大部分信息，得到的特征点数目多达几百个，而且特征点在光照和阴影条件下同样具有鲁棒性，对噪声也有一定稳定性。

图3 抽取的若干图像底层特征点

接着，采用文献6中的LDA模型对特征点抽取语义特征，将得到的SIFT 特征二维位置信息(x，y)处理成经过规范取整后视为词汇用于LDA 训练。LDA 训练过程中，当设定主题数目为30时，能有效的区分正常与异常事件。

3.2 异常检测

如图4所示，图4(a)将包含100帧正常事件的图像序列用于训练，得到的对数似然度较为稳定的徘徊在-22至-21 之间，图4(b)将包含100帧异常事件的图像序列用于测试时，得到的对数似然却较为稳定的徘徊在-2 235至-2 210 之间，由此说明经过算法测试之后的不同事件有着较为明显的差异。实验最终将包含20帧异常事件的100帧图像序列用于测试。图4(c)设定固定阈值γ =-420，能有效的检测出本实验数据中的异常事件，每帧图像的对数似然度大于阈值γ时，视为正常事件，而小于阈值γ时，则视为异常事件。

图4 模型训练后测试序列的对数似然度

不同方法在异常事件检测实验中的比较效果如表1所示。实验结果表明，HMM 方法虽然在检测过程中的虚警率方面获得良好效果，但在检测异常事件方面却没有达到完善的地步。HMM和LDA级联方法在实验中表现了良好的区分正常和异常事件的性能，唯一的不足是耗费了少许的100帧异常事件检测时间，但保证了异常事件检测的稳定性。

表1 不同方法在异常事件检测实验中的比较

4 结束语

本文提出了HMM和LDA级联方法用于视频异常检测，抽取的底层特征包含了图像的位置信息，接着采用LDA模型进一步提取主题语义特征，得到的语义特征视为HMM 观测量用来构建级联模型。最终基于HMM 实现的异常检测实验证明级联方法的有效性。

[1]郭春生，朱明.面向特征的ICA和HP 滤波实现视频异常事件检测[J].中国图象图形学报，2011，16(9):1 643-1 649.

[2]Wang C H，Wang Y J，Guan L.Event Detection and Recognition using Histogram of Oriented Gradients and Hidden Markov Models[C].Burnaby:8th International Conference on Image Analysis and Recognition，2011:436-455.

[3]Jouneau E，Carincotte C.Mono versus multi-view tracking-based model for automatic scene activity modeling and anomaly detection[C].Klagenfurt:8th IEEE International Conference on Advanced Video and Signal Based Surveillance，2011:95-100.

[4]Xu G，Ma Y F，Zhang H J，etal.An HMM-based framework for video semantic analysis[J].IEEE Transactions on Circuits and Systems for Video Technology，2005，15(11):1 422-1 433.

[5]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision，2004，60(2):91-110.

[6]David M B，Andrew Y N，Michael I J.Latent Dirichlet allocation[J].Journal of Machine Learning Research，2003，3(1):993-1 022.