结合LSTM的双流卷积人体行为识别

2019-10-14曾明如郑子胜罗顺

现代电子技术 2019年19期

曾明如郑子胜罗顺

摘要：为了更好地获取视频中连续帧之间的时间信息，提出一种新颖的双流卷积网络结构用于视频的人体行为识别。该网络在不改变双流卷积中空间流结构的情况下，在时间流的卷积模型中加入长短时记忆（LSTM）网络，并且时间流的训练相较于以往的双流卷积架构采用端对端的训练方式。同时在新的网络结构上尝试使用组合误差函数来获得更好的光流信息。在KTH和UCF101两个通用人体行为视频数据集上进行实验，实验结果证明，提出的使用组合误差函数结合LSTM的双流卷积与普通的双流卷积、使用以往误差函数结合LSTM的双流卷积相比，识别率有明显的提高。

关键词： LSTM; 双流卷积; 人体行为识别; 卷积神经网络; 光流信息; 模型融合

中图分类号： TN911.73?34; TP391.41 文献标识码： A 文章编号： 1004?373X（2019）19?0037?04

Abstract： In order to better obtain the time information between consecutive frames in the video， a novel two?stream convolutional network structure is proposed for recognition of human behavior in the video. In the network， a long?short?time memory （LSTM） network is added into the convolution model of the temporal stream without changing the spatial stream structure in the double stream convolution， and in compared with the previous two?stream convolution architecture， the end?to?end training mode is used in the training of the temporal stream. An attempt to use combined error function in the new network structure was made to obtain the better optical flow information. The experiment was carried out on two universal human behavior video datasets of KTH and UCF101. The results verify that the proposed two?stream convolution combined with LSTM has more significant recognition rate in comparison with the conventional two?stream convolution.

Keywords： LSTM; two?stream convolution; human behavior recognition; convolutional nerual network; optical flow information; model fusion

0 引言

人体行为识别领域在过去几年飞速发展，但是视频中的人体行为识别仍然面临着巨大的挑战。相比静态图像分类，视频中的时间流信息为识别提供了一个重要的线索，因为大部分动作可以通过时间流中的运动信息准确地识别出来。因此近年来，大部分研究都是针对如何从视频帧中获取视频的时间流信息，从而得到运动信息[1?2]。

最初，传统手工提取特征的方法在行为识别领域兴起了一段时间，如文献[3]提出的改进稠密轨迹（IDT）用来表示运动信息的特征或基于时空兴趣点的特征。接着，文献[4]提出单一的卷积结构在视频处理中比传统的手工提取方法更快，但是表现却不如传统的手工提取方法。因为单一的卷积结构存在难以获取视频帧之间运动信息的问题。随后，文献[5]提出双流卷積结构解决了这个问题。双流卷积结构在以往的结构上增加了一个额外的卷积结构（时间流）来计算时间流信息，新的结构相较于单一的卷积结构在准确率上有了明显的提高，并且相比传统的手工提取特征的方法在视频处理中更快。

双流卷积结构的不足在于，在视频分类中经常使用抽样帧作为输入数据，而这个可能导致视频级别的标签信息不完整甚至缺失[6]。本文的创新之处在于，在时间流中加入长短时记忆（Long?Short?Time Memory，LSTM）网络，LSTM是在循环神经网络的基础上加入了记忆单元来存储信息，使得它在视频帧处理中更容易获得长距离的光流信息，从而避免使用视频中的抽样帧作为输入数据。并且在时间卷积流的训练过程中，相比以往的双流卷积结构采用端对端的训练方式，减少了对输入数据的额外处理。同时，在新的网络结构上尝试使用新的误差函数来获得更好的光流信息。

1 双流卷积网络

双流卷积网络通过模仿人体视觉过程，将视频的处理分为两个流（空间流和时间流）[7]，如图1所示。其中，每个流都使用一个深层的卷积网络与一个softmax分类器连接，最终将两个流的分类结果进行融合。

从以上多个实验可知：结合LSTM的双流卷积神经网络对人体识别的准确率有较大的性能提升。新的网络结构在UCF101数据集上进行了实验，获得了78.1%的准确率，比双流卷积神经网络的识别准确率高。

5 结论

本文在双流卷积神经网络的基础上进行了改进，并在UCF101数据集上进行了实验验证。本文设计的网络模型，在双流卷积神经网络中的时间流结构中引入LSTM网络，其使用记忆单元来存储之前的信息，使得新的网络能更好地获取更长的视频帧信息。同时，本文使用的网络采用新的误差函数，新的误差函数通过将标准像素重建误差函数、平滑误差函数和SSIM误差函数进行整合，利用三个误差函数的优点从视频帧获取更好的光流信息。从UCF101数据集中的实验证明，结合LSTM的双流卷积神经网络在一定程度上获取了更好的光流信息，较大幅度地提高了双流卷积网络的识别准确率。同时，在运动背景复杂且包含相机运动的情况下，结合LSTM双流卷积神经网络的表现也比双流卷积神经网络更好。

参考文献

[1] CHEN B. Deep learning of invariant spatio?temporal features from video A [D]. Vancouver： The University of British Columbia， 2010.

[2] YEFFET L， WOLF L. Local trinary patterns for human action recognition [C]// 2009 IEEE 12th International Conference on Computer Vision. Kyoto： IEEE， 2009： 492?497.

[3] WANG H， SCHMID C. Action recognition with improved trajectories [C]// IEEE International Conference on Computer Vision. Sydney： IEEE， 2014： 3551?3558.

[4] KARPATHY A， TODERICI G， SHETTY S， et al. Large?scale video classification with convolutional neural networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus： IEEE， 2014： 1725?1732.

[5] SIMONYAN K， ZISSERMAN A. Two?stream convolutional networks for action recognition in videos [J]. Advances in neural information processing systems， 2014， 1（4）： 568?576.

[6] JOE Y H N， MATTHEW H， SUDHEENDRA V， et al. Beyond short snippets： deep networks for video classification [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Boston： IEEE， 2015： 4694?4702.

[7] 王昕培.基于双流CNN的异常行为分类算法研究[D].哈尔滨：哈尔滨工业大学，2017.

WANG Xinpei. Research on two stream CNN based abnormal bahavior classification [D]. Harbin： Harbin Institute of Techno?logy， 2017.

[8] DONAHUE J， HENDRICKS L A， ROHRBACH M， et al. Long?term recurrent convolutional networks for visual recognition and description [J]. IEEE transactions on pattern analysis & machine intelligence， 2014， 39（4）： 677?691.

[9] ZHAO H， GALLO O， FROSIO I， et al. Loss functions for image restoration with neural networks [J]. IEEE transactions on computational imaging， 2017， 3（1）： 47?57.

[10] JI S， XU W， YANG M， et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis & machine intelligence， 2012， 35（1）： 221?231.