APP下载

融合双流残差网络和注意力机制的群体行为识别方法

2022-05-30黄少年全琪贺子琴胡俊杰

电脑知识与技术 2022年30期
关键词:注意力机制

黄少年 全琪 贺子琴 胡俊杰

摘要:文章为实现复杂场景下群体行为的自动分析与识别,方便城市安全管理,建立融合双流3D残差网络和时空注意力機制的群体行为识别模型。首先,提取群体场景的静态可视特征及动态光流特征作为模型输入,构建融合时空注意力的双流3D残差网络提取群体场景的深度特征,通过对深度可视特征及运动特征的多次融合实现群体行为识别。然后,基于真实群体视频数据集CUHK开展实验,验证模型的合理性,并对比分析该模型与多种已有模型的行为识别结果。结果表明: 融合双流3D残差网络和时空注意力机制的群体行为识别模型具有可靠的群体行为识别能力,与其他深度神经网络模型相比,该模型具有更高的准确率和更优的混淆矩阵。

关键词:群体行为识别;残差神经网络;注意力机制

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2022)30-0001-03

开放科学(资源服务)标识码(OSID):

随着我国城市化进程的快速发展,群体聚集的情况频繁在各种公共场所中出现。群体高度聚集的公共场所很可能出现因群体拥挤引发的踩踏事件。因此,自动分析、识别群体行为,理解复杂环境下的群体运动动态,对于避免群体灾难性事件发生、提高城市公共安全管理能力具有重要意义。

随着深度学习模型在图像分类、视频分析等领域的成功应用,其在群体场景深度特征表示方面也取得了显著进步。Shao等[1]首次基于VGG-16深度网络结构构造时空切片卷积神经网络,提取群体场景在时间维度和空间维度上的深度特征表示。鉴于视频序列中存在大量的时空信息,Simonyan等[2]首次提出双流卷积神经网络完成人体行为识别。袁亚军等[3]采用CNN模型学习群体静态行为特征及动态行为特征,并综合两种深度特征完成行为分析。以上研究表明,双流深度神经网络能有效提取群体场景的时空深度特征表示,但上述研究中针对群体行为识别的模型较少,且识别准确率有待进一步提高。因此,为进一步增强深度神经网络对复杂群体场景的特征表示能力,提高群体行为识别的准确率,笔者拟构建融合双流3D残差网络和时空注意力机制的群体行为识别模型,实现群体行为识别,以期为城市公共安全群体管理提供新的途径。

1 模型架构

笔者提出了一种融合双流3D残差网络和时空注意力机制的群体行为识别模型,模型主要包括数据预处理、深度特征提取、特征融合及群体行为识别四个模块。

1.1 数据预处理

数据预处理包括空间域预处理和时间域预处理两部分。空间域预处理指从群体视频流中提取连续图像序列作为空间域残差网络的输入。为减少时间消耗和计算复杂度,从每个群体视频的随机位置提取的连续32帧图像,并将其裁剪为[224×224]的帧序列。时间域预处理则指从图像序列中提取对应的连续光流序列作为时间域残差网络的输入。光流是研究图像动态特征的常用方法,采用TV-L1(Total Variation-L1 Optical Flow)[4]光流估计模型提取群体序列的光流图,该算法适合相邻图像帧间位移变化较小的运动特征提取。

1.2 深度特征提取模块

传统残差网络采用2D卷积提取深度特征,鉴于3D卷积在时空特征提取上的优越性,构建基于时空注意力机制的3D残差网络提取群体视频的深度特征表示。该模块基于残差网络ResNet50进行设计,其原理图如图1所示。对于输入的RGB图像序列和光流图序列,首先用卷积核为1×7×7的卷积层提取浅层特征,然后依次经过Conv2_x、Conv3_x、Conv4_x 以及Conv5_x四个残差块,每个残差块均包含一个1×3×3和两个1×1×1大小的卷积核。为避免随着网络深度增加而带来的梯度消失问题,在每一个三维卷积层后增加BN层进行批量归一化,以加快训练网络收敛的速度。

为进一步提取群体深度特征的远距离依赖性,设计时空注意力模块(Spatio-Temporal Attention Block, STA Block),在不改变三维残差网络原有结构的基础上,将该模块插入Conv4_x残差块前面。基于非局部注意力机制的基本原理[5],时空注意力模块(STA Block)采用嵌入式高斯函数作为相似性度量函数,采用线性函数作为响应函数,即:

[fxi,xj=e(Wθxi)T(Wφxj)]                          (1)

[g(xj)=Wgxj]                                    (2)

其中,[Wθ], [Wφ],[Wg]为待学习的权重参数。通过公式(3)计算可得到[yi]的非局部时空注意力值,将该值与原始输入特征[x]进行残差链接,即可得到时空注意力增强的特征[z]. 即:

[zi=wzyi+xi]                                   (3)

其中,[wz]为待学习的权重参数,[+]表示残差连接。STA Block模块的结构图如图2所示, 图中?表示矩阵乘法。

1.3 深度特征融合与识别

为进一步提升群体行为识别的准确率,采用[3D]卷积融合和[3D]池化融合方式构建深度特征融合模块。其中3D卷积融合的形式化表示为:

[ycat=concatzv, zm]                        (4)

[y=ycat*f+b]                          (5)

上式中,[zv, zm]分别为深度可视特征图及运动特征图,[zv, zm∈RT×H×W×D],其中[T]为特征图的时域尺寸,[H]和[W]分别表示特征图的宽度和高度,[D]表示特征图的通道数;[ycat]为[zv]和[zm]的直接连接且[ycat∈RT×H×W×2D]; [*]为3D卷积操作;[f]为[1×1×1]的卷积核;[b]为偏置常数。将卷积结果[y]输入过滤器大小为1×2×2的3D最大池化,形成3D卷积融合。

1.4 模型参数

模型的空间域残差网络和时间域残差神经网络具有相同的网络结构,分别对视频的RGB帧序列以及光流序列进行深度特征提取,时空注意力模块(STA Block)被嵌入在Conv4_x残差块前,辅助提取具有远距离依赖性的群体时空特征。由于二维卷积不能很好地捕获视频序列间的时序关系,三维卷积不仅能捕获局部空间信息,还能捕获全局时间信息。因此,文中模型的卷积和池化操作均为三维卷积以及三维池化。模型详细的参数设置如表1所示。

2 实验与分析

2.1 数据集与数据预处理

实验中所有的群体行为视频均来自CUHK群体数据集,该数据集包含来自215种群体场景下的474个视频。该数据集的群体场景均在不同的监控环境下获取,包括机场、商场、街道等众多城市公共场所,其包括的所有群体行为被分为八类,具体类别如表2所示。

类别1表现的是密集群体以不同的形态无规律地向四周行走;类别2和类别3表现的是群体中的绝大部分朝着同一方向行走;类别2的群体是以有组织的形态有序行走,群体中的个体行走方向相对稳定;类别3的群体以无组织的形态行走,群体中的个体随时都可能改变方向,极有可能发生拥堵情况;类别4~8表现的是公共交通和群体管理场所群体流的变化情况,类别4是不同方向的群体流合并,例如火车站进站口的群体流场景;类别5是群体分散成多个流,例如火车站出站口的群体流场景;类别6是群体与反方向群体交叉行走,例如斑马线上群体流场景;类别7与类别8表现的是自动扶梯上人流情况,类别7比类别8场景更加复杂,包含了自动扶梯周围的人流情况。

选取每个视频中随机位置的连续32帧图像作为训练数据,并将原图像大小调整为[224×224]。为获得更好的分類精度,对提取的RGB图像数据和光流数据均进行标准化处理。

2.2 模型训练

实验采用PyTorch1.9.0+CUDA11框架在Ubuntu18.04.5LTS操作系统下使用双GPU(型号为:Nvidia3090)完成并行加速训练。模型中双流网络的输入设置为连续的32帧RGB数据和连续的32帧光流数据。下面从数据清洗与预处理、训练、测试三个阶段说明文中实验的具体设置。

1)数据清洗与预处理阶段。首先对原始视频进行分类,其中80%用于训练集,20%用于测试集,将小于32帧的小视频清除掉,然后采用TV-L1算法提取视频的光流序列。考虑到视频间分辨率的不一致性,将提取的RGB帧和光流图大小调整为[256×320],并采用随机裁剪与水平翻转的方式进行数据增强。

2)训练阶段。将预处理阶段的RGB帧和光流图裁剪为[224×224],为了加快网络的收敛速度,裁剪后的RGB帧和光流图统一归一化到[-1,1]。经多次实验发现,BN层对整个网络至关重要,在实验中产生过梯度爆炸、过拟合等一系列问题,在加入BN层后都有所缓解。因此,在训练过程中,每个3D卷积后都会加入一层BN层进行批量归一化。训练中采用小批量随机梯度下降算法优化网络参数,批大小为6,动量为0.9,权重衰减系数为5e-4。双流网络中两个分支的初始学习率都为0.001,学习率改变策略为当训练损失在6个epoch内没有降低时,将学习率降为原来的1/2。

3)测试阶段。采用预留的20%的数据作为测试集,用来测试网络的拟合能力,对于每帧图像同样采取随机裁剪的方式进行数据增强。采用top-1识别准确率作为评价标准,最后判断所有样本的8类概率作为分类的结果。

2.3 实验结果分析

为验证模型的合理性,基于CUHK数据集开展多次实验,验证模型中各个模块对群体行为识别结果的影响;并通过与已有方法的对比分析,验证模型的有效性。

通过以上实验分析,模型最终在Conv4_x残差块前插入STA Block模块,且采用连接融合的方式进行融合。为了获取更好的实验效果,本次实验事先基于UCF101数据集对网络进行预训练。预训练能使网络更好地学习到通用特征,使模型具有更好的泛化效果。

基于相同的实验数据集,文中方法与其他方法识别结果的对比如表6所示。从表6可知:文中方法的识别结果要优于其他方法,与其他方法最好的结果(文献[7])相比,文中方法的准确率提高了1.1%。而文献[7]的数据预处理方式更为复杂:除了提取光流图外,该方法还使用背景减除法对RGB图像序列进行了预处理。此外,该方法的输入仅为连续的10帧图像,而文中方法输入为连续的32帧,显然文中模型更具备捕获远距离依赖性的能力。综上所述,构建的融合双流3D残差网络与时空注意力的群体行为识别模型可有效地完成群体行为识别。

3 结论

1)针对群体行为识别任务,提出了一种融合时空注意力机制的双流残差网络结构。采用UCF101数据集进行预训练,将得到的参数初始化至整个网络,并使用CUHK群体数据集对权重参数进行微调,该模型对8种群体行为的分类识别具有更高的准确率。

猜你喜欢

注意力机制
基于注意力机制的行人轨迹预测生成模型
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
基于LSTM?Attention神经网络的文本特征提取方法
InsunKBQA:一个基于知识库的问答系统