基于异构多处理器和深度学习算法的篮球运动图像目标检测

2022-09-30王萍

洛阳师范学院学报 2022年8期

王萍

(甘肃农业大学体育教学部，甘肃兰州 730070)

0 引言

虚拟现实(Virtual Reality，VR)技术是计算机技术、计算机图形学、计算机视觉、视觉生理学、视觉心理学、人机界面技术、网络技术和人工智能技术等多种高科技的集成，它的保真度和实时交互性为系统仿真技术提供了有力的支持[1].目标检测技术对于篮球、足球等体育运动场景具有重要意义，丰富的感官功能和3D显示环境使VR成为理想的视频成像工具[2].当目标检测应用于现代体育教学和运动训练中时，其利用从运动场景中提取的航拍图像，可以很好地显示和分析每个技术动作，同时可以使运动员模拟与真实场景相同的训练情况，并可以减少受伤[3].

然而，在目标检测中，信息质量标准主要由用户决定，主观特征难以自动提取.信息源通常是自主的、无组织的，并且缺乏有用的高质量数据，大规模数据使得在没有抽样技术的情况下无法评估整个信息集，因此降低了评估的准确性.故此，信息源的无组织性使信息容易受到内容和质量突然变化的影响，不利于信息质量评估[4].由于信息与数据的不同，信息质量与数据质量研究的重点、层次、角度、手段都有所不同[5-6].Chen Li等[7]认为数据质量和信息质量是一个多维度的概念，根据研究者自己的观点会呈现不同的特征.Ellis等[8]采用前一图像中包含的所有关节之间的距离信息，和当前图像中每个关节点与参考动作对应关节点的距离信息，来描述运动员偏移特征、姿态特征和运动特征的信息.Xiong Huilin等[9]认为数据质量的使用主要与数据库等信息产品的准确性有关.白永昕等[5]指出高质量的数据不一定是高质量的信息，信息用户可能仍然无法获得有价值的信息.随后Liu Wu等[10]提出了盲/非参考图像空间域质量评估算法，该算法采用SVM + SVR模式，对这些信息和数据及其相关系数在不同方向上进行非对称广义高斯拟合，进一步精确检测结果.因此，目标检测首先要关注用户的需求，使信息生产从信息用户中形成一个完整的数据链才能达到精确的目标检测.

本文的目标是开发一种基于图像识别算法的篮球运动场景目标检测系统，可以识别不同的篮球动作.通过对文献数据的整理发现，目前学术界对运动目标检测的研究正逐渐转向多目标、复杂运动和复杂背景视频人体运动的识别技术[11].研究结果也证明卷积神经网络(Convolutional Neural Network, CNN)非常适合于视频中人的处理，尤其是复杂的动作识别技术更有价值[12].篮球技术动作本身就是在一些高困难、高强度、复杂的运动环境下进行的身体活动，对高难度篮球运动目标识别的研究，并对于提高高难度篮球运动的训练教学水平，预防运动损伤也具有重要的作用.该系统主要利用人体动作识别算法来识别不同的人体篮球动作，对于分析和建模高远程情境下的人体动作具有重要意义.该系统能有效解决实际训练过程中出现的损伤问题，进而提升运动员成绩.

1 研究方法

篮球动作识别是面向体育场景的物体检测系统的重要组成部分，我们结合了背景差分算法和时空特征提取来实现人体跟踪和运动识别.具体地说，为了更好地从背景中提取目标对象，我们每七帧选取一帧视频作为输入图像，部分视频图像示例如图1所示.两帧的差值为0表示该点在视频中是静态的，或其是背景中的点.因此，设Sj(x,y)，1≤j≤M表示这些背景点，B(x,y)表示重建的背景.Mj(x,y)表示最长静态视频片段的中间帧，STj(x,y)、ENj(x,y)分别表示静态视频片段的开始和结束，可得：

Mj(x,y) = (STj(x,y) +ENj(x,y))，

(1)

B(x,y)=I(x,y,M(x,y)).

(2)

首先，通过计算背景与当前帧的差值，可以得到人体运动图像.我们设置一个阈值来从图像中选择运动区域，通过对差分图像选择合适的阈值二值化，并滤除了大部分残留的静态背景，以获得更准确的运动人体图像.然后，利用形态学方法来进一步消除其他噪声的影响，这样就可以从视频流中提取出人体动作图像.本文利用基于骨骼检测的算法来检测人体的关键点，为了实现对人类行为的识别，选择了一段时间内连续的姿势序列来代表人类行为.我们将运动员的行为定义为F=(G1,G2，…，Gn).其中Gi为运动员姿态描述向量.为了识别不同的人体动作F，我们定义了人体动作相似度指数(ASIM)来度量测试动作模板与参考动作模板之间的距离.具体来说，我们将引用的操作模板定义为：R=R(1)，R(2)，…，R(M).将测试动作模板定义为：T=T(1)，T(2)，…，T(N).其中R(M)与T(N)具有相同的特征维数.同时，定义D[T(ni)，R(mi)]为特征向量T(ni)和R(mi)的累积畸变，则D[T(ni)，R(mi)]可以表示为：

D[T(ni)，R(mi)] = [T(ni)，R(mi)]s.t.1≤ni≤N, 1≤mi≤M.

(3)

其中：d[T(ni)，R(mi)]为特征向量的失真度，T(ni)和R(mi)利用DTW算法求解可得[12]：

D[T(ni)，R(mi)] =d[T(ni)，R(mi)] +D[T(ni-1),R(mi-1)].

(4)

其中：

D[T(ni-1),R(mi-1)]=min(D[T(ni-1),R(mi)],D[T(ni-1),R(mi-1),D[T(ni-1),R(mi-2)]).

(5)

因此，本文的篮球运动行为相似性可以定义为：

(6)

其中，H1和H2表示本文中的24-D特征向量，在迭代的基础上，可以计算出参考动作模板和测试动作模板之间的最小累积失真.如果测试模板与所有参考模板一一匹配，则该测试模板属于累计失真最小的类别.为了准确提取与视频相关的篮球动作识别的高级特征，对Seq2Seq模型进行了修改，以适应视频数据.Seq2Seq模型的目的是将一种语言序列翻译成另一种语言序列[10].整个过程就是利用RNN将一个输入序列映射到另一个输出序列，而对于时间序列数据，RNN倾向于关注附近的数据，而忽略距离较远的数据[13].由于训练都连接到同一个输出层，从而可以向输出层提供输入序列中的每个点来完成过去和未来的上下文信息.最后，利用Bi-LSTM模型，提出预测模型Bi-LSTM-S2S，如图2所示.

序列数据(x1,x2，…,xn)包含附加特征的Bi-LSTM-S2S的编码器部分作为输入数据流动，然后被编码成语义向量e，输入到解码器部分.解码器采用前一个矩的输出作为当前矩的附加输入，然后完成预测.此外，在设计运动虚拟场景时，需要考虑四个问题：(1)为了使设计的运动虚拟场景适应不同用户的需求，必须动态生成模型的问题；(2)由于模型数量的增加，需要一种有效管理多个模型的机制的问题；(3)系统必须及时更新和补充新型号的问题；(4)根据用户需求动态生成模型，需要一种将其应用于教学软件开发环境的方法的问题.在本文的方法中使用图像处理算法来描述不同的人体运动，给定一个特定的人体动作，在目标检测系统中基于人体关键点重构相应的动作，可以帮助运动员更好地适应各种训练方法和战术训练，快速提高运动员的成绩.

在本文的实验中，我们调查了50名篮球运动员在使用目标检测系统前后的表现，检测的动作包括抢篮板、投篮、传球、过人和抢断.这些动作有可能会在平时的训练和比赛中对运动员造成伤害，利用目标检测系统进行运动识别和分析有助于更好地解决这些问题.

图2 Bi-LSTM-S2S体系结构

2 结果分析

表1显示了这些篮球运动员在使用本文所提出的目标检测前后的表现，正如我们所看到的，这些参与者的表现得到了显著的改善.使用目标检测系统，运动员可以演示各种技术动作，非常适合特定的战术，并让运动员更加不容易受伤.

表1 使用目标检测系统前后的对比结果

对比图3可以更直观地展示这一优势，与传统的培训方法相比，目标检测系统具有一定的优势，能够带来更好的教学效果.这种讲解与演示的结合，可以更好地刺激运动员的感官，从而让运动员对技术有更多的记忆和更深刻的理解.

传统的模型一般无法恢复篮球运动的一些手臂姿势特征，如严重遮挡、高移动速度、突然的方向变化和球员之间大量的身体对抗等.这些特征对个体球员和团队的检测效率的准确性提出了挑战.在实验中，笔者结合了背景差分算法和骨架检测算法来检测人体关键点.这种组合可以有效地识别篮球运动员的行为动作，笔者比较了已有文献中不同算法的性能，如表2所示.从中可以看到，笔者的方法在所有数据集中展示了非常好的性能，且无需在数据集构建时进行额外标注，即可对篮球运动打法隶属关系进行分类，从而可以更精确地识别出篮球运动员的技术动作.

此外，我们将本文的方法与CBIQ[13]、LBIQ[14]、BLIINDS-II[15]、DIIVINE[16]和BRIS-QUE[8]等几种知名的无参考图像质量评估方法进行了比较.同时，本文使用了四种常用的指标来衡量客观算法和主观评价的相似性，指标包括斯皮尔曼秩序相关系数(Spearman Rank-Order Correlation Coefficient，SROCC)、肯德尔秩序相关系数(Kendall Rank-Order Correlation Coefficient, KROCC)、皮尔逊线性相关系数(Pearson Linear Correlation Coefficient, PLCC)和均方根误差(Root Mean Squared Error, RMSE)[9].由于这些指标用于评价图像质量，因此在本文中，我们评估每一帧的图像质量时，每个实验重复10次，并计算平均值作为最终的质量分数.表3列出了在数据集上测试的比较结果，对比发现，本文提出的方法均方根误差最小，可以有效地检测视频失真的原因，并利用相应的方法对视频建模进行质量评估.同时，本文目标检测结果在一定程度上可以弥补目标检测器的漏检等问题.此外，将检测结果反馈给目标检测器对检测器进行在线微调还可以进一步提高目标检测的性能[15].可以看出，联合目标检测与跟踪算法的研究是进一步提升视频目标跟踪性能的关键，也是未来目标跟踪领域的发展趋势.

图3 不同篮球动作在使用目标检测系统前后的表现

表2 不同算法在识别人体动作时的性能

3 小结

本文采用深度卷积神经网络的方法进行篮球运动的目标识别，并结合图像提取和动作识别算法的特点，与各种经典分类算法进行了对比.研究发现，深度卷积神经网络的高难度动作识别可以提高篮球动作目标识别的准确性，并能充分发挥其作用.通过选取五组可能导致运动损伤的高难度动作进行实验研究，包括抢篮板、投篮、传球、过人和抢断，然后利用骨骼识别算法对人体关键点进行检测，开发了一个目标检测和可视化系统来重建每个运动动作.这些特点促进了高难度技术动作的训练应用，可以减少运动损伤，有助于提升篮球运动员的动作技巧.