基于改进YOLOX-S的足球比赛视频目标检测方法

2024-02-21何妍妍

高师理科学刊 2024年1期

何妍妍

何妍妍

（辽宁科技大学理学院，辽宁鞍山 114015）

为了提升足球赛事水平，催生出足球新战术，识别足球巨星梅西和足球的位置，为进一步的跟踪提供良好的基础，提出了一种基于改进YOLOX-S的足球赛事目标检测方法．使用Pseudo-IoU度量，改进了YOLOX-S中的正样本初步筛选机制，将更标准化和准确的分配规则引入到YOLOX-S无锚检测框架．在损失函数中使用了Focal Loss，以平衡难易样本．实验结果表明，相较于YOLOX-S模型，所提模型具有更好的综合表现，足球类别平均精度为79.8%，梅西类别平均精度为72.6%，平均精度均值为76.2%．

目标检测；YOLOX-S；足球赛事；Pseudo-Iou度量；Focal Loss

足球运动是世界第一运动，它将运动员高超的个人技术和巧妙的集体战术配合融为一体，具有令人不可抗拒的魅力，在世界范围内有广泛的受众和巨大的市场．足球视频通常存在足球目标较小，球员分布密集，难以区别辨认等问题，对目标检测提出了挑战[1]．

基于深度学习的目标检测算法分为二阶段目标检测算法和一阶段目标检测算法．前者先对输入图像选取可能包含检测目标的候选区域，再通过卷积神经网络对候选区域进行分类和回归，如R-CNN[2]，FastR-CNN[3]，FasterR-CNN[4]等，该类算法精度高但速度慢．后者不会生成候选区域，将目标检测任务看成整幅图像的回归任务，如FCOS[5]，SSD[6]，Centernet[7]，Efficientdet[8]，YOLO[9-10]系列等，优点是检测速度快．YOLOX是典型的一阶段检测网络，具有速度快精度高的特点，但在足球目标较小．球员因剧烈运动形变较大的足球视频目标检测中精度较低，不能满足精准跟踪足球和球员的要求．因此，本文选取了YOLOX-S网络，并在该网络的基础上进行了改进．使用Pseudo-IoU[11]度量，将准确的标签分配规则引入到YOLOX-S无锚检测网络中，无需额外的计算成本和测试参数．在损失函数中引入Focal Loss[12]，YOLOX-S网络中使用的是平衡交叉熵损失函数，解决了正负样本不均衡的问题，Focal Loss可以增加难分样本的权重，减低易分样本的权重，使模型在训练时重点关注难分类样本．

1 YOLOX-S网络模型

YOLOX是对YOLOv3 网络进行改进后的新一代目标检测网络，YOLOX-S是YOLOX的一个衍生版本，网络参数量为9.0 MB，权重文件大小为35 MB，具体结构见图1．

图1 YOLOX-S模型结构

YOLOX-S网络结构由四个部分组成，分别为输入端、主干特征提取网络、加强特征提取网络以及预测网络．输入端使用了Mosaic和MixUp数据增强方法，随机选取4张图片，通过随机缩放、随机分布、不同图片像素加权融合等方式对图片进行拼接，丰富数据集的多样性，可以提升检测效果．主干网络为CSPDarknet，使用了CSPLayer，Focus，SPP[13]等结构．Focus结构是在一张图片中每隔一个像素取一个值，获得四个独立的特征层，然后将四个独立的特征层进行堆叠，使宽高信息集中到通道信息，输入通道扩充了四倍，拼接起来的特征层由原先的三通道变成了十二个通道．SPP结构通过不同池化核的最大池化进行特征提取，特征图经过局部特征和全局特征相融合后，丰富了特征图的表达能力．在网络的加强特征提取网络部分，利用特征金字塔 FPN[14]+PAN[15]结构，将语义特征和定位特征进行融合．在预测网络部分，使用解耦头将加强特征提取网络的输出结果进行拆分，分别计算置信度，类别概率和位置并进行拼接得到预测结果．YOLOX-S通过FCOS无锚点方式初步筛选正样本，再利用 SimOTA 算法对预测结果进行精细化筛选，得到最终的正样本．

2 改进YOLOX-S模型

2.1 正负样本确定

（IoU）是一种测量在特定数据集中检测相应物体准确度的一个标准，被定义并应用于基于锚框的方法中，计算了预测框A与真实框B之间的相似度，具体公式为

Pseudo-Intersection-over-Union度量将一个准确的标签分配规则引入到无锚检测器中（见图2）．

图2 Pseudo-IoU展示图

在加强特征提取网络中提取所有特征图，并将特征图上的所有点标记为正负样本后，训练过程推进到检测头部分．

2.2 损失函数

损失函数表示为

3 实验

3.1 实验数据集

实验数据使用的是足球比赛视频的图片和部分百度搜索到的梅西的图片，共1 646张图片，其中只包含足球的图片（足球类别）有1 288张，包含足球和运动员梅西的图片（梅西类别）有358张．使用 Labelimg对图片进行了标定，符合实验训练要求．训练验证集和测试集的比例设置为9∶1，训练集和验证集的比例设置为9∶1，1 332张用于训练，149张用于验证，165张用于测试．

3.2 实验环境

实验在Win10操作系统上进行训练和测试，处理器是 IntelI CoreI i7-12700F CPU，显卡使用 NVIDIA GeForce RTX® 3060，深度学习框架为Pytorch，编译器为pycharm．

3.3 模型训练

实验总共360个训练周期（epoch），最后75个训练周期不设置数据增强，训练批次大小（batch size）设置为16，学习率由余弦退火算法调节，初始学习率（learning rate）设置为 0.01/64.0，最小学习率为0.05，权重衰减设置为0.000 5．

3.4 评价指标

3.5 实验结果对比

表1 不同检测模型的比较（%）

使用 YOLOX-S模型和本文模型分别对足球比赛视频进行检测，结果见图3．由表1和图3可以看出，本文模型能够提高检测精度．

图3 检测效果对比

表2 不同取值对比（%）

表3 标签分配改进效果（%）

表4 不同，取值对比（%）

表5 损失函数改进效果（%）

4 结论

为了解决足球比赛视频通常存在足球目标较小，球员分布密集，难以区别辨认等问题，提出了一种基于改进YOLOX-S的足球比赛视频目标检测方法．首先，将正样本初步筛选机制中的FCOS中心分支替换成Pseudo-IoU度量，减少误报和不准确的边框；然后，基于损失函数引入Focal Loss，能够使模型更加精确地区分检测区域是否有足球和梅西．实验结果表明，改进的模型提高了足球比赛视频的检测精度，并且能满足实时检测的需求，为进一步跟踪提供了帮助．在后续研究中将进一步改进YOLOX-S方法来提高检测精度和检测速度．

[1] 亓淼，郑凯东. 基于注意力机制的足球视频目标检测[J]. 智能计算机与应用，2022（1）：143-154．

[2] GIRSHICK R，DONAHUE J，DARRELL T，et al．Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Patten Recognition．Piscataway：IEEE，2014： 580-587．

[3] GIRSHICK R．Fast R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision．Piscataway：IEEE， 2015：1440 -1448．

[4] REN S，HE K，GIRSHICK R，et al． Faster R-CNN： Towards real-time object detection with region proposal networks[J]． IEEE Transactionson Pattern Analysis & Machine Intelligence，2017，39（6）：1137-1149．

[5] TIAN Z，SHEN C，CHEN H，et al．Fcos：Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision．Piscataway：IEEE，2019：9627-9636．

[6] LIU W, ANGUELOV D, ERHAN D, et al．Ssd：Single shot multibox detector[C]//Computer Vision–ECCV 2016: 14th European Conference．Amsterdam：Springer International Publishing，2016：21-37.

[7] DUAN K，BAI S，TIAN Q，et al．Centernet：Keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision．Piscataway：IEEE，2019：6569-6578.

[8] Tan M，Pang R，Le Q V．Efficientdet：Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2020：10781-10790．

[9] Redmon J，Divvala S，Girshick R，et al．You only look once：Unified，real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2016：779-788．

[10] Redmon J，Farhadi A．YOLO9000：better，faster， stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2017：7263-7271．

[11] LI J， CHENG B， FERIS R，et al．Pseudo-IoU：Improving label assignment in anchor-free object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2021：2378-2387．

[12] LIN T Y，GOYAL P，GIRSHICK R，et al．Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision．Piscataway：IEEE，2017： 2980-2988．

[13] HE K，ZHANG X，REN S，et al．Spatial pyramid pooling in deep convolutional networks for visual recognition[J]．IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（9）：1904-1916．

[14] LIN T Y，DOLLAR P，GIRSHICK R，et al．Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2017：2117-2125．

[15] LIU S，QI L，QIN H，et al．Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition．Piscataway：IEEE，2018：8759 -8768．

Improved YOLOX-S-based video target detection method for football matches

HE Yanyan

（School of Science，University of Science and Technology Liaoning，Anshan 114015，China）

In order to improve the level of football matches，give birth to new football tactics，identify the position of football superstar Lionel Messi and football，and provide a good foundation for further tracking，an improved YOLOX-S target detection method for football matches is proposed．The Pseudo-IoU metric is used to improve the preliminary screening mechanism of positive samples in YOLOX-S，and more standardized and accurate allocation rules are introduced into the YOLOX-S anchor free detection framework．In addition，Focal Loss is used in the loss function to balance the difficulty and easy samples．The experimental results show that the proposed model has better overall performance compared with the YOLOX-S model，with an average accuracy of 79.8% for soccer category，72.6% for Messi category，and 76.2% for the mean accuracy.

target detection；YOLOX-S；football events；Pseudo-Iou；Focal Loss

TP391.4

10.3969/j.issn.1007-9831.2024.01.007

1007-9831（2024）01-0030-06

2022-11-04

何妍妍（1995-），女，浙江义乌人，在读硕士研究生，从事计算机视觉研究．E-mail：heyy203@163.com