一种水下鱼类动态视觉序列运动目标检测方法

2021-04-10张明华黄冬梅梅海彬覃学标

图学学报 2021年1期

张明华，龙腾，宋巍，黄冬梅,2，梅海彬，覃学标

张明华1，龙腾1，宋巍1，黄冬梅1,2，梅海彬1，覃学标1

(1. 上海海洋大学信息学院，上海 201306； 2.上海电力大学，上海 200090)

针对水下视频质量不高、视频模糊不清甚至很难辨认的问题，利用计算机视觉技术对水下鱼类目标进行快速目标检测，提出了一种基于背景去除的水下视频目标检测方法。设计适合水下环境的鱼类目标检测框架，使用偏最小二乘(PLS)分类器进行目标检测。利用水下拍摄的鱼类数据集收集输入的视频序列，并提取单独的帧。将帧的RGB格式转换为HSI格式并进行中值滤波器去噪的预处理，利用GMG背景去除过程，提取了基于局部二值模式(LBP)纹理和灰度系数的重要特征，最后将所提取的特征，利用PLS分类器，实现了分别对白天及夜晚环境中的水下鱼类目标检测。结果表明，该方法在水下拍摄的鱼类视频数据集目标检测精度可达96.89%，提高了检测效率，降低了人工成本。为水下鱼类等生物资源的监测、保护和可持续开发等工程应用提供了一定的参考价值。

偏最小二乘；背景去除；鱼类；目标检测；动态视觉序列

1 研究背景

我国是世界水产养殖大国，水产养殖也是国民经济收入的一项重要来源，我国在水产养殖方面的科技水平相对于国外许多发达国家还较为滞后，在水产养殖和海洋捕捞方面，需要对鱼类的行为及运动轨迹进行检测和跟踪，并对鱼类进行目标检测[1]。传统的方法是通过人工对视频进行检测，该方法存在人力、物力耗费大，效率低下等问题。目前计算机视觉技术在运动视频目标检测领域应用广泛。在水下视频中引入计算机视觉技术，对水下鱼类进行目标检测，可节省大量人力、物力，提高水产养殖自动化水平，大大提高经济效益[2-6]。

当下许多成熟的视觉技术并不适用于水下环境，是由于水下环境比陆地环境更加复杂、多变，拍摄环境恶劣，光线的散射以及水体对光线的吸收，导致视频模糊不清，甚至难辨认，使得目标检测任务变得更加困难。如何对水下鱼类视频进行目标检测，是目前图像识别研究的热点问题之一[7]。

机器学习方法是通过提取鱼类特征，再将特征输入支持向量机(support vector machine，SVM)[8]等分类器进行检测分类。其中ROVA等[9]提出了一种基于模板匹配的可变形提取技术用于鱼类检测；张志强等[10]提出了一种一般化方法，将鱼类图像中各颜色分量和长短轴之比作为鱼类特征；姚润璐等[11]则从鱼类图像中分割出鱼各部位的图像模块，并提取关联度更高的特征，但提取过程非常复杂，需要人工制定鱼类各部位的匹配规则，不适用于分析海量数据；DALAL和TRIGGS[12]提出方向梯度直方图(histogram of oriented gradients，HOG)特征具有较好的分类特性。上述方法提取到的鱼类特征通常只适用于光照充足、清晰度高、背景环境对比度高的情景，在水下较难产生作用。

由于水下目标检测任务的特殊性，已有的检测算法大多依赖图像的灰度信息。OLMOS和TRUCCO[13]提出了一种基于无约束水下鱼类视频的目标检测方法，利用图像灰度以及轮廓信息完成目标检测，但检测速度较慢。张铭钧等[14]提出了一种基于不变矩的水下目标检测方法，使用最小交叉熵确定阈值，可确保灰度信息的完整，并利用灰度-梯度不变矩实现水下图像的目标检测，鲁棒性较好、召回率较高，但精度仍未达到预期要求。

文献[15]和文献[16]总结了基于深度学习的目标检测方法和发展现状，认为目前主流的深度学习目标检测方法可以更高效地进行目标检测。但由于基于神经网络的深度学习目标检测方法，不仅需要大量的数据支撑，还需要对数据集进行标记，且在检测环境有较大差别时，不具有通用性，反而增大了前期训练模型的难度。

为此，本文在背景去除方法[17-18]的基础上，提出了基于偏最小二乘(partial least squares，PLS)分类器的水下视频鱼类目标实时检测算法，有效地解决了在白天和夜晚不同的水下环境中，对鱼类的精确检测问题，克服深度学习方法中需要大量数据支撑的弊端，使得水下视频鱼类目标检测更加精准、高效。本工作的主要目标是检测水下视频中的运动鱼目标，并使用不同的分类算法对其进行检测。图1为白天和夜晚静态以及动态的视频环境。

2 鱼类目标检测方法

本方法针对水下环境的视频数据，提出一种先对数据进行预处理，然后经过GMG (geometric multigid)背景去除[18]以及局部二值模式(local binary pattern，LBP)[19]和灰度值[20]特征提取，最后使用PLS分类器[21]进行目标检测的方法。

图1 白天和夜晚静态以及动态的视频环境((a)白天静态环境；(b)夜晚静态环境；(c)白天动态环境；(d)夜晚动态环境)

从数据集中收集所需的输入视频序列。先将其转换成帧，并进行预处理，以提高帧的质量，消除噪声；然后将增强后的帧应用于背景去除过程；再提取特征向量；通过PLS分类器对不同视频序列的特征进行目标检测。该方法的总体示意图如图2所示。

2.1 数据预处理

从数据集中获得的输入视频序列首先被转换成帧。然后对每一帧进行预处理，以提高帧的质量。预处理的目的是通过去除噪声来提高工作的准确性。将从视频中获得的每一帧RGB格式转换成HSI (H：色调(Hue)，S：饱和度(Saturation)，I：亮度(Intensity))格式[22]，并单独提取亮度(I)部分进行进一步处理。

提取亮度(I)主要是与色调以及饱和度参数相比，因为噪声会对亮度产生较大的影响。将提取的亮度部分应用到中值滤波器中去除噪声。

为了提高对比度，中值滤波器的输出采用对比度有限的自适应直方图均衡(contrast limited adaptive histogram equalization，CLAHE)算法[23]。

2.2 背景去除

在背景去除中，需要对视频帧进行前景和背景的图像分割，前景区域的提取是通过时间图像分析和背景去除处理相结合来完成的。利用背景去除方法检测水下运动鱼类目标，目的是将视频中运动物体的前景区域从背景区域中分离出来。通过背景去除方法和时间差分方法，可以克服其他算法时间复杂度较高的缺点。背景去除时使用输入的视频序列，并找出当前与背景参考帧像素的差来检测帧内的运动对象。通常使用第一帧作为参考帧，然后按固定时间更新。而时间差分则是对视频连续帧中像素特征的差分。

本文采用GMG背景去除算法，此算法结合了静态背景图像估计和每个像素的贝叶斯分割[24]。时间分析是通过比较2个连续帧的时间来执行的。设v为视频序列中时间点的像素，=(,)点为该像素的特征向量。由贝叶斯规则，该像素为背景的后验概率为

图2 方法总体示意图

式中的分母为

则将v分类为背景，否则，分类为前景。其中，为前景值。

2.3 特征提取

在特征提取过程中用一些对分类过程有用的可量化信息来表示一个像素。本文选择了以下特征向量集。

(1) 使用LBP算法提取基于纹理的特征。

通过文献研究，利用LBP提取了24个基于纹理的特征。LBP是用于图像处理和机器学习的强大特征描述符之一。对比其他纹理特征，其计算复杂度非常低。

该算法的关键是在获得的前景区域中为每个像素放置一个标签；并通过计算像素的局部邻域内点和半径的数量得到；计算中心像素的强度值，并选择该值作为参考；根据这个参考值，邻域像素形成二值模式的阈值；最后，通过将每个像素相加，并以2为幂进行加权，计算出LBP标签，即

其中，I和I分别为邻域像素和中心像素的灰度值，为以半径为圆上的样本数。

从每个LBP模式计算出均值、标准差、中位数、熵、偏度和峰度6个统计特征。分别计算=1，2，3，4时的统计特征，共得到24个。

(2)提取基于前景对象灰度的5个不同特征[20]。

灰度特征为输入序列的分类提供了更有意义的特征。可从前景对象中提取一组灰度特征。设S,y为像素(,)上运行的坐标集。其可表示为

其中，为色调值；为亮度值；1，2，3，4，5分别为感兴趣区域内所有像素值的灰度值、最小值、标准差、平均值、最大值。

水下视频由于光照反射、折射和水体流动等原因，以及夜晚视频光照条件不理想，仅使用背景去除进行目标检测会有较大的误差，有时会将动态的折射光线判定为运动目标，所以需要在数据预处理基础上进行LBP和灰度值特征提取，以确保检测出的结果为目标物体。

2.4 目标检测

将提取的LBP和灰度特征组合成特征向量。为了将输入的视频序列分为不同的类别，并将其特征向量应用到分类器算法中。本文选择了将特征向量应用到PLS分类器中进行目标检测。

该分类器在不同分类之间具有低偏差和高方差。本文采用阈值可调的线性回归PLS分类器。选择该分类器的主要原因是其提供了较高的精度，避免了过拟合问题。通常，该分类器可表示为

其中，为具有分类度量的向量；为提取的特征向量；为线性回归系数；为残余向量。

将提取的特征向量应用于PLS分类器进行训练，得到最优的线性回归系数。将此最优值应用于测试阶段，对输入的水下鱼视频序列进行目标检测。

3 实验结果与讨论

3.1 实验数据

实验输入的视频数据集均来自实际拍摄的上海海洋大学第二教学楼旁水池内水下视频。数据集为使用水下固定摄像头分白天和夜晚2个场景拍摄，夜晚拍摄以白灯作为照明。水下视频共计270 min，大小为11.1 G，共转换90 000帧，其中，用于实验的白天和夜晚视频均为100 min，夜晚和白天混合视频70 min。从各部分视频中取80%作为训练集，20%作为测试集。

该数据集包含不同的视频序列，在白天、夜晚2个场景由高分辨率摄像机捕获。通过不同的视频序列以及白天和夜晚混合的视频序列来验证和比较本文方法的性能。

由于在相邻几帧图像中目标运动一般不会发生太大的变化，因此本文采取每隔5帧进行一次检测，这样做既保证了检测的精确率，同时也加快了目标检测的总体速度。

本文算法是在Intel(R) Core(TM) i5-8500 CPU @ 3.00 GHz处理器上使用OpenCV+Pycharm+ Python3.6运行的。

定量数据通过计算精度(Accuracy)、查准率(Precision)、查全率(Recall)和平均检测时间获得，即

其中，为正确标记为正；为错误标记为正；为错误标记为负；为正确标记为负；准确率为检测到的与移动对象相对应的像素的数量；误报率为检测到的不符合移动对象的像素数量；漏报率为未检测到的移动对象像素。另F1=2×TP/(样例总数+TP-TN)×100%。

3.2 使用PLS分类器目标检测结果

表1给出了使用本文方法，在白天、夜晚和混合环境下，不同视频序列数据上得到的目标检测结果，

从实验结果可以看出，由于夜晚视频和混合视频光照条件较差，水下鱼类的目标检测精度略有下降，但总体检测精度依然保持92%以上，鱼类目标的真实值(Ground Truth)为54。

表1 PLS分类器目标检测结果

3.3 未经过数据预处理数据目标检测结果

本文对未经预处理的数据集同样利用PLS分类器对输入序列进行目标检测，实验结果见表2。

表2 PLS分类器对未处理序列目标检测结果

从表2数据可以看出，原始数据集经过数据预处理后，目标检测结果的精度有很大地提升，尤其是夜晚视频的目标检测精度提升了10%。

图3为使用PLS分类器对最终输入的白天和夜间视频的目标检测实验效果。

图3 水下鱼视频目标检测结果((a)白天视频目标检测结果；(b)夜晚视频目标检测结果)

3.4 使用HOG特征目标检测结果

为了验证本文使用的特征提取方法是否效果最佳，在原实验数据集的预处理基础上，特征提取采用HOG特征，将提取的特征应用到PLS分类器算法中进行目标检测，表3为使用HOG特征的PLS分类器进行目标检测的实验结果。

从实验结果可以看出，使用HOG特征应用到PLS分类器与本文方法相比，检测精度有明显的下降，这是因为HOG特征主要偏重用于行人检测，但不适用于水下视频中运动的目标。

3.5 使用SVM和PNN分类器目标检测结果

本文还将实验数据输入到SVM和概率神经网络(probabilistic neural network，PNN)[25]2种分类器中进行目标检测，并与本文使用的PLS分类器在精度、检测率、错检率以及检测时间等指标上做了对比。表4为SVM和PNN分类器对不同序列的目标检测实验结果。

表3 HOG特征PLS分类器目标检测结果

表4 SVM和PNN分类器目标检测结果

从表4可以看出，运用本文方法对处理后的数据集进行目标检测，精度可以达到83%以上。从计算时间上看，PLS分类器比SVM和PNN分类器的用时略有增加。对比3种分类器的目标检测结果，对于白天视频的目标检测效果比较好，夜晚视频和混合视频由于光线和水面折射的原因，精度略有下降，但本文使用的PLS分类器的目标检测精度比SVM和PNN的精度高出10%。

3.6 使用YOLOv3目标检测结果

表5为目前主流的深度学习目标检测算法YOLOv3的目标检测结果。

表5 YOLOv3目标检测结果

可以看出，对比YOLOv3算法，本文检测所需要的时间较少，这是因为本文方法是基于视频的背景去除，不需要使用深层的网络结构。

4 结论与展望

为解决水下低清晰度、低对比度、低质量的图像中鱼类目标快速检测问题，本文首先对水下视频数据集进行RGB转HSI的格式转换和中值滤波器去噪的数据预处理，然后使用GMG背景去除算法进行背景去除，之后提取出其中的LBP和灰度值特征，输入到PLS分类器中进行实时目标检测。利用本文方法，对水下视频序列中的目标鱼类进行检测，实验结果表明，对于白天视频的检测精度为96.89%，对于夜晚视频的检测精度为94.13%，对于混合视频的检测精度为92.62%。本文比较了不同分类器的性能，解决了应用背景去除技术所产生的视觉源质量差或低质量而产生的帧内噪声以及前景物体作为移动物体投影的阴影区域问题。

本文对比了提取HOG特征，使用了SVM和PNN 2种分类器以及YOLOv3方法进行目标检测，对比结果表明，在不同方法的检测精度上，本文使用的PLS分类器精度更高。

后续将针对夜晚环境下的水下鱼类，基于目前在目标检测效果较好的深度学习算法，进行针对夜晚水下环境的改进，寻求在夜晚水下环境中对鱼类更加精准快速的目标检测方法，提高检测效率。

[1] ROUT D K, SUBUDHI B N, VEERAKUMAR T, et al. Spatio-contextual Gaussian mixture model for local change detection in underwater video[J]. Expert Systems with Applications, 2018, 97: 117-136.

[2] VASAMSETTI S, SETIA S, MITTAL N, et al. Automatic underwater moving object detection using multi-feature integration framework in complex backgrounds[J]. IET Computer Vision, 2018, 12(6): 770-778.

[3] XIE C H, WANG J Y, ZHANG Z S, et al. Adversarial examples for semantic segmentation and object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 1378-1387.

[4] ZHU X Z, WANG Y J, DAI J F, et al. Flow-guided feature aggregation for video object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 408-417.

[5] RAVANBAKHSH M, SHORTIS M R, SHAFAIT F, et al. Automated fish detection in underwater images using shape-based level sets[J]. Photogrammetric Record, 2015, 30(149): 46-62.

[6] MAHMOOD A, BENNAMOUN M, AN S J, et al. Deep image representations for coral image classification[J]. IEEE Journal of Oceanic Engineering, 2019, 44(1): 121-131.

[7] SALMAN A, SIDDIQUI S A, SHAFAIT F, et al. Automatic fish detection in underwater videos by a deep neural network-based hybrid motion learning system[J]. ICES Journal of Marine Science, 2020, 77(4): 1295-1307.

[8] RAMASUBRAMANIAN B. An efficient integrated approach for the detection of exudates and diabetic maculopathy in colour fundus images[J]. Advanced Computing: An International Journal, 2012, 3(5): 83-91.

[9] ROVA A, MORI G, DILL L M. One fish, two fish, butterfish, trumpeter: recognizing fish in underwater video[EB/OL]. [2020-06-03]. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.144.501.

[10] 张志强, 牛智有, 赵思明. 基于机器视觉技术的淡水鱼品种识别[J]. 农业工程学报, 2011, 27(11): 388-392.ZHAGN Z Q, NIU Z Y, ZHAO S M. Identification of freshwater fish species based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering, 2011, 27(11): 388-392 (in Chinese).

[11] 姚润璐, 桂詠雯, 黄秋桂. 基于机器视觉的淡水鱼品种识别[J].微型机与应用, 2017, 36(24): 37-39.YAO R L, GUI Y W, HUANG Q G. Recognition of freshwater fish species based on machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 36(24): 37-39 (in Chinese).

[12] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). New York: IEEE Press, 2005: 886-893.

[13] OLMOS A, TRUCCO E. Detecting man-made objects in unconstrained subsea videos[C]//2002 British Machine Vision Conference 2002. Durham: British Machine Vision Association, 2002: 517-526.

[14] 张铭钧, 尚云超, 杨杰. 基于灰度-梯度不变矩的水下目标识别系统[J]. 哈尔滨工程大学学报, 2009, 30(6): 653-657.ZHANG M Y, SHANG Y C, YANG J. Recognition system for underwater objects based on gray and grads invariant moments[J]. Journal of Harbin Engineering University, 2009, 30(6): 653-657 (in Chinese).

[15] ZHAO Z Q, ZHENG P, XU S T, et al. Object detection with deep learning: a review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212-3232.

[16] LI P X, WANG D, WANG L J, et al. Deep visual tracking: review and experimental comparison[J]. Pattern Recognition, 2018, 76: 323-338.

[17] CHRISTOPHER J BAHR, WILLIAM C HORNE. Subspace-based background subtraction applied to aeroacoustic wind tunnel testing[J]. International Journal of Aeroacoustics. 2017, 16(4-5): 299-325.

[18] GODBEHERE A B, MATSUKAWA A, GOLDBERG K. Visual tracking of human visitors under variable-lighting conditions for a responsive audio art installation[C]//2012 American Control Conference (ACC). New York: IEEE Press, 2012: 4305-4312.

[19] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[20] MARÍN D, AQUINO A, GEGUNDEZ-ARIAS M E, et al. A new supervised method for blood vessel segmentation in retinal images by using gray-level and moment invariants-based features[J]. IEEE Transactions on Medical Imaging, 2011, 30(1): 146-158.

[21] AGURTO C, MURRAY V, YU H, et al. A multiscale optimization approach to detect exudates in the macula[EB/OL]. [2020-06-04]. http://www.doc88.com/ p-9744466164469.html.

[22] 杨旭强, 冯勇, 刘洪臣. 一种基于HSI颜色模型的目标提取方法[J]. 光学技术, 2006, 32(2): 290-292.YANG X Q, FENG Y, LIU H C. An object extraction method based on HSI color model[J]. Optical Technique, 2006, 32(2): 290-292 (in Chinese).

[23] REZA A M. Realization of the contrast limited adaptive histogram equalization (CLAHE) for real-time image enhancement[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2004, 38(1): 35-44.

[24] 汪西莉, 刘芳, 焦李成. 融合上下文信息的多尺度贝叶斯图像分割[J]. 计算机学报, 2005, 28(3): 386-391.WANG X L, LIU F, JIAO L C. Multiscale bayesian image segmentation fusing context information[J]. Chinese Journal of Computers, 2005, 28(3): 386-391 (in Chinese).

[25] GEORGIOU V L, PAVLIDIS N G, PARSOPOULOS K E, et al. New self-adaptive probabilistic neural networks in bioinformatic and medical tasks[J]. International Journal on Artificial Intelligence Tools, 2006, 15(3): 371-396.

Method for moving object detection of underwater fish using dynamic video sequence

ZHANG Ming-hua1, LONG Teng1, SONG Wei1, HUANG Dong-mei1,2, MEI Hai-bin1, QIN Xue-biao1

(1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. Shanghai University of Electric Power, Shanghai 200090, China)

In order to overcome the problems of underwater videos, such as low quality, blurring and even unrecognizability, using the computer vision technology for fast detection of underwater fish targets, an underwater video object detection method was proposed based on background removal methods. An object detection framework for underwater fish was designed, using the partial least squares (PLS) classifier for object detection. Input video sequences were collected from underwater fish data sets, and individual frames were extracted. After the format conversion of RGB to HSI and median filter denoising pretreatment, using the GMG background removal process, the texture and the characteristic of the gray scale coefficient were extracted based on local binary (LBP) pattern. At last, with the above extracted characteristics, the object detection of underwater fish in the daytime and night was realized using the PLS classifier. The results show that the method can achieve the object detection accuracy of 96.89% using the underwater fish video datasets, which improves the detection efficiency of underwater fish and reduces the labor cost. It can also provide some guidance for the monitoring, protection and sustainable development of underwater fish and other biological resources.

partial least squares; background removal; fish; object detection; dynamic video sequence

TP 183

10.11996/JG.j.2095-302X.2021010052

2095-302X(2021)01-0052-07

2020-07-15；

15 July，2020；

2020-08-05

5 August，2020

国家自然科学基金面上项目(61972240)；上海市科委能力建设项目(17050501900)，大洋渔业资源可持续开发教育部重点实验室开放基金项目(A1-2006-00-301104)

s：General Program of National Natural Science Foundation of China (61972240);Science and Technology Commission of Shanghai Capacity Building Projects (17050501900); Open Fund Project of Key Laboratory of Ministry of Eeducation for Sustainable Development of Ocean Fishery Resources (A1-2006-00-301104)

张明华(1977–)，女，河南郑州人，副教授，博士。主要研究方向为遥感图像处理、海洋信息处理。E-mail：mhzhang@shou.edu.cn

ZHANG Ming-hua (1977–), female, associate professor, Ph.D. Her main research interests cover remote sensing image processing, ocean information processing. E-mail：mhzhang@shou.edu.cn

黄冬梅(1964–)，女，河南郑州人，教授，硕士。主要研究方向为海洋遥感处理与分析、海洋大数据管理和智能辅助决策系统。E-mail：dmhuang@shou.edu.cn

HUANG Dong-mei (1964–), female, professor, master. Her main research interests cover ocean remote sensing processing and analysis, ocean big data management, intelligent DSS. E-mail：dmhuang@shou.edu.cn