APP下载

基于深度学习的野生动物识别

2022-02-08黄志静邵慕义张庭瑞沈嘉轶

电子测试 2022年22期
关键词:图像识别残差野生动物

黄志静,邵慕义,张庭瑞,沈嘉轶

(北京信息科技大学计算机学院,北京,100101)

0 引言

尽管人类社会已经得到了快速发展,也取得了很多生产力、科学技术等方面的成果,但在发展的同时一定程度上损害了自然环境,使得大自然中很多动植物种类逐渐消失尤其是野生动物,所以我国非常重视野生动物保护。如今,我国很多地区的野生动物都已经得到了等级性保护,包括一级保护和二级保护动物等,但依然有部分野生动物还没有得到很好的保护,所以进一步加强野生动物保护、优化生态环境是非常必要和重要的,理应得到重视及关注[1]。而野生动物的识别技术,尤其是针对在具有噪音的野生环境下对野生动物进行识别就尤为重要,可以为加强野生动物保护助力。在野外设置合适的摄像头进行拍摄,定时传回图片,对图片进行识别,若发现野生动物就可以有针对性地采取措施,进行保护。

1 研究现状

1.1 图像识别

图像识别是指借助计算机工具实现对图像的处理、分析和理解,达到对不同模式下目标对象的识别分类,是将深度学习理论到实际的一种应用[2]。图像识别技术的过程分为获取目标信息、预处理图像、对图像特征进行提取和筛选、分类器设计和分类决策。基于卷积神经网络的图像识别是一种较为新颖的图像识别技术,它是在传统图像识别的基础上加入卷积神经网络的算法,使图像识别领域迈向智能化。

1.2 卷积神经网络

卷积神经网络是对传统神经网络的改进,该网络一般是对图像的特征进行提取,然后将提取到的特征映射到神经网络中,从而实现图像的及分类.输入层、卷积计算、激励层、池化层、全连接和输出层6个部分可以组成一个简单的卷积神经网络。在输入层对图像做一些简单的预处理,随后将其输出给卷积层,使得卷积层对图像的特征进行提取;然后,将提出的特征输出给激励层,激励层对其做一些非线性映射,再通过池化层将图像的主要特征提取出来;最后,通过全连接层将提取到的所有特征进行汇总,产生分类器,实现对图像的识别分类.神经网络凭借局部感知和参数共享两大特点在图像处理领域占有一定的地位,局部感知使得卷积核对输入的空间局部模式有较好的响应,而参数共享降低了网络模型复杂度和权值数量[3]。两者的结合不仅可以使网络有效地从大量样本中学习到想要的特征值,还降低了模型的复杂度,避免了复杂的特征提取过程。

1.3 野生动物保护现状

1.3.1 管控力度不足

我国幅员辽阔,地形和地势多样,这就使野生动物的分布也呈现多元化趋势。由于野生动物生长习性不同,使野生动物的分布范围极为广泛,且野生动物种类较多,在开展管控的过程中难度较大,经常出现管控力度不足的情况。并且,由于野生动物管控涉及的环节和流程较多,导致在实际开展工作的过程中,很难完全落实相关活动,一定程度上阻碍了我国野生动物保护水平的提升[4]。

1.3.2 监管难度较大

野生动物品类繁多,生活作息和生活环境也各不相同,如果通过人工的方式进行监管,可能会带来较大的工作量,从时间的角度和区域范围的角度,都涉及较大跨度。除此之外,盗猎现象也在普遍发生,并且已经形成了一定规模的产业链,这对开展野生动物的工作产生了一定的阻碍,所以继续提升改善野生动物的监管技术。

1.4 野生动物保护策略

为提升保护野生动物管理水平,需要从对监管技术的提升改善入手。现阶段通过人眼对不同作息和不同野外生存环境的野生动物进行观察的难度是较大的,当然也有一些监管机构采用了野生动物识别技术,进行有效的野生动物监管,但是对于复杂的野外环境还是会存在光线或者障碍物等噪音影响识别工作。因此提升对噪声的抗干扰能力便成为野生动物识别技术的关键,比如,在有一定阳光直射监管摄像头时,或者被树叶遮挡部分监管摄像头视线时,系统采用的野生动物识别技术依然可以有较高成功率地识别出野生动物的品种,便于记录野生动物野外生存情况的相关信息。

2 模型构建

2.1 数据增强

我们选择的数据集为cifar100中的10小类每类只有500张训练集和100张测试集,同时由于图片较小每张图片趋同,所以使用数据增强对数据集进行扩充,介于自然界的动物是会从左到右或者从右到左所以我们将图片进行随机的左右翻转以派生出更多图片。

2.2 图片加噪点

我们选择图像噪声是图像在获取或传输过程中受到的随机信号的干扰,在图像上出现的一些随机的、离散的、孤立的像素点,这些点会干扰人眼对图像信息的分析。图像的噪声通常是比较复杂的,很多时候将其看成是多维随机过程,因而可以借助于随机过程描述噪声,利用随机样本取值函数在32*32*3(RGB)上随机产生浮点数加到测试集中。

2.3 残差网络

深度卷积神经网络在图像分类方面,引发了一系列突破。通过改变叠层的数量(深度),深度网络自然整合低/中/高水平的功能,终端到终端多层方式的分层器,和特征的“水平”都变得更加丰富[5]。所以人们普遍认为网络层数越多对于信息的收集也会越好、非线性表达能力也会增强,可以提取出更加深层次的信息。

但是随着网络变深(层数增多),反向传播求取梯度的时候,容易发生梯度消失或梯度爆炸的问题。如当每次求梯度时候的数值很接近零,当层数过多时候相乘的梯度将会趋近于0(梯度消失)、大于1(梯度爆炸)。同时深度网络也可能造成退化问题。

发现浅层网络在有时候会比深层网络的效果更好,所以通过在卷积层之间添加恒等连接(y=F(x,{Wi})+x)来保证深层网络不会损失数据,当浅层输出结果已经很好时残差部分权重可设为0。

如图1,通过将上述功能包装成深度残差块[6],通过调用残差块来卷积,可以有效解决深层网络退化问题。

图1 软阈值函数关系式

2.4 软阈值化

软阈值函数是大部分降噪方法的核心步骤。它将小于设定的正数阈值的特征设置为零。传统设置软阈值的方法需要业务领域的专家根据专业知识,通过不断地调试来选择一个合适的软阈值,这种方法不具备学习能力,更缺乏可扩展性。因此,将软阈值学习和深度残差网络结合,通过自动学习和调整,形成一种有效地消除噪声信息和构建高判别性特征的方式,其输入与输出的关系如图2所示。

图2 软阈值函数关系式

该阈值的意义在于使得不同的样本有了不同的阈值,而且阈值为一个不大的正数,如果与当前任务无关时,通过阈值化将它们设置为0,实现对无关信息的抑制。

2.5 深度残差收缩网络

SENet则是最为经典的注意力算法之一。如图3所示,SENet通过一个小型网络学习得到一组权值系数,用于各个特征通道的加权。子网络先对输入的所有特征求平均值,成为(N*1*1*16)维度;然后经过全局均值池化和平均等操作得到一个特征A,再另一条路径,将全局均值池化之后的特征图输入到一个小型的全连接网络中。这个全连接网络将输出进行归一化操作,使输出保持在0和1之间并获得一个数,记为a;将系数(scales)进行sigmoid激活,然后和A相乘得到阈值a*A,从而应用阈值。

图3 深度残差收缩模块

2.6 模型训练

循环次数过多会导致过拟合,在32步长下,通过调整循环次数,获得较好的结果,如表1所示。

表1 循环次数测试结果对比

通过资料查询,因为训练数据集数量较少,每次使用的图片数量越少对于每张图的利用效率越高,在300循环次数下,使用较短的步长可以更加充分地利用数据集,使得准确率提高。如表2所示。

表2 步长测试结果对比

3 实验结果

对于深度残差网络和深度残差收缩网络进行一个对比试验,测试识别准确率。深度残差网络和深度残差收缩网络进行对比试验,都在有噪音的情况下,两个准确率对比如图4。在有噪音情况下,深度残差收缩网络准确率高于深度残差网络。

图4 DRSN和DRN在有噪点下的准确率

深度残差收缩网络本身,在有无噪声的情况下进行的一个对比,如图5。在有无噪声的情况下,有噪音条件下深度残差收缩网络准确率在5000步时逼近无噪声条件下,可以更好地避免噪音对图像识别的影响。

图5 DRSN在有无噪点下的准确率

完成了网络的构建和训练之后,将训练好的模型保存下来,从视觉中国网上对野生动物进行搜索,下载了100张图片,对这100张图片进行预处理,首先取上1/5和下4/5的图片取中间,然后将其变成32*32大小的,再将其rbg通道变成32*32*3的,将标签做one-hot处理。处理完之后投入训练之后保存好的模型进行测试,结果较为理想,准确率对比如表3所示。

表3 无噪点测试准确率对比

表3是在测试数据没有添加噪点的情况下进行的测试,表4是加了噪点之后的测试数据,发现效果还是不错的。

表4 有噪点测试准确率对比

4 结束语

本文详细介绍了基于深度残差收缩网络的野生动物识别的相关研究。分别通过与深度残差网络对比实验,以及在是否存在噪点这一变量的情况下对比实验,得出结论相对于深度残差网络,深度残差收缩网络对于野生动物识别模型训练上能够有效地降低噪声对图像识别的影响。

猜你喜欢

图像识别残差野生动物
基于双向GRU与残差拟合的车辆跟驰建模
保护野生动物
基于残差学习的自适应无人机目标跟踪算法
保护野生动物
保护野生动物
保护野生动物
基于Resnet-50的猫狗图像识别
基于递归残差网络的图像超分辨率重建
高速公路图像识别技术应用探讨
图像识别在物联网上的应用