基于多轴注意力双通道神经网络模型的食草动物粪便分析方法

2023-08-16马光凯邓雯心杨飞飞姜广顺

野生动物学报 2023年3期

马光凯，邓雯心，杨飞飞，包衡，姜广顺

（1.东北林业大学机电工程学院，哈尔滨，150040；2.国家林业和草原局猫科动物研究中心，东北林业大学野生动物与自然保护地学院，哈尔滨，150040）

食性是动物生态学中一项重要的研究内容，对揭示动物与生境之间的相互关系具有重要意义［1-2］。国内外常见的食性研究方法有室内笼养饲喂法、胃分析法、粪便显微分析法、直接观察法和利用法等［3-5］。其中，粪便显微分析法作为一种无损手段，在野生食草动物的食性研究等领域得到广泛应用［6-7］。该方法是将采集到的粪便制作成样本玻片，由于植物角质碎片经动物消化后仍然残留表皮细胞的形态结构，可以通过观察显微视野下的植物角质碎片，根据细胞特征对照植物表皮细胞的显微装片鉴定植物种类，需要经过训练的人员手工分类，容易受到操作人员主观因素的影响，耗费大量人力物力。因此，使用自动的植物表皮细胞图像分类技术是十分关键并且必要的。

作为图像分类中的关键部分，传统的特征提取算法往往通过人工设计的特征工程来进行图像的特征提取，泛化能力和可移植性表现均较差。相比于传统人工的特征工程方法，深度学习方法不需要人工设计特征提取，而是通过卷积神经网络和自编码神经网络等网络模型从输入数据中自主学习图像特征，并且目前已在在显微分析领域展现了卓越的性能。Zhang 等［8］通过深度神经网络提取深度特征对宫颈细胞分类，同时采用迁移学习手段自动辅助宫颈筛查。Su 等［9］提出一种白细胞分类系统，通过将不同特征输入到 3 种类型的神经网络中对白细胞类型进行识别，最高识别准确率达99.11%。Meng 等［10］使用卷积神经网络开发了自动单细胞分类框架，以帮助筛选癌症和识别临床候选药物，对多种细胞的分类准确率超过99%。

目前，基于深度学习方法的显微分析方法大多应用于生物医药领域，如对动物单个细胞进行分类等。而食草动物粪便显微分析中获取的是植物角质碎片，由紧密排列的植物细胞组成，且同一碎片中细胞之间形态具有差异，因此细胞分类难度较大。为此，本研究采用局部-全局的训练策略［11］，设计了针对植物表皮细胞分类的基于多轴注意力的双通道网络模型。首先，利用移动倒置瓶颈卷积（mobile inverted bottleneck convolution，MBConv）模块作为条件位置编码［12］，提升模型泛化能力和可训练性的同时，减少模型参数和计算量，并提高识别效率。使用上述卷积模块和多轴注意力模块组合构建局部特征提取模块以及全局特征提取模块，两模块作为网络基本构件，分别提取图像中植物表皮细胞的局部和全局特征，同时降低直接应用全局自注意力导致的二次复杂度。最后，采用双通道结构以并行方式提取植物表皮细胞特征，将提取到的局部特征和全局特征融合，提高网络模型对食草动物粪便中植物种类识别任务的适配性，进而提升模型分类性能。

1 数据采集与制作

研究数据来源于2011—2015 年冬季，在汗马、沾河和漠河地区采集的驼鹿（Alces alces）粪便样本。首先在烘箱中烘烤粪便样本，使用研磨机研磨并筛选，将得到的碎片加入10%的次氯酸钠模拟消化并获取溶液中的悬浮物制作玻片；然后，将样本载玻片放置在10 × 40的显微镜视野中，对清晰的细胞壁轮廓进行拍摄。通过观察视野中出现的可辨认的植物表皮细胞，对照原始植物表皮细胞显微装片对植物种类进行鉴定，从中选取6 种出现次数较多的植物种类，共1 473张图片用于本研究，包括274张越橘属（Vaccinium）、247 张桦木属（Betula）、245 张柳属（Salix）、236 张桤木属（Alnus）、237 张杨属（Populus）和234 张榛属（Corylus）植物图片。为保证算法的识别性能，采用矩形框对每张原始图像中植物角质碎片位置进行标记并裁剪，对剪裁后的图像进行灰度处理。随后，按照8∶2 的比例将数据随机划分得到训练集和测试集，其中训练集包含1 182 张图片，测试集包含291 张图片，6 种植物表皮细胞的样例如图1所示。

图1 植物表皮细胞数据集样例Fig.1 Samples of plant epidermal cell dataset

2 基于多轴注意力的双通道分类网络

为实现对食草动物粪便中植物表皮细胞的分类，利用卷积模块和注意力机制构建基于多轴注意力的双通道分类网络。粪便中的植物角质碎片由排列紧密的表皮细胞构成，包含丰富的局部和全局的上下文信息，使用注意力机制可以提高模型获取图像中长距离依赖关系的能力。然而，注意力计算具有很高的计算复杂度，若单独对图像进行局部训练会比对整幅图像的效率更高。但是，仅对图像局部训练限制了模型学习局部图块间的像素所包含的信息的能力。为提高模型对植物表皮细胞图像全局信息的获取能力，在构建模型时使用2 个通道，即对局部图块进行特征提取的局部通道1，以及对图像的原始分辨率进行特征提取的全局通道2。基于多轴注意力的双通道分类网络的整体框架图（图2）。对于每个通道，遵循深度卷积神经网络的多阶段设计，每个通道包含4个阶段：stage 1，2，3，4。在每个阶段中，通过将MBConv 模块、块注意力和网格注意力组合，得到局部特征提取模块和全局特征提取模块。对模块重复堆叠构成一个阶段，每个阶段都具有不同的特征图分辨率，从而分别获取多个分辨率下的局部特征和全局特征。特征融合模块中，通过池化层和全连接层对 2 个通道提取到的特征进行融合，最终输出分类结果。

图2 基于多轴注意力的双通道分类模型框架Fig.2 Multi-axis transformer-based classification model of dual-channel

2.1 移动倒置瓶颈卷积

移动倒置瓶颈卷积模块最初在EfficientNets 方法［13］中被提出，该结构利用深度可分离卷积（depthwise separable convolution，DSC）［14］捕捉空间的相互作用，能轻量化模型的参数和计算量，因此，选用MBConv 作为构建网络的卷积模块。另外，在MBConv 中引入压缩与激励（squeeze-and-excitation，SE）模块［15］增强网络中基本卷积模块的表示能力。通过将该卷积模块与注意力相结合，可以进一步提高网络的泛化能力和可训练性［16］。MBConv 模块整体结构如图3所示。

图3 移动倒置瓶颈卷积结构Fig.3 The mobile inverted bottleneck convolution structure

在MBConv模块中，通过将普通的卷积拆分为深度卷积（depthwise convolution，DC）和1 × 1 的逐点卷积（pointwise convolution，PC），即深度可分离卷积，进行卷积运算的轻量化处理。

采用SE 模块自适应调整输出特征的权重，以获取不同通道特征中的关键信息。SE 模块首先通过全局平均池化（global average pooling，GAP）将输入特征序列包含的全局空间信息压缩为一个实数，以缓解卷积网络的低层中感受野尺寸较小，变换得到的输出不能很好地利用上下文信息的问题。随后采用激励（excitation）操作利用压缩获取到的全局信息，使用2 个全连接层（fully connected，FC）并在第 1个FC 使用ReLU激励函数，学习特征图各通道之间的非线性关系，同时限制模型的复杂度，最终通过sigmoid激活函数获得输出特征。最后，通过1×1 的卷积将SE 建模后特征图的通道数恢复到原有维度，并与MBConv模块的输入特征图相加，解决因深度增加导致的模型训练失败的问题。MBConv 模块计算过程可用公式（1）表示：

对于现代企业而言，固定资产投资行为管理信息化不仅仅是一个目标，更是一个过程，是一个不断完善、不断优化的过程，不仅仅是采用一种信息技术或一个软件系统，更重要的是管理观念的革新。一般而言，现代企业固定资产投资行为管理信息化的建设目标应包括这几个内容：

式中：x是MBConv 模块的输入特征图；Norm代表BatchNorm归一化；Conv是1×1 的逐点卷积，DConv是深度卷积，两卷积操作后都执行BatchNorm归一化和GeLU激活函数；SE是压缩和激励层；Proj是用于向下投影特征通道的1×1卷积。

2.2 多轴注意力机制

由于某些种类的植物细胞差异较小，且植物角质碎片中同一种类不同部位的细胞形态差异较大，因此对植物表皮细胞进行分类的难度较大。为解决该问题，引入多轴注意力机制［17］将注意力分解为稀疏的块注意力和网格注意力，与卷积模块分别组成局部特征提取模块及全局特征提取模块，对植物表皮细胞的局部和全局特征进行捕获，以获取更多的有效信息，提高识别精度。

通常情况下，自注意力作为卷积的补充，通过计算不同位置上的特征相似度，可弥补传统的卷积神经网络对长距离依赖关系捕获能力的不足［18］。然而，这种对相似度的计算具有很高的时间复杂度，计算效率较低。如图4A 所示，为降低复杂度，轴向注意力机制［19-20］通过将二维的自注意力分为2 个部分，先在高度轴上进行自注意力计算，随后在宽度轴上进行自注意力计算，从而减少时间复杂度至)。不同于轴向注意力，本研究使用的多轴注意力方法通过分解空间轴，将注意力分解为块注意力和网格注意力，如图4B 所示。两者同时在高度轴和宽度轴上通过块注意力和网格注意力对特征图进行计算，将直接在空间上应用注意力算子产生的二次复杂度降低至线性复杂度O（N）。

块注意力将输入特征X∈ℝ(H×W×C)划分到大小为（H/P×W/P，P×P，C）的张量中，也就是将特征图分割为互不重叠的窗口，每个窗口的大小为P×P。块注意力模块通过在P×P维度上进行自注意力计算，将注意力限制在小窗口内，可以在降低自注意力计算复杂度的同时，获取到窗口内的局部信息。块注意力划分过程如公式（2）所示：

网格注意力则通过使用G×G均匀分布的网格对特征图划分，得到大小为（G/G，H/G×W/G，C）的张量，每个网格的大小为H/G×H/G。在分解的网格上进行自注意力计算，从而获取全局信息。网格注意力划分过程如公式（3）所示：

块注意力模块和网格注意力模块结构如图5 所示，2 个模块均遵循基于Transformer［21-22］模型的经典设计，使用LayerNorm［23］归一化层和前馈网络（feedforward networks，FFNs）［24］，通过跳跃连接传递信息，将块注意力和网格注意力的计算结果和输出层相加，解决因深度增加导致的性能下降。

图5 块注意力模块（A）和网格注意力模块（B）结构Fig.5 Structures of block attention module（A）and grid attention module（B）

式中：Q，K，V∈ℝH×W×C，Q是查询矩阵，K是键矩阵，V是值矩阵；d是Q和K的维度；B是相对位置偏置，B∈ℝH2×W2。使用相对位置自注意力的块注意力计算过程如式（5）和式（6）所示：

与块注意力类似，网格注意力计算过程如式（7）和式（8）所示：

式中：输入特征x∈ℝH×W×C；Unblock(·)和Ungrid(·)分别为块划分和网格划分的逆操作；RelAttention为相对位置自注意力计算；LN代表层归一化；MLP是由2个线性层组成的多层感知器。

使用块注意力和网格注意力与MBConv 分别构成局部特征提取模块和全局特征提取模块，从而以线性时间复杂度在两通道中进行局部和全局信息提取，最终获得植物表皮细胞在不同分辨率下的有效特征。

2.3 特征融合模块

首先将通道1 和通道2 获取到的局部特征和全局特征拼接为一维张量，从而对两通道的特征进行融合。对于融合的特征，经过池化层、全连接层和softmax函数输出最终分类结果，如式（9）所示：

式中：yi是全连接层中对应第i类的输出值；C是植物总类别个数；softmax(yi)是样本属于第i类的概率值。

3 结果

3.1 试验设置

试验平台的硬件配置包括Inter 中央处理器、NVIDIA GeForce RTX 3090 显卡。试验中所有代码均使用Python 编写，并在深度学习PyTorch 框架上运行。对于输入图像，下采样使用2 个3×3 的卷积层，每一个通道包含4个阶段。通道1的基础模块由1个MBConv 模块和1 个块注意力模块构成；通道2 的基础模块由1个MBConv模块和1个网格注意力模块构成。试验中训练设置200 个周期，batchsize 设置为128，采用AdamW［27］算法对模型优化，初始学习率设为0.001。

3.2 评价指标

对于本研究中的植物表皮细胞分类问题，采用准确率（accuracy）、精确率（precision）、召回率（recall）和F1 分数（F1-Score）4 种评价指标对模型分类效果进行评价。其中，准确率为预测正确的样本数在所有测试样本中所占的比例；精确率指预测正确样本在预测为该类样本中所占的比例；召回率指预测正确样本在所有该类样本中所占的比例；F1 分数同时衡量精确率和召回率，是对二者进行平均的一个结果。准确率、精确率、召回率和F1 分数的公式分别如式（10）～式（13）所示：

式中：TP为预测正确时，真实结果为正样本的样本数量；TN为预测正确时，真实结果为负样本的样本数量；FP为预测错误时，真实结果为负样本的样本数量；FN为预测错误时，真实结果为正样本的样本数量。

3.3 性能评价

划分比例和输入图像尺寸共同决定局部注意力和全局注意力窗口和网格的大小，如以1/32 的比例对224像素× 224 像素的图像进行窗口划分，窗口大小为7 × 7，网格划分同理。为验证划分比例对网络分类效果产生的影响，将2种尺寸（224像素× 224像素和256像素× 256 像素）的输入图像划分为不同大小的窗口和网格（表1）。由表1可知，具有较大尺寸的输入图像具有更高的准确率，且当2 个通道都以1/32 的比例对图像进行划分时，在2 种尺寸的输入图像上准确率均达到最高，分别为83.33% 和86.46%。同时，对于使用网格注意力的通道2，划分比例对其影响较大。对于相同尺寸的输入图像，当通道1 的窗口划分比例不变时，随着网格划分比例的增大，准确率在2 种尺寸的图像上分别得到2.43%和3.47%的提升。

表1 不同窗口和网格划分比例的试验结果Tab.1 Experimental results of different split ratios of window and grid

通过混淆矩阵对各类的分类效果进行可视化，对角线的数值为该种类预测的召回率（图6）。由图6 可知，桤木属和桦木属之间混淆程度最高，19%的桤木属被预测为桦木属，其次，9%的杨属和榛属被预测为柳属。这是由于3 种植物表皮细胞之间形态差异较小，造成不同种类之间混淆程度较高。基于混淆矩阵，计算6 属植物的评价指标（表2），桦木属的召回率达93.5%，除桤木属外的5 种类别的F1 分数均高于80%，具有较好的识别效果。

表2 基于混淆矩阵6属植物的评价指标Tab.2 Evaluation indicators for 6 genus plants based on confusion matrix

图6 分类结果混淆矩阵Fig.6 Confusion matrix based on the classification results

表3为植物表皮细胞不同分类方法的性能对比。由表3可见，本研究方法在不同的输入图像尺寸上均获得了最高的准确率，分别为83.33%和86.46%；其次是同样结合了卷积神经网络和注意力机制的CoAtNet-3，准确率分别达到79.51%及82.30%；而由MBConv 作为基本模块构建的EfficientNet-b2的准确率仅为77.18%和74.49%。这是由于一般的神经网络模型对本数据集中植物表皮细胞图像特征提取不足，对于形态相近的植物种类产生大量误分类，导致总体分类准确率不高。本研究中的模型通过结合高效卷积模块和多轴注意力提取到大量有效特征，进而表现出最佳的分类性能。

表3 不同分类方法表现的比较Tab.3 Performance comparison of different methods

4 讨论

在对食草动物进行食性分析时，通常使用粪便显微分析法，通过人工对比粪便样本与植物表皮细胞样本，进而确定动物的食物种类。由于动物消化过程和化学制片都会对角质层造成影响，并且有些植物的表皮细胞差异小，这些因素使得人工辨认难度较大，从而对食性分析的结果产生较大影响［28］。因此，使用深度学习辅助进行粪便显微分析，在食草动物食性研究中具有较大的应用潜力。本研究构建了6 个种类的粪便残留植物表皮细胞数据集，初步探索了使用神经网络对食草动物粪便中的植物表皮细胞进行分类的方法。

从最终分类结果看，在细胞形态差异较小的种类之间仍存在较大程度的混淆，如桤木属和桦木属、杨属和榛属，为此，模型性能需要进一步提升。目前，深度学习在生物医学领域的细胞分类上已有大量研究［29-30］，但植物表皮细胞和动物细胞不同，使用单个植物细胞分类难度较大，需要先对排列紧密的表皮细胞精准地分割，很难直接借鉴现有的动物细胞分类方法。不过，植物角质碎片中的各个细胞形态虽不完全相同但整体上具有共通性，如何在提取到单个表皮细胞特征的同时，充分利用输入图像中包含的所有细胞特征是提高分类性能的一个关键问题。本研究构建的模型通过提取局部的细胞特征并与全局特征融合，提高了整体分类准确率，但尚未实现全类别的高精度识别。深度学习方法对训练样本的数量具有很大的依赖性。而在粪便显微分析法中，样本制作工序多，标注成本高，获取大量有标签数据也是一大难以克服的难题。

为此，未来可以着重研究基于小样本的分类方法，或利用大量没有标注的植物表皮细胞图像进行半监督学习。该学习方法首先通过无标签表皮细胞图像对模型进行自监督预训练，然后使用少量的有标签表皮细胞图像进行有监督分类训练，以增强下游分类任务中模型性能。同时需提升分类模型对局部特征的提取能力，进一步提高模型对植物表皮细胞的识别效果。

5 结论

本研究提出了一种基于多轴注意力的双通道神经网络模型，对食草动物粪便显微图像中的植物表皮细胞进行分类。该模型引入多轴注意力机制与卷积模块结合构建局部特征提取模块和全局特征提取模块，从而降低算法的时间复杂度，提升模型对排列紧密的植物表皮细胞的特征提取能力；使用双通道结构，并行地进行局部和全局的特征提取，高效利用了图像包含的特征信息。同时，使用移动倒置瓶颈卷积模块轻量化网络的参数和计算量，增强模型拓展性的同时提升了模型的识别性能。试验结果表明，与时下主流的深度学习分类模型相比，本研究提出的模型准确率达86.46%，有效提高了对食草动物粪便中植物表皮细胞的分类效果。

致谢：特别鸣谢窦红亮、刘辉、马英杰、李钊越、丁美琦和宫爽等在东北林业大学野生动物与自然保护地学院攻读研究生期间为本研究的野外调查和室内试验的辛勤付出！