基于多特征融合结合深度学习模型的药材切片鉴别＊

2024-04-16周丽媛高红梅赵启军高定国

世界科学技术-中医药现代化 2024年1期

周丽媛，高红梅，赵启军，3，高定国＊＊

（1.西藏大学信息科学技术学院拉萨 850000；2.藏文信息技术创新人才培养示范基地拉萨 850000；3.四川大学计算机学院成都 610065）

藏医药是人类医药的宝贵遗产，生活在雪域高原的藏族人民在与自然和各种疾病斗争中积累了丰富的经验，通过世世代代不断传承、创新与发展，逐步形成了现代的独具民族特色的藏医药文化体系[1]。藏药材切片种类繁多，早期的经验鉴别作为其主要的分辨方法，在过去实践中已被证明能够有效地分辨不同切片，但传统人工识别结果的准确性深度依赖于技术人员的累积经验很容易出错，不利于高效和大批量识别与鉴定，很难适应信息化环境下的鉴别需求[2]。随着深度学习技术发展，深度学习方法已经在农业、工业、医学等多个领域广泛应用[3]。通过计算机作为辅助手段对藏药材切片进行识别鉴定，是当前实现藏药材切片快速鉴别的有效方法。

吴冲等[4]使用YOLO 算法实现中药饮片的定位与检出，使用ResNet50 的平均识别准确度达到97%。王健庆等[5]使用GoogLeNet对100种常见中药饮片进行训练与识别，平均识别准确率大于92%。陈仕妍等[6]利用中药饮片图像中颜色的种类和分布特征，构建与尺度和旋转无关的颜色匹配模板，对20种中药饮片进行识别，均可获得较好的识别分类结果。刘加峰等[7]使用SSD模型建立中药饮片图像检测识别系统，该系统对于3种中药饮片（枸杞、甘草、陈皮）进行识别验证，平均识别率高于80%。张谊等[8]使用ShuffleNet V2、ResNet50、MobileNet V2 等模型对12 种中药饮片进行识别，其中ShuffleNet V2 表现最佳，准确率为91.4%。孙鑫等[9]使用VGG16网络对自然场景下的桂枝、辛夷、菊花等50种中药饮片图像进行识别，平均识别准确率达到70%。陈雁等[10]使用对抗神经网络（GAN）对复杂背景下的60种中药饮片进行甄别，平均甄别精准度最高达到85.9%。周丽媛等[11]使用带有注意力机制的AlexNet网络对复杂背景下的藏药材切片进行识别，识别准确率达到86%。

现有的饮片自动识别方法为藏药材切片图像识别提供了重要参考，但是大部分都是针对理想环境（单一背景上多个中药饮片散布排列）下拍摄的单个切片的图像，导致在复杂背景（实际生活中的中药饮片状态，背景环境复杂、多个中药饮片堆积）下拍摄的图像上的识别效果会显著下降。理想环境与复杂背景下拍摄的藏药切片图像对比如图1所示。本文提出多特征融合结合深度学习方法的识别模型，在收集的32种藏药材切片图像数据集上识别准确率达到91.68%，为中药、藏药切片的鉴别提供了新的方法和手段。

图1 理想环境与复杂背景下拍摄的藏药切片图像对比图

1 材料和设备

1.1 实验材料

通过查阅《中国藏药材大全》本文选定了红景天、藏天麻、藏菖蒲等32 种植物类藏药材炮制后的根、茎切片作为研究对象，药材名称与图像数量如表1所示。本文通过到拉萨街头特产店实地拍摄以及使用python[12]在必应搜索引擎、各大藏药材网站获取每种藏药材切片的图片。收集的藏药材切片图像经过专业人员进行了辨认以确保原始数据集中的图片都能正确对应相应的藏药材，最后，通过图像处理软件将图像大小统一调整为512×512像素。

表1 本文收集的复杂背景藏药材切片图像数据集信息

1.2 实验设备

本文方法进行实验所用到的硬件部分包括iPhone11 相机（用于实地图像拍摄）和GPU 工作站（包含InterRCoreTMi9-12900K 型中央处理器（CPU）和NVIDIA GeForce GTX 3090型显卡，32G运行内存，1TB固态硬盘和8TB 容量的硬盘）。通过获取藏药材切片图像构建数据集，对藏药材切片图像处理，最终获得藏药材切片识别结果。

2 方法

2.1 数据集设置

本文收集了3610 张藏药材切片图像，共有32 种。图1展示了部分藏药材切片图像。收集的数据集图像具有药材切片分辨特征相似度较高、同一种药材切片形状不一、图像低质等问题。为验证本文多特征融合结合深度学习模型的识别效果，单独挑选480 张图像建立了藏药材切片图像复杂测试集。判别特征高度相似、图像环境颜色与切片切面颜色相近、切片大量堆叠等特点。图2展示了部分复杂与简单测试集的部分图像。图像数据集图像按8∶2的比例分为训练集和测试集（简单测试集）。

图2 简单测试集与复杂测试集示例图像

2.2 图像特征提取

藏药材分布广泛、种类繁多，藏药材的生长地区、气候的差异、加工方法的不同会导致藏材切片的颜色、形状、纹理等特征有所不同，这些差异为藏药材切片图像分类识别提供了重要的依据。

2.2.1 颜色特征提取

图像的颜色特征对大小、方向较不敏感且具有明显、直观、易于描述的物理特性[13]。颜色特征作为藏药材切片种类识别的重要的要素，本文使用RGB（Red Green Blue）颜色特征方法对图像的颜色特征进行提取。在RGB 编码中，每种颜色的强度分别用红、绿、蓝三个变量来表示。编码后将RGB颜色空间转换为HSI颜色空间进行图像特征向量提取，得到颜色特征向量并进行归一化处理。与RGB 模型相比，HSI 模型加入了饱和度与亮度、两个特征参量，假设RGB 颜色空间中颜色分量的值分别为（R,G,B），（R,G,B）∈[0,1]，从RGB 颜色空间转换到HSI 颜色空间的计算公式如下[14]：

2.2.2 改进的HOG算法进行形状特征提取

HOG（Histogram of oriented gradient）算法[15]广泛应用于图像的形状特征提取。本文提出一种改进的HOG 方法进行形状特征提取。具体地，本文将图像进行分块处理，使提取的特征向量包含更多的信息。将图像分为3×3 块，让相邻的分块区域有部分重叠。通过步长设置使重叠部分为每分块的一半。形状特征提取的具体方法为首先对图像进行归一化处理，然后对彩色图像进行Gamma压缩，降低阴影和光照变化的影响。再进行梯度计算，对归一化的彩色图像进行梯度计算，得到水平和垂直方向梯度分量Gx、Gy，并计算当前像素梯度幅值G，计算公式如下[16]：

提取像素点的梯度值后对分块后的9个小块分别计算梯度直方图并进行向量归一化，将归一化后的9个分块特征向量合成一个改进的HOG特征向量。

2.2.3 LBP算法提取纹理特征

局部二值模式（Local binary patterns，LBP）最早由Ojala 等[17]提出，之后广泛应用于纹理特征提取任务。LBP算法能较为理想地提取图像中大量堆叠的切片的纹理特征。本文使用LBP 算法对图像进行纹理特征分块提取，充分提取利用图像中切片切面的局部纹理特征。文中所用LBP算法公式[17]如下：

其中，gc为像素c 在局部邻域中心点的灰度值；gp(p =0, 1, …,p- 1)表示表示距离中心点c 为R 的领域内P个采样像素的灰度值；s(gp-gc)为邻域中的每个周围像素分配的二项式权重2p，用于将局部邻域的对比度信息转换为LBP特征值。

2.3 图像多特征融合

藏药材切片种类繁多且相似度较高，使用单一的特征只能表达图像某一特性，无法兼顾颜色、形状和纹理多个特征。因此进行多特征融合，会对图像的特征描述更加全面[18]。本文针对RGB、HOG 和LBP 算法各自的特点和优势，根据藏药材切片识别对切片颜色、边缘轮廓和局部纹理信息的要求，通过融合RGB、HOG 和LBP 特征的方法提取藏药材切片图像特征，并结合深度学习模型进行图像识别，从而实现藏药材切片图像的自动识别。特征融合采用对不同特征赋不同权重的方法[19]，融合特征的整体权重为1，通过实验得出每个特征的最优权重，多特征融合公式如下：

其中，F 代表融合特征，FRGB代表颜色特征，FIHOG代表形状特征，FLBP代表纹理特征，a,b,c分别代表每个特征的权重系数。

2.4 注意力机制

注意力机制（Attention mechanism）是一种模仿人类注意力机制的计算模型，被广泛应用于深度学习中。其作用是为模型赋予对输入数据的不同重要性的关注度，从而提升模型对于输入信息的处理能力[20]。通过引入注意力机制，模型可以更加灵活地处理不同位置或特征之间的关系，提高模型的表现能力和解释性[21]。本文构建的藏药材切片识别模型在神经网络部分应用了注意力机制聚焦藏药材切片的关键分辨特征区域获得更为精准的判别特征，进而提升模型的切片图像识别准确率。

2.5 AlexNet

AlexNet 由Alex Krizhevsky 等人在2012 年提出[21]。AlexNet在图像分类任务中引入了许多创新之处，包括使用了更深的网络层数、大量的卷积层和池化层、非线性激活函数ReLU 等[22]。本文模型构建中神经网络采用AlexNet网络。AlexNet在图像分类任务中引入了许多创新之处[23]，较深的网络结构使其能够更好地捕捉图像的高级特征，提高图像分类性能；使用大尺寸滤波器有助于捕捉图像中更全局和语义上更丰富的特征；采用ReLU 作为激活函数，具有线性和非线性特性，计算更加高效。

2.6 多特征融合结合深度学习模型

为使识别模型摒弃藏药材切片图像中的器具、人手等无效信息关注切片的特征信息，本文提出首先用多特征融合提取藏药材切片图像的底层特征，然后将其作为深度神经网络的输入，进一步学习深度特征表示。本文提出模型的骨干网络为 AlexNet，并在网络中使用注意力机制，增加注意力机制后模型会根据输入数据的不同特征，动态地分配权重，以决定对不同位置或特征的关注程度。模型可以自动地学习并集中注意力于对当前任务更为重要的信息部分。通过将注意力权重与输入数据的特征进行加权求和，可以产生新的表示或者加权的特征向量，用于后续的模型处理。本文提出的多特征融合结合深度学习模型结构如图3所示。首先将原始图像分别进行颜色特征、形状特征、纹理特征提取，获得图像的底层特征后将其进行特征融合。随后将融合特征作为神经网络的输入，通过注意力机制聚焦最具判别性特征输出识别结果。

2.7 实验设置

实验在自建的图像数据集上进行。在实验过程中学习率为0.001，权重衰减系数为0.0005，批尺寸为24，网络迭代次数（Epoch）为250，使用交叉熵损失作为损失函数。在将图像输入具有注意力机制的AlexNet网络中训练时，网络通过自身学习确定注意力机制的权值。将原始图像分别进行单一特征提取后输入融入注意力机制的AlexNet 网络之后再将图像进行多特征融合后输入融入注意力机制的AlexNet 网络。最后在复杂测试集上分别用AlexNet 网络、融入注意力机制的AlexNet 网络、多特征融合结合AlexNet网络进行识别，获得不同网络的识别结果。

3 实验结果

3.1 消融实验

实验结果如图4所示，总体看来，增加注意力机制可以提升识别模型的识别准确率。使用本文多特征融合方法的准确率最高，为91.68%。对图像进行特征提取后识别准确率高于单一使用深度学习网络。单一使用AlexNet 网络的图像识别准确率为72.36%，而使用注意力机制后识别结果有所提升，为78.12%。对图像进行单一的颜色特征提取后使用注意力机制深度学习网络模型识别准确率为78.93%，与单一使用注意力机制后的深度学习网络识别准确率提升不大。通过分析，由于部分藏药材切片的颜色相似度较高，导致使用单一的颜色特征准确率提升不大。而使用单一的形状或纹理特征纹理优于使用增加注意力机制后网络的进行识别。

图4 简单测试集识别准确率

表2展示了不同数据集上不同方法的图像识别准确率，与在简单测试集的实验结果相比，多特征融合结合深度学习网络模型对目标图像的识别性能更加稳定，识别准确率仅下降1%左右。实验结果证明多特征融合结合深度学习模型可以更好地提取复杂环境中目标图像的判别特征。

表2 不同数据集与方法实验结果

3.2 特征权重

通过实验对比不同权重下藏药材切片图像的识别准确率，获得特征融合的最优特征权重，部分不同权重分配下的图像识别准确率如表3所示。

表3 不同权重分配与图像识别准确率

由表3可以看出，当a=0.2、b=0.35、c=0.45时，复杂背景藏药材切片图像识别准确率最高。RGB、IHOG和LBP 提取的特征单独使用仅能体现图像单一特征，而3个特征进行不同的权重组合能够更加全面地描述图像特征。其中，当RGB 特征权重值为0.2，IHOG 特征权重值为0.35，LBP 特征权重值为0.45 时为最优权重，可以得出藏药材切片图像中纹理特征与形状特征更能表达图像的内容信息。

3.3 原始HOG与改进HOG方法对比

在最优权重下分别使用原始HOG 与改进HOG（IHOG）方法进行实验，实验结果在表2 中可以找到所示。由实验结果可以看出，改进HOG 与原始HOG 方法相比，改进HOG方法提取形状特征与其他特征融合之后，复杂背景藏药材切片图像识别准确率提高了2.85%。

3.4 对比实验

在自建数据集上将本文所提模型与现有药材识别方法进行对比实验（见表2）。张谊等[8]使用的ShuffleNet V2、MobileNet V2、ResNet50 模型在本文复杂背景数据集上表现不佳，识别准确率分别为72.12%、68.64%、70.23%，下降较大；与孙鑫等[9]复杂背景中药饮片研究所用的VGG16模型相比，在本文数据集上本文所提方法识别准确率提高了21.98%；陈雁等[10]使用GAN网络对本文数据集图像识别的为72.15%。本文所提模型的识别准确率为91.68%，为最优。对比实验结果证明，本文提出的多特征融合结合深度学习方法能有效提升模型在复杂环境图像识别中的可应用性。

3.5 F_AlexNet_Att 在其他中药饮片自动鉴别上的应用

为了进一步验证本文方法的有效性和扩展应用范围，本文收集了川贝母、山楂、半夏、山药、白术、乌梅、檀香、灵芝、牛蒡子、桑白皮、连翘、槟榔、石斛、桔梗、丹参、盐杜仲、白鼓、金银花、艾叶、茯苓20 种常见中药饮片图像使用本文方法进行测试实验，所收集的图像均经过专业人员鉴定，确保了每种药材图像的准确性。测试中每种中药饮片选取100张复杂背景图像进行测试，识别结果如图5所示。由实验结果可知，该方法能对川贝母、山楂及半夏等常见中药饮片进行准确鉴别，说明该方法对其他中药材鉴定也同样具有可行性，应用范围较广泛。

图5 F_AlexNet_At对中药饮片识别结果

4 讨论

传统依靠人工的中药饮片的鉴别基于饮片形状、大小、颜色、表面、断面、质地、气、味等方面进行，准确率高却费时费力。神经网络所具有的强大学习能力能够对一定条件下的中药饮片图像达到极高的识别效果。但是对藏药材切片图像来说，随着切片种类增多，图像背景复杂度增加等原因，会对藏药材切片图像的识别准确率有所影响。本文提出的多特征融合结合深度学习模型具有广泛的应用前景，针对川贝母、山楂等视觉特征相差较大的常见中药饮片识别准确率达到98%，对于视觉特征差别不大的藏药材切片图像识别准确率达到91.38%。由于不同种类切片高度相似的判别特征容易引起识别错误，后续研究方向主要关于视觉特征高度相似的藏药材切片和中药饮片进行识别的研究工作，期望获得更高的识别准确率。