机器学习在图像分析与识别中的应用研究

2024-01-27陈超

中国新技术新产品 2023年24期

陈超

（广州铁路职业技术学院，广东广州 511300）

智慧轨道交通已经成为现代城市交通管理的常见手段，图像分析与识别在智慧轨道交通系统中至关重要。然而，图像数据具有多样性及交通场景的复杂性，传统的图像分析与识别方法存在效率低、准确率低等问题。而机器学习是一种强大、高效的方法与工具，为图像分析与识别提供了新的思路与方向，可以通过深入处理与分析提取出海量交通场景图像数据中的高价值信息，进行道路标志检测与识别、行人检测与跟踪以及交通流量统计等。这不仅能显著提高交通安全性与服务质量，还能有效改善城市交通管理并促进智慧轨道交通系统的发展。

1 案例背景

在智慧轨道交通背景下，机器学习在图像分析与识别的具体应用之一是道路标志检测与识别。某市智慧轨道交通系统需要精准检测与识别道路标志，以实现道路状况的实时监测，从而为驾驶辅助与交通管理决策提供准确的数据依据。该文为实现准确、高效的道路标志检测与识别，使用基于U-Net网络架构与GCDA模块的道路标志检测与识别算法，为某市智慧轨道交通系统提供一种可行、有效的解决方案，同时将宏平均指标F1与Top1准确性作为评估模型性能的指标，借助GCDA模块来提高道路标志检测与识别的鲁棒性与准确性[1]。将该道路标志检测与识别算法应用于该市智慧轨道交通系统中，该市智慧轨道交通系统可以及时、准确地检测与识别道路标志，并实时监测道路状况，如危险警示标志、止/停车标志及限速标志，同时还提供了对应的驾驶辅助功能，包括但不限于危险预警、限速提醒等。另外，道路标志检测与识别还能够有效支持交通管理决策，帮助相关部门与管理人员更好地完成违规检测、交通流量监控等工作。

2 机器学习在图像分析与识别中的应用

2.1 机器学习算法及模型

2.1.1 监督学习算法

监督学习算法的基本原理是使用给定的输入样本及对应标签来训练模型并预测未知数据的标签，其在图像分析与识别的具体应用中可完成图像分类与目标检测等任务。监督学习算法较多，包括但不限于随机森林、决策树及支持向量机等。这些算法拥有不同特点与适用范围，均能通过学习样本与标签间的关系来构建有效的分类与监测模型。

2.1.2 无监督学习算法

无监督学习算法旨在发现未标记的数据中隐藏的结构与模式，其在图像分析与识别的具体应用中可完成图像分割与特征提取任务。与监督学习算法相比，无监督学习算法不需要事先标注标签，可以通过学习数据内在结构与本身分布来自动寻找与发现隐藏的模式和规律。无监督学习算法也有很多种，如主成分分析、聚类算法等，这些算法通过聚类或降维处理图像数据，将相似的特征或像素归到一起，从而达到图像分割和特征提取的目的。

2.1.3 深度学习算法

深度学习算法使用多层神经网络来完成图像处理和特征提取，其在图像分析与识别的具体应用中可完成目标检测、图像分类与生成等任务。该文采用的是深度卷积神经网络（CNN）。作为一种特殊类型的神经网络，CNN由全连接层、池化层以及卷积层等部分组成，并通过权值共享与局部感知视野的方式有效捕捉图像中的空间特征。由于其具有较强的特征提取能力，因此被广泛应用于图像分类与目标检测等领域[2]。

2.2 数据收集与预处理

2.2.1 数据收集与数据集

为训练与客观评估道路标志检测与识别模型，需要采集含有道路标志的图像数据，常见的采集方式包括现场拍摄，公共数据集获取及合成数据集生成等，常用的道路标志公共数据集有BelgiumTS、LISA Traffic Sign Dataset等。该文选用BelgiumTS数据集。该数据集包括多种颜色、类型及形状的道路标志，可覆盖各种实际场景。数据集中的每个图像配备对应的标签，如类别、位置等。该数据集包括训练集与测试集，以便进行模型训练与客观评估[3]。

2.2.2 数据预处理

检测与识别道路标志前需要预处理采集的图像数据，以提高模型的推理效果。主要步骤包括图像去噪、尺寸调整、图像增强及数据增强等。其中，图像去噪是指使用去噪算法或滤波器来去除图像数据中的干扰与噪声；尺寸调整是指将图像调整成统一固定的尺寸，以符合模型输入的要求，通常借助插值方法来缩放或裁剪图片；图像增强是指使用亮度调整、直方图均衡化及增加对比度等方法来增强图像特征，以此提高模型检测和识别道路标志的能力；数据增强是指借助缩放、平移、翻转及旋转等操作，得到更多训练样本，以增加数据集的数量与多样性。数据预处理旨在通过统一图像尺寸、减少噪声及增强图像特征来提高模型的泛化能力与鲁棒性。

2.3 图像分析与识别

2.3.1 图像分类

该文采用分组卷积与双注意力机制进行图像分类。其中，分组卷积负责将输入特征图划分为若干个组并完成卷积操作，然后将各组输出特征图进行拼接并输出，以此增加特征的多样性、减少计算量并提高网络对输入图像的感知范围，还有助于降低参数量与存储量，使神经网络在资源有限的情况下也能进行高效运算[4]。分组卷积原理示意图如图1所示。

图1 分组卷积示意图

注意力机制在深度学习中有应用广泛。该文采用2种注意力机制，即空间注意力与通道注意力来处理输入数据的空间维度与通道维度，以减少冗余信息并提取重要特征。为更好地融合这2种机制，该文引入卷积块注意力模块（CBAM），可以有选择地关注不同空间和通道上的特征，从而更好地完成目标区分。

卷积块注意力模块实现思路与步骤如下：1）定义空间注意力模块，使用卷积层来处理输入特征图，得到相应空间注意力图。2）定义通道注意力模块，利用全局平均池化层及全连接层来处理输入特征图的通道维度，从而得到相应通道注意力图。3）将通道注意力图与空间注意力图相乘后得到加权特征图，再将加权后的特征图作为卷积块注意力模块的输出。另外，实现卷积块注意力模块的过程中，可以结合实际需求进行优化与调整，并结合数据集的特点与具体任务的复杂程度来选用合适的注意力机制、激活函数以及卷积层，与此同时还可以调整模块的宽度、深度并添加跳跃连接，进一步提升卷积块注意力模块的效果与性能。在图像分析与识别中引入卷积块注意力模块，能够更好地处理图像通道信息与空间信息，从而显著提高模型的准确性与性能。应用该注意力机制有助于高效提取关键特征，显著减少冗余特征，并增强算法对目标区域的感知能力[5]。

此外，有效结合双重注意力融合网络（DANet），可同时关注不同空间和通道上的特征，进一步提高模型的性能。该文将GCDA模块应用于ResNet50的图像分类算法模块中，显著提高网络在图像特征方面的敏感度，大幅提升图像分类的准确性。GCDA模块的实现思路如下。1）全局上、下文感知。利用自适应平均池化操作，将相应输入特征图转换成全局特征向量，从而捕捉全局上、下文信息。2）双重注意力机制。使用全连接层、Sigmoid激活函数来处理全局特征，计算出全局上、下文感知权重。该权重可以选择性地关注不同通道上的特征，从而提升网络对重要特征的敏感度。3）特征加权。将输入特征图与全局上、下文感知权重相乘，获得加权后的特征图，如此能使网络聚焦于感知权重较大的特征，以此有效提高特征的表达能力。

2.3.2 目标检测

目标检测是指准确定位和识别图像数据中感兴趣的目标物体。传统目标检测方法通常使用手工设计的特征和分类器，随着深度学习的发展，基于CNN的目标检测方法取得了较大进展。其中，最具代表性的方法有Fast R-CNN及R-CNN等。这些方法通过生成候选框，并对其进行分类与位置校正。具体而言，上述方法利用卷积神经网络（CNN）来提取图像特征，并结合候选框的位置信息确定每个候选框中的物体类别与位置，从而进行高准确率的目标检测。

2.3.3 图像分割

图像分割是将图像数据划分为若干具有语义信息的像素或区域的过程。传统图像分割方法需要手动选择特征与参数，效果会受复杂度与图像质量的限制。但随着深度学习的发展，基于深度学习的图像分割方法有了较大突破。该文选用的是U-Net。U-Net基于编码－解码结构，网络结构形状与字母“U”相似，使用编码器提取图像特征，再使用解码器完成上采样并生成分割结果。

2.3.4 语义分析

实际语义分包括涉及数据准备、模型编译、训练、评估、预测、后续处理以及分割结果评估等一系列步骤。首先，清洗和标注原始数据，得到相应的真实标签图像，再将数据集划分成训练与验证集。其次，定义损失函数和优化器，同时编译U-Net模型。再次，用训练数据集训练模型，使用验证数据集来客观评估得到的模型，同时使用测试数据集完成模型预测，并得到相应的分割图像。从次，对预测结果进行平滑边缘、去噪等后续处理，得到最终的分割结果。最后，客观评估分割结果，使用像素准确率（PA）、均类别像素准确率（MPA）和平均交并比（MIU）等指标来衡量模型的准确性与性能。

该文使用U-Net网络来完成图像语义分割任务，利用一系列的卷积与池化操作来完成特征提取与上采样，得到像素级别的分割结果。在U-Net网络中，编码器部分用于提取图像数据中的低级特征信息，经过多次卷积与池化操作，持续缩小图像尺寸。解码器部分则利用反卷积与上采样层，将提取的特征信息恢复至原始图像尺寸，并形成像素级别的分割结果。为充分使用不同层级的特征信息，将跳跃连接引入U-Net网络中，将编码器与解码器中相应层级的特征进行连接，以使神经网络可以同时使用低级与高级特征，从而提高分割准确性[6]。U-Net网络结构简化图如图2所示。

图2 U-Net网络结构简化图

该文使用的U-Net网络共5层，包括4次下采样与4次上采样操作，输入与输出图像为512×512像素。每一次下采样经过卷积和池化操作后，图像尺寸会减至一半，而每一次上采样经过反卷积与上采样层，图像尺寸会扩大2倍。与此同时，在下采样过程中增加2次4×4的最大池化层，分别处于第1层～第3层与第3层～第5层。通过使用U-Net网络，可以从输入图像中高效提取有效特征，并得到像素级别的分割结果，此外，跳跃连接的设计使神经网络可以充分利用不同层级的特征信息，从而显著提升分割准确性。

2.4 算法实现与评估

该文基于U-Net网络架构、GCDA模块，实现道路标志检测与识别算法，并利用训练数据集训练模型。在评估阶段，通过计算得出各性能指标，具体试验结果评价见表1，图像分类结果见表2。

表1 U-Net算法的试验结果评价

表2 图像分类结果

上述试验结果表明，该道路标志检测与识别算法平均准确率高达92%，在智慧轨道交通中具有较好的性能与准确性。上述试验与评估验证了该算法在智慧轨道交通场景中具有较好的可行性与有效性，能够为智慧交通系统提供高效、准确的道路标志信息，可为交通安全控制、驾驶辅助系统及交通管理决策等提供有力的技术支撑。

3 应用效果

某市智慧轨道交通系统应用该道路标志检测与识别算法一段时间后，取得了显著应用效果。具体的应用效果如下：在道路状况监测方面，系统可以准确、有效地检测与识别道路上的各种标志，包括禁止停车标志、限速标志等，同时还支持驾驶辅助功能，如危险预警等，显著提高了驾驶安全性。在交通管理决策支持方面，系统能实时监测道路状况，帮助交通部门自动完成违规检测与交通流量监控等工作。这些数据又可以作为优化交通流量、制定合理交通管理策略的重要数据依据，大幅提升交通效率。在驾驶辅助功能方面，系统提供了必要的驾驶辅助功能，有效提高了驾驶员对道路状况的认知，大幅减少了交通事故的发生概率。在数据分析和统计方面，系统自动分析和统计所检测的道路标志数据，并生成违规统计、交通状况报告等信息，从而帮助交通部门与相关管理人员更好地完成规划与决策。

4 结语

综上所述，基于机器学习，智慧轨道交通系统能够准确地进行图像分析与识别，从而提高交通安全性与服务质量。然而，机器学习在现有图像分析与识别应用中仍存在很多限制与问题，如算法复杂性、计算资源需求以及图像数据质量/多样性等。未来，将持续致力于改进、优化机器学习模型与算法，同时不断探索其他先进信息技术手段，如数据联合与传感器融合分析等，以提高算法的效率与准确率，进而提升智慧轨道交通系统的性能。