改进DBNet的电商图像文字检测算法研究

2023-11-17李卓璇周亚同

计算机工程与科学 2023年11期

李卓璇,周亚同

(河北工业大学电子信息工程学院,天津 300401)

1 引言

近年来,电商平台的出现极大地满足了人们的消费需求[1]。但与此同时,很多不法分子将敏感信息放入商户的宣传图像中进行传播,给电商平台的监管带来了极大的困扰。因此,如何对种类繁多、数量庞大的商品图像进行高效的合法性验证成为了当前的热点问题[2]。采用文字识别技术对商品的宣传图像进行检测与识别,再将识别到的文字进行语义分析可有效地对图像进行筛选验证。

目前,图像中文字的检测方法可以分为2大类:基于人为选择特征的传统文字检测法[3]和基于深度学习的文字检测法[4]。基于人为选择特征的文字检测法又可以分为3类:滑动窗口法[5]、连通成分分析法[6]和混合方法[7]。滑动窗口法通常使用多尺度滑动窗口在图像上扫描来获得文字候选区域,随后使用分类器判断候选区域是否包含文字区域。连通成分分析法会根据像素点在空间上的近邻性和像素点在颜色、纹理等方面的相似性过滤大部分背景像素,随后将字符中的像素聚合为连通成分进行过滤,接着依据规则对候选连通成分进行过滤,得到文本位置。混合方法在充分吸收了上述2类方法的优点后,能够更精确地检测文字。传统的文字检测法存在人为选择特征在区分背景与目标文字特征时检测能力不强、分类器应对复杂背景检测效果不佳等问题。

随着深度学习的蓬勃发展,研究人员尝试使用深度学习来解决传统文字检测法中遇到的问题[8]。在早期的尝试中,Huang等[9]将连通区域法和滑动窗口法结合起来提取文字候选区域,并使用卷积神经网络CNN(Convolutional Neural Network)提取更高层的特征完成文字区域检测,其本质上是对局部的图像斑块进行特征挖掘并完成分类任务。后来,CNN网络被逐渐用于检测整个图像。Fast R-CNN(Fast Region-CNN)[10]、Faster R-CNN[11]、SSD(Single Shot multibox Detector)[12]等对文字的检测效果都比较理想。Tian等[13]充分考虑了文本检测的难点——文本行的长度不固定,提出了CTPN(Connectionist Text Proposal Network),该网络使用较深的VGG(Visual Geometry Group)模型提取特征,同时开发了垂直锚点机制,预测固定宽度的小文本候选框,大幅提升了检测的精度。Ma等[14]沿用了Faster R-CNN检测候选区域的思想,提出了RRPN(Rotation Region Proposal Network),该网络可以生成带旋转角的候选区域,通过旋转的矩形框可以标记任意方向的文本。Liu等[15]提出了一个可训练、端到端的多方向文本检测识别算法FOTS(Fast Oriented Text Spotting),在检测与识别任务中共享了卷积特征层。Liao等[16]基于SSD提出了TextBoxes网络,设计了多个不同比例的候选框并为每个候选框添加了垂直偏移量,但是该网络仅能检测水平方向的文字。为此,文献[17]做出了进一步改进,提出了TextBoxes++网络,该网络在SSD网络的输出层后面通过预测回归,以四边形或倾斜的矩形来框出任意方向的文本。

虽然上述部分模型已经在一般文字检测领域表现出良好的性能,但是在场景文字检测领域的效果不佳,尤其是在电商宣传文字检测方面。这主要是由于电商图像背景复杂,且存在文字不规则、文字排列方向多变的现象。而曲折的文本排列难以使用矩形框覆盖。由此可见,使用预设形状的候选框无法很好地描述某些特殊形状的文本。相比之下,基于分割的文字检测法从像素层面进行分类,判别每一个像素点是否属于某一个文本目标以及它与周围像素的关系,最后将相邻像素聚合为一个文本框。此方法可以适应任意角度和形状的文本[18]。

针对电商宣传图像中存在的背景复杂、文字排列方向多变等问题,本文选择了基于分割的文字检测法,以DBNet(Differentiable Binarization Network)[19]作为基础模型,可以处理包括横向、纵向和卷曲排列的任意方向文字,即使使用轻量级的主干网络,检测性能也十分优秀。为了使特征金字塔能够更好地对不同尺度的特征图进行特征融合,本文提出了更为复杂的特征融合机制,能够有效融合高层次和低层次的信息。此外,为了使网络能够更加关注图像中的关键区域,引入了SimAM(Simple Attention Module)注意力模块,最后添加了双边上采样模块来提高可微分二值化DB(Differenti- able Binarization)模块的自适应性能。本文的主要工作如下:

(1)提出了一个迭代的自选择特征融合模块,该模块可以更好地融合语义和尺度不一致的特征,同时提取具有代表性的局部信息。

(2)引入了SimAM注意力模块,该模块能够为特征图推导出3D注意力权值且无需额外参数,同时还关注了通道和空间注意力,提高了模型对关键区域的聚焦程度。

(3)为了进一步优化二值化过程的自适应性能,降低复杂背景对文字检测的干扰,引入了双边上采样模块来提取易于被误判的背景特征,通过二值化计算来更精确地检测文字位置。

2 DBNet模型原理

Figure 1 Structure of DBNet图1 DBNet结构

DBNet结构如图1所示,输入图像经ResNet提取特征后会获得不同层次的特征图,为了充分利用低层特征的高分辨率和高层特征的高语义信息,将特征图送入到特征金字塔网络FPN(Feature Pyramid Network)[20]中进行特征融合。使用融合后的特征图预测概率图(Probability Map)和阈值图(Threshold Map),最后利用概率图和阈值图计算近似二元映射。在训练阶段,对概率图、阈值图和近似二进制图进行监督。在推理阶段,从近似二元映射或概率映射中获得文本框,完成文字检测任务。

2.1 FPN结构

CNN网络[21]已被证明可以将大量的参数降维成少量参数后再进行处理,其使用类似视觉机制保留了图像的特征。即使对图像进行翻转、旋转或变换位置等操作,CNN网络也可以进行有效识别。深度神经残差网络ResNet(Deep Residual Network)成功解决了网络“退化”问题,使得更深层次网络的训练变得可行。

常规的FPN结构一般采用特征图相加的方式对不同层次的特征图进行融合。不同尺度的特征图经上采样后与经过1×1卷积降维后的特征图相加,这种方法虽然增强了目标特征信息,但同时也引入了背景的特征信息。在DBNet网络中,还将4组不同尺度的特征图上采样至相同尺度并进行特征级联,这种原始特征直接拼接的方式是为了让网络学习到如何进行特征融合,避免出现信息损失。

2.2 可微分二值化结构

基于分割的文字检测法后处理过程,通常都是设定固定的阈值将分割模型得到的概率图转化为二值化图,标准的二值化式如式(1)所示:

(1)

其中,P是概率图,(i,j)是图中的像素坐标,th是固定的阈值,B为输出的二值图。

传统的二值化方法设置一个阈值th,大于这个阈值则判定为目标区域,概率值为1,代表像素为正样本即属于文字区域,否则为背景区域。传统的二值化函数曲线实际上是一个不可微的阶跃信号,这使分割算法无法在训练过程中优化。研究人员针对这个问题提出了一个DB(Differentiable Binarization)模块,实现了可微分二值化。具体来说,是使用近似阶跃函数执行二值化,如式(2)所示:

(2)

DBNet文字检测算法的损失函数由概率映射损失Ls、二进制映射损失Lb和阈值映射损失Lt加权求和取得,如式(3)所示:

L=Ls+α×Lb+β×Lt

(3)

其中,α和β分别设置为1.0和10;Ls与Lb都应用了二进制交叉熵损失,具体如式(4)所示:

(4)

其中,Sl表示正样本与负样本比例为1∶3的被采样的数据集,xi表示预测为文字区域的概率值,yi则表示实际的标签值。

阈值图的损失Lt采用平均绝对误差损失,其计算如式(5)所示:

(5)

实际上,在模型的训练过程中会对概率图、近似二值图和阈值图进行监督,其中概率图和近似二值图共享相同的监督。而在模型预测过程中,可以从概率图预测获得边界框。

3 改进iSFF-DBNet模型

电商宣传图像背景复杂,内部的文字方向具有任意性,且字体多变。即使经过FPN特征融合,特征图中仍然存在大量误判的背景特征,在应用到文字检测任务时会导致产生大量的漏检和误检。针对上述问题,为进一步增强模型对局部特征的提取能力,本文进行了如下改进:(1)引入注意力模块SimAM[22]关注文字区域;(2)为了帮助模型有选择性地融合不同尺度特征图的显著区域,提出迭代自选择特征融合模块iSFF(iterative Selective Feature Fusion);(3)为消除概率图中与文字特征近似的非文字特征区域,使用双边采样器提取特征并计算新的概率图,称之为迭代自选择特征融合DBNet 模型iSFF-DBNet,其结构如图2所示。

Figure 2 Structure of iSFF-DBNet图2 iSFF-DBNet结构

3.1 SimAM注意力模块

为了使模型能够捕获更多文字相关特征并抑制背景特征,本文引入了注意力模块SimAM。现有的注意力模块普遍存在2个问题:一个是只能沿空间或通道维度细化特征,限制了它们学习跨空间和跨通道变化的注意力权重的能力;另一个是结构过于复杂,给模型增加了极大的运算量。

SimAM是一个具有完整三维权重的注意力模块。不同于现有的通道、空间注意力模块,该模块无需额外参数即可直接在网络层中推理出三维的注意力权重。具体来说,SimAM模块能够同时考虑空间和通道维度并细化这些神经元。SimAM模块的另一个优点在于大部分操作均基于已定义的能量函数,避免了过多的结构调整。模块的推理过程如图3所示,其中,H、W和C分别表示特征图高度、宽度和通道数,不同灰度填充的多边形代表特征图中不同通道和空间位置的元素。

Figure 3 Process of attention ratiocinate图3 注意力推理过程

具体来讲,通过测量目标元素和其他元素之间的线性可分性,可挖掘出特征向量中每个元素的重要性。为每一个神经元定义的能量函数如式(6)所示:

(6)

其中,t表示输入特征图上的目标神经元编号,xi表示特征图上的其它神经元,wt和bt分别表示上述神经元进行线性变换时的权重和偏移值,M表示特征图上所有元素的个数。理论中,激活神经元通常会抑制周围神经元,换句话说,具有抑制效应的神经元应当赋予更高的重要性。因此,能量越低,神经元t与周围神经元的区别越大,重要性越高。

3.2 迭代的选择性特征融合模块

DBNet网络对4个不同层次的特征图进行了拼接操作,以融合不同尺度的特征。CONCAT层以原始特征图直接拼接方式,让网络去学习如何融合特征。但是,不同层次的特征图所包含的有用信息不同,为此本文提出了一种选择性特征融合SFF(Selective Feature Fusion)模块,可以通过获得每个特征图信息的权重,自适应地选择和集成不同模块的局部和全局特征。为了解决初始输入特征问题,本文进一步提出了迭代自选择特征融合模块iSFF。

SFF模块结构如图4所示。首先,将4个不同层次的特征图上采样至相同的维度,接着将这些特征按通道维度连接,并通过2个3×3的Conv、BatchNorm和ReLU层以达到降维目的并进一步提取特征。特征图经过Sigmoid函数输出值为0/1,相当于获得特征图信息的权重。最后的卷积层和Sigmoid层用于生成一个4通道权重矩阵,将不同层次的特征图与对应的各个通道逐元素相乘,以聚焦于重要位置。然后,将这些相乘的特征按元素相加,构建出混合特征图。

Figure 4 Schematic diagram of selective feature fusion图4 选择性特征融合示意图

实际上,选择性特征融合模块有一个不可避免的问题,即如何集成初始的输入特征。模块中以CONCAT的方式提供初始的输入特征,但这些特征在规模和语义上可能存在很大的不一致性,从而对权重融合的质量产生很大的影响,使得模型表现受限。实际上这仍然是一个特征融合问题,一种直观的方法是使用另一个选择性特征融合模块来融合输入特征。这种2阶段的方法被称为迭代自选择特征融合模块,其结构示意图如图5所示,其中,E、F、G和H分别表示输入特征图,Z表示输出特征图。2个不同层次的特征图先经过一个SFF模块,各个特征图与对应的权重通道相乘后加在一起,集成了初始的输入特征,之后再进行一次选择性特征融合,得到更优的模型结果。

Figure 5 Iterative selective feature fusion图5 迭代自选择特征融合

3.3 双边上采样模块

对于背景简单的电商宣传图像,DBNet模型的检测效果非常理想。但是,在某些背景复杂的电商宣传图像中,即使引入了特征融合模块抑制背景特征,还是会出现“误检”情况。为了进一步优化二值化过程的自适应性能,本文在DB模块中添加双边上采样(Bilateral up-sampling)模块来提供稳定的二值化映射。

大多数解码器利用双线性上采样过程来恢复最终的像素级预测,但此时获得的预测图往往是粗略的结果,通常会丢失一些细节。双边上采样模块由2个分支组成:一个用来恢复粗粒度特征,另一个用来修复精细的细节丢失特征。其结构如图6所示,特征融合模块的输出通过2个分支,最终生成的特征图将恢复到与输入图像相同的大小。

Figure 6 Bilateral up-sampling图6 双边上采样

在粗粒度分支(Coarse grained branch)中,快速输出最后一层的粗采样特征,但是这可能会导致其忽略细节特征。在这条路径中,首先通过卷积核为1×1的卷积层减少输入特征图的通道数,随后使用双线性插值法对输入特征图进行上采样,最后经过ReLU函数。

而在精细细节分支(Fine detailed branch)中,会微调输入数据中的细微信息。在这条路径中,使用转置卷积对特征图进行上采样的同时减少通道数。在上采样完成以后堆叠了2个非瓶颈模块(Non-bottleneck-1D block)对特征进行精细提取,它由4个3×1和1×3的卷积、ReLU函数、BN函数组成。其不仅可以保持特征图的形状,同时还以因式分解的方式高效地提取特征。

在近似二值化映射的计算中,概率图中会存在较少的背景特征最终被判断为文字区域,相较于概率图中被正确判断为文字的区域,这些背景特征区域在概率图中都表现地相对较小且较为灰暗,这也侧面印证了虽然被误判为文字区域,但是背景区域学习到的特征并不充足。为了降低误检的概率,本文提出了新的近似二值化映射,如式(7)所示:

(7)

其中Bi,j为双边映射,它会与概率映射Pi,j计算一起生成新的概率图。事实上,双边映射偏移了概率值,其主要是修改文本和非文本区域中被判定为文字区域的分数。在新的概率映射中,文字区域仍然可以被正确地识别,但是被“误判”的背景区域已经消失不见。新概率映射如式(8)所示:

P′i,j=Pi,j-Bi,j,0≤Bi,j≤0.2

(8)

模型可以充分提取文字区域的特征,所以实际上式(2)中Pi,j-Ti,j对文字区域值的变化并不敏感,此时通过Bi,j偏移Pi,j,并不会对最终文字区域的检测结果有较大影响。结果表明,双边上采样模块侧重于非文本区域分数的负偏移。训练过程中,在损失函数的约束下,双边上采样模块将抑制非文本区域的分数。

4 文字检测实验设置

4.1 实验环境

本文实验基于PyTorch深度学习框架,以Python 3.7作为编程语言。本地计算机的基本配置如下:Intel®CoreTMi7-10870H的处理器,频率为2.20 GHz的CPU,内存为8 GB,NVIDIA®GeForce®RTXTM3060 的GPU,显存为4 GB,操作系统为Windows 10。

4.2 数据集

为了验证本文所提出的改进模型的有效性,采用ICPR MTWI 2018(International Conference on Pattern Recognition Multi-Type Web Image 2018)网络图像数据集进行实验。该数据集是由华南理工大学联合阿里巴巴共同收集和标注的淘宝商品类图像,其关注的是多方向文字的检测问题。数据集图像主要包括中文和英文文本,少量图像中包含韩文和日文文本。如图7所示,该数据集的特点是所包含的文字在字号、字体、排版上均有较大变化,且背景复杂、颜色多变。文本区域的标注是以文本间的间隔进行划分的,图像中文本之间间隔大于一定的阈值即划分为不同的文本区域。本文将10 000幅含有标注的图像以8∶1∶1的比例随机划分为训练集、验证集和测试集。为了加速训练过程,训练样本大小均调整为640×640。

Figure 7 Samples of ICPR MTWI 2018 network image dataset图7 ICPR MTWI 2018 网络图像数据集示例

4.3 参数设置

本文算法选用自适应矩估计(Adaptive Moment Estimation)优化器进行训练,该优化器具有运算高效、所需内存少等优点。此外,实验中使用指数变换的学习率衰减策略,其表达式如式(9)所示:

(9)

其中,base_lr为初始的学习率,epoch为当前迭代次数,num_epoch为最大迭代次数,power控制着曲线的形状。实验中将初始学习率设为0.007,最大迭代次数设为150,power设为0.9。此外,将批量处理大小设为8。指数衰减学习率的优点在于可以先使用较大的学习率,加快模型的训练速度,然后逐步减小学习率,使模型在训练后期逐渐稳定。

5 实验与结果分析

5.1 算法评估标准

文字检测算法一般以召回率(Recall)、精确率(Precision)以及调和平均数(F1-score)作为评价指标。精确率是指文本区域的预测结果正确预测所占的比例。召回率是指所有标注的文本区域被检测出来的比例。两者的计算公式分别如式(10)和式(11)所示:

(10)

(11)

其中,TP表示实例为正例且预测结果为正例的样本数;TN表示实例为负例且预测结果为负例的样本数;FP表示实例为负例但预测结果为正例的样本数;FN表示实例为正例但预测结果为负例的样本数。

为了综合评估算法的好坏,避免仅局限于其中一种指标,本文还以调和平均数作为文本检测算法的综合指标,该指标越高,代表算法越好,其计算公式如式(12)所示:

(12)

5.2 消融实验

为了验证本文算法中各组分模块对性能的影响,本节在ICPR MTWI 2018数据集上进行了消融实验,结果如表1所示。本文将DBNet模型作为基础模型,随后将SimAM模块、自选择特征融合模块(SFF)、迭代的自选择特征融合模块(iSFF)和双边上采样模块(BU-S)分别添加到基础模型中。本文选择Precision、Recall、F1_score、参数量和FLOPs(表示浮点计算数)作为算法的评价指标。

Table 1 Results of ablation experiment表1 消融实验结果 %

从表1可以看出,SimAM模块使模型的精确率提高了1.7%;iSFF模块在召回率和综合指标F1_score上相比较于SFF模块取得了更好的效果,验证了初始特征的输入确实会对最终的融合权重有较大的影响;BU-S模块使模型的召回率提升了3.3%,表明优化可微分二值化结构可以降低文字区域的漏检情况。虽然在添加iSFF与BU-S模块后Precision没有提升,但这并不代表模块在精度提升方面没有作用。可能的原因之一是在特征提取能力增强以后,很多小的文字被检测出来,但是这些小文字因为过小并没有被记录在数据集标签当中,从而导致了Precision的下降。

为分析各种改进对模型的影响,设计了消融实验,结果如表2所示。添加的SimAM模块对模型的参数量和计算量基本没有影响,同时还可以使模型的综合指标略有上升。在特征提取部分添加的iSFF模块使得模型的计算量增加了11%,但是该模块可以使模型的召回率与精确率达到平衡,在仅添加少量参数的情况下使得模型的稳定性有了显著提升。BU-S模块在计算量与参数量上都没有明显变化,但是其对模型的召回率提升是最为明显的。改进后的DBNet模型虽然在检测速度上略有降低,但是其检测效果与原始DBNet模型相比有了较为明显的提升。

Table 2 Comparison of complexity表2 复杂度对比

5.3 实验结果对比与分析

5.3.1 引入注意力模块SimAM检测结果对比

为了验证注意力模块SimAM对文字检测能力的提升,在仅加入SimAM的情况下对基础模型DBNet进行检测,检测结果如图8所示。在引入SimAM模块后,图像右侧腿部方框中预测错误的文字区域明显减少,同时左上角相邻的单词也被完整预测。实验结果表明,注意力模块SimAM可以增强模型对文字区域的关注程度。

Figure 8 Comparison of detection results before and after adding SimAM图8 引入SimAM前后检测结果对比

5.3.2 引入迭代自选择特征融合模块检测结果对比

引入迭代自选择特征融合(iSFF)模块,可以提升模型对于文字特征的提取能力,同时抑制背景特征对检测的影响,使得模型检测复杂背景图像的能力大幅增强。在引入iSFF模块后,不同尺度的特征图输入iSFF模块进行特征融合,融合后的结果用于预测概率图与阈值图,可以从预测的概率图中直观地感受到iSFF模块对检测结果的影响,如图9所示。

Figure 9 Probability map comparison before and after adding iSFF图9 引入iSFF前后概率图对比

引入iSFF模块以后,概率图中部分背景区域被预测为文字区域的概率值明显下降。最终检测结果如图10所示。在输入图像中,手套上的皱纹结构与“三”“川”等文字结构十分相似,所以在预测阶段,模型十分容易出现误判现象,如图10a中,在图像中心被方框标记的手套区域上有大量细长的文字框,这些都是被误检的区域。引入特征融合结构后,模型有了一定的抑制背景特征能力,如图10b 中,手套区域上的文字误检框已经基本消失。这表明当遇到复杂背景时,改进后的模型能够充分提取文字特征,更精确地完成检测任务。同时,这些误检文字框的消除可以提升Precision值,也就是说虽然在消融实验中添加iSFF模块使得Precision下降,但是模块并非对精度的提升没有作用。

Figure 10 Comparison of detection results before and after adding iSFF图10 引入iSFF前后检测效果对比

5.3.3 引入双边上采样模块检测结果对比

在近似二值化映射的计算中,概率图中会存在较少的背景特征最终被判断为文字区域。为了尽可能消除背景区域特征影响,本文引入了双边采样模块偏移背景区域概率值,概率图前后的变化如图11所示。从图11可以看到,在原模型的概率映射中有少量较暗淡的白色区域,这些是被误判为文字的背景区域,与其它背景区域相比,误判区域有着与文字类似的特征,但是其“概率”相较于真正的“文字区域”的又比较小,因此显示得较为暗淡,但这些区域在检测过程中仍然会对检测结果产生影响。而在双边上采样模块偏移了非文本区域的概率值以后,图像的检测结果更为精准,如图12所示。在图12a中,图像的左上角以及中间部分的背景区域中均有被误检的情况,而在引入了双边上采样模块以后,仅仅只检测出了应被正确检测的文字区域,检测效果更佳。

Figure 11 Probability map comparison before and after adding BU-S图11 引入BU-S前后概率图对比

Figure 12 Comparison of detection results before and after adding BU-S图12 引入BU-S前后检测效果对比

5.4 对比实验

为了进一步验证本文算法的有效性,本节在ICPR MTWI 2018数据集上将其与其它文字检测算法进行了对比,实验结果如表3所示。CTPN是复杂场景文字检测的经典模型,它使用垂直锚框回归机制,检测小尺度的文本候选框,然后将属于同一个标注文本框的小文本框连接成一个文本框区域,形成候选区域,最后对每个候选区域的大小进行微调。但是,CTPN对于非水平文本的检测效果并不好,实验结果表明,CTPN在3个评价指标上都表现得不尽如人意。而高效准确场景文本检测器EAST(Efficient and Accurate Scene Text detector)利用一个全连接模型直接预测单词或文本行。事实上,EAST和DBNet一样,都利用了分割思想来完成文字检测任务,但在实验中,EAST的召回率偏低,仅有59.2%,表明部分文字区域未能被有效检测到。下面2篇文献都使用了ICPR MWTI 2018作为数据集,将10 000幅图像以8∶1∶1的比例划分为训练集、验证集和测试集,与本文的数据集选用相同。文献[23]应用了推选出“文字区域候选框”的思想,并在第2阶段进行边框精细化处理,采用实例分割的思想分割出文本框。文献[24]则提出了一个单元组合的自下而上的文本检测框架,利用不同的卷积核提取对应的输出,确定不同文本间的互斥关系,通过阈值确定有效的文字单元之间的联系,最后从每组文字单元提取文字区域的外接检测框。该模型相较于之前的模型大幅提升了检测性能,召回率能够达到69.7%。

Table 3 Experimental results of different detection algorithms表3 不同检测算法的实验结果 %

原DBNet模型相较于其他模型,在精确率方面有着较大的优势,但是在召回率方面却不尽人意,这主要是由于ICPR MTWI 2018数据集中图像背景过于复杂,部分文本区域未被成功地检测出来。而本文提出的改进模型相比于原DBNet模型虽然精确率方面有所下降,但是在召回率上有6.0%的提升,同时F1_score也有着2.4%的提升,表明改进后的网络模型更加稳定,在精确率和召回率上取得了平衡。本文算法在保证拥有较高精确率的同时大幅提升召回率,检测效果明显优于其它文字检测算法的,同时在面对复杂的背景时,本文算法也更具竞争力。

6 结束语

本文针对复杂背景的电商图像文字检测提出了一种新算法。该算法以DBNet模型为基础,通过改进FPN网络中的特征融合模块,自适应地选择和集成局部和全局特征。此外,添加了注意力模块使模型重点关注特征明显的区域。同时,还在可微分二值化模块中引入了双边上采样模块来降低复杂背景对文字区域检测的影响。实验结果表明,本文所提算法取得了68.1%的召回率、82.6%的精确率和74.6%的F1_score,优于其它算法。基于该算法,可以高效地对种类繁多、数量庞大的商品图像进行合法性验证。在接下来的工作中,将重点对可微分二值化模块进行处理,研究如何尽可能多地将图像中的文本区域检测出来,以进一步提高算法的检测能力。