APP下载

图像自动识别技术在物流自动化中的研究与应用现状分析

2020-11-27程方毅龚德文

机电工程技术 2020年10期
关键词:条形码特征提取卷积

刘 斌,程方毅,龚德文

(1.华南理工大学聚合物成型加工工程教育部重点实验室//广东省高分子先进制造技术及装备重点实验室//聚合物新型成型装备国家工程研究中心,广州 510641;2.广东昌恒智能装备科技有限公司,广东东莞 519000)

0 引言

近年来,电商市场的火爆推动了物流行业的快速发展与不断进步,市场对快件分拣的要求也越来越高。分拣识别是自动分拣系统中最为耗时的一个环节,其分拣的效率和准确率至关重要。高效、精准地分拣识别一直是物流自动化领域研究的热点和难点。

自动识别技术是信息数据自动识读、自动输入计算机的重要手段和方法,其在物流管理工作中的合理应用,可以有效提高物流管理工作的准确性与高效性,实现了物流管理的信息化、现代化发展[1-2]。其中,条形码成本低、识别速度快,是目前物流行业使用最普遍的信息载体。从发展趋势来看,越来越多的厂商将图像识别技术应用于物流自动化中与条形码识别技术一并使用,提高自动分拣识别的准确率。本文基于收集整理的自动识别技术在物流自动化的应用特点,总结各种技术的优缺点及适用范围,重点探讨图像自动识别技术在物流自动化中的研究与应用现状,以期为构建更快速、更准确、更智能的自动分拣系统提供借鉴。

1 条形码技术

1.1 一维条形码技术

一维条形码偏重于“标识”商品,但只在一个方向(通常是水平方向)表示信息,而不在垂直方向表示任何信息,为了便于阅读器的对准,条码会有一定的高度,条码的下方还会有英文字母或阿拉伯数字[3]。几种常见的一维条形码式样如图1 所示。其中39 码长度没有限制,允许双向扫描,具备自我检查能力,能用字母、数字和其他一些符号共43个字符表示,主要应用于工业生产线和图书的自动化管理。128码长度可自由调整,但最多不超过232个字符,允许双向扫码,可自行决定是否要加上检查码,具有3种不同的编码类型,可提供标准ASCII中128个字符的编码使用,常应用于流通配送标签。codabar码长度可变,不用校验码,条码字符集仅20个字符,常用于仓库和航空快递包裹的跟踪管理。2of5码没有检验位,只可以编码0~9十个数字,主要应用于包装、运输等。影响码制选择的因素有很多,在实际生产应用中,常根据所需条码字符、印刷条件和识读设备等因素来选择需要的码制。

图1 几种常见的一维条形码式样

一维条形码具有可靠准确、识别速度快、成本低、可手动输入、设备简单与易于制作等特点,是一种廉价且高效的识别技术。一维条形码在物流自动化的应用有效地提升了各个环节实施过程中的输入速度,而且成本较低,具有较高的准确度,是目前物流自动化领域最常见的信息载体[4-5]。但是,一维条形码容量小,通常只表示物品的基本信息(如订单号等),如果需要货物更详细的信息,必须依赖数据库或通讯网络的存在,且只具备校验功能而不具备纠错能力,破损或污染后可读性较差。

1.2 二维条形码技术

二维条形码偏重于“描述”商品,在水平和垂直方向的二维空间存储信息,不但具有识别功能,而且可显示更详细的商品内容[6]。几种常见的二维条形码式样如图2所示。

图2 几种常见的二维条形码式样

其中PDF417 码可表示数字、字母、二进制数据和汉字,具有9个等级的纠错能力,纠正等级最高时,即使条形码污损50%也能被正确读出,常应用于海关报关单、货物的运输和邮递等。Code49码可表示全部的128个ASCII字符,常应用于食品、工业等。QR码呈正方形,在左上角、左下角和右上角各有一个像“回”字的定位图像,可实现任意角度的高速识别,编码字符集包含数字、字母、中国汉字和日本汉字,具有4 个等级的纠错功能,常应用于电子票务和B2B 领域等。Data Matrix码外观是一个由许多小方格所组成的正方形或长方形符号,编码字符集包括全部的ASCII 字符及扩充ASCII 字符,只需要读取资料的20%即可精确辨读,很适合应用在条码容易受损的场所,常应用于高温、机械剥蚀等环境。

二维条形码具有信息容量大、编码范围广、容错能力强、可加密、可靠性高与成本低、易制作等特点,是一种较为经济、实用的自动识别技术。二维条形码具备立体、庞大的信息存储和表达功能,可以对物品进行详细地信息描述而不依赖数据库或通讯网络单独存在,具有检验功能和纠错能力[7]。二维条形码在物流自动化中的应用大多体现在包裹的跟踪、追溯等环节。

在条形码识别技术的研究中,针对条形码损坏或污染时的识读一直是主要的研究方向。霍国义[8]提出了一种基于像素补充的一维条形码识别技术,获取一维条形码的非线性特征,通过离散变化法对破损的一维条形码进行像素差值补充,从而提高残缺一维条形码的识别率。何红庄[9]以矩不变为特征的模式识别理论为依据,开发的一维条形码译码系统不仅能对轻度污染与残缺的、甚至任意角度有畸变的一维条形码进行识读。董华冰[10]提出了一种基于一维条形码投影曲线的识读方法和基于全局和局部的欧氏距离算法,能对低分辨率、模糊的一维条形码进行正确识读,并能对识读错误的条形码字符进行修正。屈卫锋[11]开发的一款二维条形码的快速识别软件,可以实现对复杂背景下受噪声影响、光照不均影响、畸变影响的低质量二维条形码的快速有效识别。刘震[12]改进了二维条形码的Reed-Solomon 纠错算法,与传统的Reed-Solomon 算法相比,改进后的算法在译码速度和准确率上均有所提升。侍倩倩[13]利用人工神经网络中具有联想记忆功能的离散型Hopfield神经网络实现了二维条形码的复原,利用模板匹配的思想实现了污染二维条形码的识别。

2 无线射频识别技术

无线射频识别(RFID)技术,作为一种新兴的自动识别技术,在工业自动化领域已得到广泛应用。无线射频识别技术主要由标签、天线和识读器3部分构成,其原理如图3所示。

图3 FRID技术原理图

在RFID系统中,信息通过识读器(又称阅读器)的天线发送出一定频率范围的标签信号。当标签进入磁场区域时,天线会产生感应电流,从而使得标签获得能量,标签将自身编码等信息通过载波信号发送出去。识别器会收到信号并对其进行解码,解码后的信息或数据被送至计算机主机进行处理,从而完成信息采集、信息识别、信息解码和信息传输全过程[14]。

RFID 技术的突出特点在识别环节。比较其他识别技术,具有无需接触、识别速度快、适应工作环境范围广、批量处理等优点,是一种昂贵而高效的自动识别技术[15]。FRID 虽然可以节省人力成本,并在较为恶劣的环境下完成对相关物流信息的大量存储和准确扫描,但是,使用RFID技术的设备投入是巨大的,需要给所有物品粘贴上电子标签,国外有这类处理能力的企业也是屈指可数的[16]。目前,国内快递行业普遍都使用条形码携带信息,很少使用电子标签,这对于国内数目庞大的快件量也是更加经济实惠的方式。

3 图像识别技术在物流自动化的应用

随着人工智能的不断发展,图像识别技术在物流自动化中也得到了广泛应用,其应用主要有图像分类和OCR光学字符识别两个方向。其中,图形分类技术确定产品的类别属性信息,OCR 技术识别条码下方的英文字母和数字。目前,图像分类技术及OCR技术在自动分拣中常作为条形码识别的补充模块,当条形码识读出现异常时,由图像分类技术或OCR技术获取产品信息,结合条形码识读结果,确定产品即将流向的分拣口。

3.1 图像分类技术

现如今,图像识别技术发展迅速,特别是在工业领域,图像分类技术已被大规模应用。如周院[17]基于深度学习的CNN 网络模型实现对丝状真菌图像类别的识别。包青平[18]借助深度学习实现对服装长度、宽松度以及各部件等细节要素的识别。曾平平等[19]提出了一种适用于水果图像分类识别的卷积神经网络结构,识别准确率可达98.44%。刘俨娇[20]基于AlexNet深度模型和迁移学习技术,针对10种多肉植物和9种生石花的分类,分别实现了95.3%和87.3%的正确率。郜翔[21]以深度模型、迁移学习和多任务学习为理论指导,在102类花卉图像数据集上,达到了96.27的分类准确率。在深度学习的发展历程中,ImageNet 数据集[22]起了巨大的推动作用,ImageNet 是目前深度学习应用较广的一个领域,具有1 400 万幅图片,大约22 000 种类别,针对ImgaeNet 的一个大约120 万幅图像、1 000种类别的子集,经过训练后的模型最高可以达到90%以上的准确率。

以某公司为例。在一个海外饮品自动化物流项目中,已有将图像分类技术作为条码自动识别技术的一个补充模块来进行自动分拣的应用案例,如图4所示。

图4 饮品自动化物流项目现场照片

其产品为整箱封装的啤酒、牛奶、矿泉水等,产品种类有限,且箱子外表面有颜色或纹理差异。当条码由于种种原因无法正确识读时,可经由图像分类确定物体的类别,通过PLC 控制物品流向指定的分拣道口,极大地提高了自动分拣识别的准确率,其图像分类技术应用流程如图5所示。

其流程主要可分为3步。

(1)第1 步,获取数据集。利用工业相机自动采集大量图像数据,按比例划分为训练集和验证集,使用tfrecords[23]数据格式存储图像数据。tfrecords格式可以统一不同的原始数据格式,对不同的属性实现更加有效的管理,并且极大节省内存开销,一个保存了1 000个100×100图像数据的tfrecords文件,大小仅为28.6 MB。

图5 图像分类技术应用流程

(2)第2 步,得到模型文件。从tfrecords 文件中读取数据,将训练集和验证集批量输入卷积神经网络,开始训练,将训练得到的神经网络模型持久化,方便反复调用。在将网络模型保存为离线文件时,只需要知道如何从神经网络的输入层经过前向传播计算得到输出层即可,不需要知道类似变量初始化、模型保存等辅助节点的信息。

(3)第3 步,自动化分类识别。工业相机自动获取图像,将原始图像数据经过数字图像处理后输入离线模型文件,经过前向传播计算得到输出结果。输出结果为一维矩阵,其每一列的值代表着图像为每种类别的概率,根据置信度确定概率最大的为所属类别。

物流自动化中图像分类技术应用框架构建起来虽然较为容易,但是在实际工程应用中,针对不同的类别,通常需要重新获取数据集,构建卷积网络,训练模型,且输出类别结果无法自动判断对错,只能通过设置置信度判断,即使将任意图像输入识别模型也会给出限定种类内的识别结果。

3.2 OCR光学字符识别技术

光学字符识别(OCR)[24],简单来说,是扫描文本数据,进行图像处理和分析,从而识别字符的一种自动识别技术。日益成熟的人工神经网络模式识别方法,为OCR字符识别技术的研究提供了一种新的手段,与一些传统技术相比,该方法具有快速、精准、容错性强和具有自主学习能力速度等优点[25]。与以往的符号逻辑系统完全不同,人工神经网络通过模拟人脑处理信息的方式来进行特征提取,从而为OCR字符识别技术的发展开辟了新的方向。

在物流自动化的实际应用中,通常会将包含有条形码和由英文字母和数字组成的标识信息张贴在货物外包装表面,通过对产品信息进行自动读取、处理,从而保证在输送、存储的过程中对货物进行有效管理。OCR 识别技术通过识读条码下英文字母和数字直接获得条码的标识信息。孙怀远[26]等基于机器视觉和OCR识别技术构建的检测系统实现对药品包装瓶批号的快速、自动检测。彭晓辉[27]研究了一种检测速度快、准确率高、鲁棒性好的IC卡字符识别系统,可以对高速运动中的喷码字符进行可靠的检验。周凤香[28]对应用于空调生产线的字符识别系统进行研究与开发,实现了空调生产流水线上的标签字符的自动识别。李了了[29]利用机器视觉和字符识别技术实现对产品编号或编码字符的自动识别。郭佳寅[30]研究了一种基于OCR 技术的自动采集包装箱上的喷码信息的采集系统,并应用于物流自动化系统中。张超[31]开发的自动识别系统可在玻璃纤维生产自动化物流系统中对同一幅照片上的镂空字符与二维码进行自动识别,并已在实际工程中应用。在现在的实际生产中,越来越多的自动识别系统选择同时识别条码信息和字符信息,提高识别的准确率。物流自动化领域中康耐视(Congnex)、海康威视(HIKVISION)、基恩士(KEYENCE)等机器视觉厂商也都在自家的智能扫码产品中添加了OCR功能,OCR技术在物流自动化领域中的应用前景越来越广阔。

光学字符识别的过程需要使用人工神经网络技术进行离线训练和在线识别。离线训练就是创建训练文件,对训练样本进行滤波、增强、字符分割等一系列预处理后,将获得的字符保存在字体训练文件中;在线识别就是将采集到的图像进行预处理,使用离线训练好的分类器与字体文件进行识别,从而将置信度较高的字体作为识别结果输出。OCR 字符识别流程如图6所示。

图6 OCR字符识别流程

在物流自动化中,需要识别的字符仅为英文字母和阿拉伯数字,个数有限,属于小字符集,训练一次模型,即可运用在大部分场景中。随着对深度学习的深入研究,文字识别的准确率越来越高。

OCR 技术的难点主要集中在文本定位上[32]。当前的文本定位方法大致有两种:(1)基于区域的定位。设定图像区域像素具有一致性的特征,如Kim 等基于RGB 彩色空间聚类来实现对文本的定位。(2)基于边缘的文本定位。假设文字边缘清晰与背景有很强的对比度,如Lyu 等使用Sobel 滤波器提取图像的边缘,分析边缘特性,用投影分析方法确定文本区域。

字符分割的方法较多。(1)基于结构的分割方法。常用的有连通域分割法,该方法首先对前景像素进行扫描,使其形成连通域,然后根据设置好的条件组合和裁剪这些连通域,最后剩余下来的连通域为相应的字符图片。(2)基于统计特征的分割方法。常用的有直方图投影法,该方法根据相邻字符之间具有一定的间隔来对字符进行分割,可以较为直观地得到分割点。

4 图像识别关键技术

图像识别技术主要通过对比存储信息和当前信息,从而识别图像,不同图像、不同目的的识别分析稍有不同,在此介绍其关键技术。

4.1 计算机视觉

图像的自动识别主要由计算机视觉相关技术实现,其关键技术有图像分割、特征提取、图片匹配或分类等,如图7所示。

图7 图像模式识别流程图

4.1.1 图像分割

图像分割,就是在图像中将物体分离出来,图像分类通常是将整个前景物体从自动化输送机的背景中分割出来,OCR技术则需要把字符区域从复杂背景分割出来。

目前借助各种理论模型提出的分割算法已达上千种。在对某幅图像进行分割时,通常会结合多种方法来构建分割系统,以获得高效、准确的分割结果。在实际工业应用中,采集到图像的质量往往不是那么理想,通常需要对采集得到的原始图像进行图像预处理[33-34],从而获得高质量的图像,方便后续步骤的顺利进行。

(1)以QR 二维条形码的图像预处理为例,如图8 所示,预处理过程为:获取目标原始图像-->灰度化-->滤波-->二值化-->Hough 变换-->透视校正[35]。由图可以看出,条形码的自动识别较为关注目标区域的详细信息,但是,条形码在使用过程中很容易受到缺损、沾污等各种形式的破坏。一维条形码不具备纠错功能,受到破坏时可读性较差,易造成无法识别;二维条码虽然具备校验与纠错功能,可以检查甚至纠正错误,但是,当破坏区域较大时,也会导致识读错误。

图8 QR码图像预处理过程

(2)在图像分类过程中,输入图像的质量可能会影响输出类别的置信度,从而在一定程度上影响分类结果,因此也需要图像预处理来消除图像不相关信息,加强可用信息。卷积神经网络模型可以直接将原始图像作为神经网络输入,但为了减少模型训练所需时间,提高模型识别效率,通常采用227×227、100×100、32×32 等尺寸作为输入图像大小。以大华500 万像素级工业相机为例,将大小为2 592×2 048 的彩色原始图像压缩为100×100大小的彩色图像,结果如图9所示。

通过使皮带机颜色为纯黑色,目标区域的分割变得更为高效和准确,且图像分类算法更加关注图像整体的泛化特征[36],具有极强的抗干扰性。

(3)OCR 在进行文字识别之前的准备工作,主要为文字的定位、校正以及分割工作。

图9 原始图像与缩放后的图像对比

4.1.2 特征提取

图像的特征包含颜色、纹理、形状和空间关系等[37-38],特征提取是将特征点划分为不同特征子集的过程。目前主流特征提取有固定式特征提取及自动化特征提取两种。固定式特征提取大都是利用计算机视觉技术、光谱分析技术等各种数字图像处理手段人为提取有效特征参数,再通过各种统计学或者机器学习方法进行实验对比确定有效的特征参数。如郎波[39]等提出了一种基于视觉机制的多层网络计算模型,显示出了优秀的泛化能力。卷积神经网络[40]由于拥有自动化提取样本数据特征的特点,开始逐步替代固定式特征提取,但是卷积神经网络的构建一直是一个难题,且对样本的数量要求较高,训练模型的运算量远超过固定式特征提取。

4.1.3 图像匹配或分类

图像匹配是指从待检测图像中识别出与目标相同或相似的图像区域[37]。最常用的匹配方法是模板匹配和模式识别。模板匹配形式较单一,基本是将图像像素逐一对比,难以解决变形图像的识别。模式识别可用于图像检索和分类等,将相似的、与其他图像特征差异明显的部分图像分为同类,是人工智能发展的基石。

4.2 深度学习

传统的特征提取方法需要人为进行特征提取,主要原因是在SVM[41]和BP[42]神经网络等识别模型下,以图片像素点作为特征输入模型会使得特征过多,需要大量样本数据,同时,模型难训练、预测精度欠拟合、计算机资源占用高等。深度学习[43]中的卷积神经网络(Convolutional Neural Networks,CNN)仿造生物的视觉感知机制构建,被大量应用于计算机视觉领域。卷积神经网络经过一定的训练可自行完成从图像中抽取特征这个步骤,且能够减少因图像的平移、旋转、拉伸、部分遮挡等因素造成的识别误判[44]。如周爱明等[45]利用深度学习建立了CaffeNet蝴蝶识别模型,在识别自然环境下拍摄的蝴图像时,成功率远超传统SVM方法。

自AlexNet[46]在2012年IamgeNet识别大赛夺冠后,刺激了各种利用卷积神经网络进行图片分类研究的发展,在此后发展出的VGGNet、GoogLeNet 等网络模型先后以极高的精度夺冠。卷积神经网络模仿生物的视觉感知,可以直接输入原始图像,通过权重共享,减少网络中的自由参数数量,大大降低了网络模型的复杂性,不仅具有传统神经网络的自适应等特点,还具有自动提取特征等特点。卷积神经网络是由卷积层、池化层和全连接层组成,其中,卷积层与池化层起到的作用是自动提取图片的特征,全连接层与BP神经网络的结构是类似的。卷积神经网络模型如图10所示。

图10 卷积神经网络模型

利用卷积神经网络的识别过程是:首先,直接将图片数据和对应的标签输入到网络模型中,无需指定图片的特征提取方式;然后,利用反向传播算法依据标签和模型的预测值自动调整模型参数,提取适合的图像特征作为分类依据。卷积神经网络既降低了特征提取的操作难度,又避免了人为因素在特征选取过程中的误差。

将图像输入训练好的模型,可以得到图像为每种类别的概率。当图像受到破损或污染时,所属正确类别的概率会有所降低,但是依然可以识别,这是因为卷积网络更关注同一类别间的泛化特征。卷积神经网络的发展使分类识别技术进入自动化特征提取和分类识别的阶段,但是,卷积神经网络对样本的数量要求较高,且训练模型的运算量远超过手动特征提取技术。

此外,卷积神经网络的识别效果与其深度有很大关系。深度越深,识别效果越好,但也更容易出现过拟合(即对训练数据集的识别精度较高,而对测试数据集的识别精度较低);如果网络深度过浅,则容易出现欠拟合(即对训练数据集和测试数据集的识别精度都较低)。因此,选择合适的网络深度、避免过拟合是构建卷积神经网络的难点。

在实际应用中,有时使用旋转、缩放和偏移等图像增广技术扩充样本数量后,依然难以完全达到网络模型的训练要求,故发展出迁移学习的概念。迁移学习[47]就是直接使用其他数据集训练好的卷积神经网络作为网络模型,由于这些网络模型已经具有图片特征提取能力(即卷积核),故只需去除原先的全连接层,再使用较小样本数据训练出自定义的全连接层,即可达到较高的识别精度。因此,迁移学习降低了对训练样本数量的要求,而识别精度却能达到较高的水平。

5 结束语

在物流自动化领域,一维条形码成本低、识别速度快,依然是目前物流行业使用最普遍的信息载体。随着深度学习与计算机视觉的不断发展,在物流自动化领域中,同时应用图像识别技术和条形码识别技术已是大势所趋。其中,图像分类技术应用框架构建起来较为容易,物品的图像分割相对简单,且抗干扰性较强,但是,针对不同的物品,需要重新获取数据集,构建卷积网络,适用于物品种类有限且图像特征有明显差异的环境。OCR识别技术训练一次模型,即可运用在大部分场景,但是,复杂背景下的文本定位,仍然是当今研究的一个热点和难点。

条形码技术、图像分类技术和OCR技术,既可单独使用也可组合使用。目前来说,图像分类技术和OCR技术通常是作为条码识别技术的补充,但是,随着人工智能的不断发展,在未来的某一天,图像分类技术和OCR技术也许会完全取代条码识别技术。

猜你喜欢

条形码特征提取卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
创意条形码
卷积神经网络的分析与设计
基于Gazebo仿真环境的ORB特征提取与比对的研究
从滤波器理解卷积
从条形码到二维码
从条形码到二维码
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
有趣的条形码