基于最小均方delta规则的神经网络工件识别

2014-08-24，，，，

浙江工业大学学报 2014年2期

，，，，

(浙江工业大学信息工程学院，浙江杭州 310023)

近年来，目标识别技术成为了机器人自动化领域主要的研究课题之一.目的是要模仿人类的视觉系统，从而建立智能的机器识别系统.随着人工智能的发展，需要人眼来判断的一些较困难的任务可以用机器代替人眼来完成.可能的应用包括自动化制造业[1]，产品检测[2]，计数和测量[3]，医学外科手术[4]，监测系统中人脸识别[5]等.而且体力劳动很难达到连续高效的工作质量.为了使制造商能够在激烈的竞争中生存，他们需要改进生产方式，减少成本，提高产品质量和生产效率.因此，灵活的智能自动化系统在装配过程中被使用成为了一大趋势.然而，如果不应用视觉系统，目标的位置、姿态、形状、模式等在装配任务中非常重要的信息无法从机器中获取.传统上，可以使用各种传感器来获取这些信息，但是需要设计专门的一套识别装置，如果目标换了，装置就得重新设计，不灵活，不智能，拥有了视觉系统可以增强机器的工作能力.

基于机器视觉技术的目标识别方法，有SIFT(Scale-invariant feature transform，尺度不变特征转换)匹配算法[6]，贝叶斯分类方法[7-8]，模板匹配方法[9-10]等.SIFT特征由DavidG. Lowe在1999年提出，它是基于尺度空间的特征，并且具有旋转不变性、缩放不变性和仿射不变性，样本图像旋转或缩放后SIFT特征基本保持不变，因此SIFT特征可以用于识别旋转缩放后的目标.但计算SIFT特征需要进行图像的下采样，在高斯金字塔中寻找关键点，并在构建描述子时，统计关键点邻域16个像素点在8个方向梯度值.所以SIFT特征匹配算法适合复杂对象的匹配，适用于离线匹配或者对实时性要求较低的系统.一般的模板匹配方法，当目标旋转或者缩放后很难保持匹配的稳定性和准确性.采用决策理论方法对工件进行识别，从获取的样本图像中提取各类工件的特征，然后基于最小均方delta规则离线训练神经网络[11]，计算最优的权值向量，使得感知机对各类工件的区分度达到最大，然后在线识别传送带上的工件.由于选取的特征具有旋转不变性，所以该算法可以识别各种姿态的工件，而且提取工件特征后只需要一次向量乘法运算就可以识别工件，计算过程简单，因此具有很强的实时性.

1 算法描述

1.1 定量描述子

用定量描述子来描绘不同工件，比如工件的面积、椭圆度、各向异性和表面纹理等.每个工件类别都是几个描述子的集合，每个描述子对应地描绘工件的某项特征，用这些特征组成的向量来描述各类工件.

x=(x1,x2,…,xn)T

(1)

式中：xi为第i个描述子；n为与该工件有关的描述子的总数.那么一类工件就可以用列向量x表示，T表示转置.

模式向量x的每个分量的性质是由所选取的工件特征决定的，特征的选取很大程度上影响工件的分类.系统要识别三类工件，分别是长方形、小正方形和大正方形，用W1,W2,W3来对应地表示这三类工件，选取工件的面积和各向异性作为两个特征.每种工件由两个描述子来表示，于是生成了一个二维特征向量：

x=(x1,x2)T

(2)

式中x1和x2分别代表工件的面积和各向异性.

由于工件在面积和各向异性上的不同，描绘这些工件的特征向量也不一样，这些差别不但体现在不同类的工件之间，也体现在同类工件中.

1.2 三模式类感知机模型

用决策理论方法来识别工件需要建立一个决策函数，决策函数里包含很多参数，用于估计这些参数的样本特征向量通常叫做训练向量，来自每类工件的一组训练向量叫做训练集.使用训练集计算决策函数的过程叫做训练或学习.使用感知机学习所需决策函数，由1.1知此决策函数需要区分三个训练集或模式类.图1是三个模式类的感知机模型.感知机的响应用它输入的加权和来表示，即

(3)

式中：wi为权值，i=1,2,…,n,n+1；d(x)为感知机的响应.训练时，当训练向量x来自类W1时，期望响应为1；当x来自类W2时，期望响应为0；当x来自类W3时，期望响应为-1.为了更方便表示，将向量x进行扩充，用y=(x1,x2,…,xn,1)T表示扩充后的模式向量，权向量记作w=(w1,w2,…,wn,wn+1)T.则感知机响应为

(4)

图1 三模式类感知机模型图

1.3 最小均方delta规则

在训练时，采用感知机训练的最小均方delta规则，此规则可以在有限步的学习后使得感知机的实际响应逼近期望响应，使两者的误差最小.准则函数为

(5)

式中r为感知机的期望响应(具体含义由1.2中期望响应的定义可知)，易知在r=wTy时该准则函数取得最小值.故可以用梯度下降法逐步修正权值向量w，当J(w)取得最小值时，感知机可以正确的分类.设w(k)为第k步迭代中的权值向量，则一般的梯度下降算法为

(6)

式中：w(k+1)为w的迭代值；α为修正系数，α>0.由式(5)计算出

(7)

代入式(6)可得

w(k+1)=w(k)+α·[r(k)-wT(k)y(k)]y(k)

(8)

式中：设初始向量w(1)=0.

定义权值向量的增量delta为

Δw=w(k+1)-w(k)

(9)

按照delta修正算法将式(9)改写为

Δw=α·e(k)y(k)

(10)

式中e(k)=r(k)-wT(k)y(k)，是权值向量为w(k)时产生的误差.在学习过程中，误差的变化为

Δe(k)=[r(k)-wT(k+1)y(k)]-[r(k)-

wT(k)y(k)]=-[wT(k+1)-wT(k)]y(k)=

-ΔwTy(k)

(11)

将式(10)代入式(11)，可得

(12)

因为α>0，分析式(12)可知：当误差e(k)>0时，Δe(k)<0，即e(k)将趋近于0；当误差e(k)<0时，Δe(k)>0，即e(k)也将趋近于0，所以算法将收敛到一个解，该解使得实际响应与期望响应的均方误差最小.α的选择影响着学习过程的收敛速度和稳定性，一般要求0.1<α<1，在实际应用中应该根据感知机学习效果选择合适的α.

2 算法实现

2.1 工件特征提取

由1.1可知：系统选择了工件的面积和各向异性两种特征，通过图像处理算法将工件从采集的样本图片中分割出来，分别计算工件的这两种特征.采集工件样本图片，经过阈值处理后如图2(a)所示；图2(b)为低通滤波后的效果图；图2(c)为将与边界相连通的区域移除后的效果图；去除杂质分割出工件，如图2(d)所示.图3为工件分割的LabVIEW程序图，图4为程序前面板.

图2 工件分割的效果组图

图3 工件分割的LabVIEW程序图

图4 工件分割的LabVIEW程序前面板

获取了工件的二值图像，将工件所在区域R像素点的个数作为工件的面积，用a表示为

(13)

为了便于计算，将s=a/1000作为工件的面积特征.用(u,v)表示工件的重心，则工件的归一化中心矩为

(14)

(15)

于是，得到用于工件分类的模式向量

y=(s,t,1)T

(16)

通过采集八幅图像，获取了八组模式向量，见表1.

表1 工件识别感知机训练向量表

2.2 基于最小均方delta规则的感知机训练

在LabVIEW中编程实现基于最小均方delta规则的神经网络感知机训练，考虑到仅当算法对三种工件的全部训练向量无误迭代时，才可以停止训练，所以必须经过多轮的训练.程序中，将训练集重复训练了12次，图5为实现该算法的程序图,图6为程序前面板.

图5 最小均方delta规则神经网络的感知机训练程序图

图6 最小均方delta规则神经网络的感知机训练运行结果

w=(-0.945,1.304,-1.011)T

(17)

3 实验

在工件识别时，根据实时采集的图片，提取出工件的特征向量，代入式(4)计算感知机响应d(y)，如图1所示，若d(y)趋近1，则该工件属于长方形；若d(y)趋近0，则该工件属于小正方形；若d(y)趋近-1，则该工件属于大正方形.实验数据见表2，从表2数据可以看出，当选取式(17)中的权值时，即使特征向量y与训练向量有较大偏差时，感知机仍然可以正确地分类，具有一定鲁棒性.

图7 最小均方delta规则神经网络训练误差图

表2 工件识别系统实验结果

4 结论

提出了一种基于最小均方delta规则神经网络的工件识别算法，并已经在LabVIEW编程环境下实现，成功的应用到运动工件分拣系统中.该方法先对各类工件的样本进行特征提取，再进行离线学习计算出最佳权值向量，最后在线对工件进行分类，实验结果证明该方法实时性较强，准确可靠.由于只对

三种工件进行分类，若引申至多种工件的分类，就必须提取更多的工件特征.另外，神经网络没有涉及到隐含层，若要对多种工件进行准确地分类，必须加入隐含层，隐含层节点数的选取和权值向量的计算也是难点.

参考文献：

[1] KIM Y D, LEE G C. Tool requirements planning in a flexible manufacturing system with an automatic tool transporter[J]. IEEE Transactions on Robotics and Automation,2009,17(6):795-804.

[2] GHORAI S， MUKHERJEE A. Automatic defect detection on hot-rolled flat steel products[J]. IEEE Transactions on Instrumentation and Measurement,2013,62(3):612-621.

[3] HATSUDA T, AOKI Y, ECHIGO H. Ku-band long distance site-diversity(SD) characteristics using new measuring system[J]. IEEE Transactions on Antennas and Propagation,2010,52(6):1481-1491.

[4] KOLTICK D S, NIE L H. Associated particle neutron imaging for elemental analysis in medical diagnostics[J]. IEEE Transactions on Nuclear Science,2013,60(2):824-829.

[5] KLARE B F， BURGE M J. Face recognition performance: role of demographic information[J]. IEEE Transactions on Information Forensics and Security,2012,7(6):1789-1801.

[6] LOURENCO M, BARRETO J P. SRD-SIFT: key point detection and matching in images with radial distortion[J]. IEEE Transactions on Robotics,2012,28(3):752-760.

[7] HACHAMA M, DESOLNEUX A. Bayesian technique for image classifying registration[J]. IEEE Transactions on Image Processing,2012,21(9):4080-4091.

[8] 徐幻南,王晶,徐玲玲.基于GST和多级SVMs的PQDs分类方法研究[J].浙江工业大学学报，2012，40(4)：441-445.

[9] FRANK J, MANNOR S. Time series analysis using geometric template matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(3):740-754.

[10] 古辉,王益义.一种基于模板匹配的船铭牌字符分割方法[J].浙江工业大学学报，2010，38(1)：33-36.

[11] 张洪涛,计时鸣.基于改进的BP神经网络钢板表面缺陷分类算法研究[J].浙江工业大学学报，2010，38(4)：388-390.