基于生物视觉通路的目标识别算法

2012-07-18徐小红

合肥工业大学学报（自然科学版） 2012年4期

关键词：滤波器运算卷积

宋皓，徐小红

（1.合肥工业大学计算机与信息学院，安徽合肥 230009；2.中国电子科技集团公司第三十八研究所，安徽合肥 230088）

基于生物视觉通路的目标识别算法

宋皓1，2，徐小红1

（1.合肥工业大学计算机与信息学院，安徽合肥 230009；2.中国电子科技集团公司第三十八研究所，安徽合肥 230088）

研究哺乳动物视觉通路的结构和功能，为机器学习提供了广泛的思路。文章对经典稀疏编码和HMAX模型进行改进，建立一种模拟完整视觉通路的算法。用4DGabor金字塔模拟了视觉信息从视网膜到腹侧通路V1区的处理过程；设计一种带稀疏编码性质的非线性滤波器，模拟了信息在V1区到PFC区的多层次处理步骤。实验表明该算法能够符合已知生物模型，达到现有同类先进算法的效果。

皮层；HMAX模型；目标识别

随着神经系统学、生物物理学、解剖学、电生理学及心理学等学科的发展，基于生物视觉模式的计算机识别越来越广泛地被人们所接受。1952年，Paul McLean提出人类大脑是由“爬虫类脑”（脑干）、“哺乳动物类脑”（边缘系统）和“人类大脑”（新皮质）组成的三位一体（triune brain），其中新皮层（Neopallium）负责高级认知和记忆。1981年美国科学家Roger Sperry因为研究大脑半球的功能、瑞典科学家Torsten Nils Wiesel和美国科学家David Hunter Hubel因为研究大脑视神经皮层（Visual Cortex）的功能结构而共同获得诺贝尔生理学或医学奖。文献［1］论述了有关拓扑知觉理论生物学的证据。同步地，以生物实验为基础，计算机识别模型的建立也在不断地更新。本文将一个完整的图像表达分为编码（Coding）和汇聚（Pooling）2个部分。

近年来，局域特征（例如SIFT和HOG）催化了识别的发展。由低级特征（low－level descriptors）融合的全局特征不同于表达图像语义结构的高级特征，所以称之为中级特征（mid－level features）。流行的中级特征有bags of features、spatial pyramids和deep belief networks。建立高阶的能捕捉角、结点的局域特征，并能广泛用于自然图像的表达是提高目标识别的一种方法。

Pooling分为最大汇聚（max pooling）和平均汇聚（average pooling）2种方式。

多层最大汇聚的目标表达中，其多层的运用取决于它们所捕获的相邻像素［2］。然而，这种模型的参数间的线性关系限制了目标的表达。

平均汇聚最显著的例子是卷积神经网络（convolutional neural network），其多层非线性模型识别能力很强，但是训练困难。这是由于：① 其仍受消失梯度的影响，会阻止深层次的神经网络学习；② 必须有监督的学习、众多的参数，需要大量标记过的数据。

本文在经典稀疏编码和HMAX模型的基础上，依据生物学实验基础，利用卷积神经网络对模拟视觉通路的滤波器进行了改进。改进后的算法使用稀疏模式与加权线性模式相迭代，从而产生非线性效果。

本文的模型具有的优势有：

（1）训练每层输入的丢失函数，而与层数无关，从而降低算法复杂度。

（2）去除图像高阶统计特性，具有高度的非线性，从而提高分类精度。

（3）有神经生物学理论支持。

本文分解模型分为4层，每层分为3个步骤：预处理将原始图像转化为灰度金字塔，便于稀疏非线性滤波器输入；Coding提取原始的局域信息；Pooling得到完整的全局信息，作为分类器的输入向量。

1 非线性多层稀疏模型

1.1 预处理

视网膜和晶状体的功能和CCD感光板功能相似。约90%的视网膜神经节细胞轴突将到达外侧膝状体交换神经元［3］。为了模拟该部分功能，先将图像转化为灰度图像，并中心化和预白化，再将图像按照原先比例将短边定为140像素。最后用Gabor滤波器创造一个16层（16个尺度7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37个像素，对应于动物的视角从0.19°到1.07°变化）的3D多尺度图像金字塔。

选取Gabor滤波器的原因是其奇偶分量与哺乳动物视觉皮层简单细胞感受野模型有良好近似［4］。

函数公式为：其中，X＝xcosθ＋ysinθ；Y＝－xcosθ＋ysinθ。可调参数为：方向参数θ，高斯包络面参数σ，纹线波长参数λ。

θ取4个方向（0°、45°、90°和135°），与3D 图像金字塔组成一个4D的图像结构体。结构体内每个图像块为不同方向的2DGabor滤波器对输入图像的所有位置进行遍历的滤波。其他参数设置详见实验。

1.2 Coding

视觉皮层中V1、V2区简单细胞（simple units）能够辨认出在视觉方向和空间频率上的微妙变化。而复杂细胞（complex units）能对其感受眼内的同朝向边缘的位置和尺度不变性，得到具有平移和尺度不变性的图像块。V4区能够调节物体中等复杂的特性（例如物体的简单几何形状）［5］。同时考虑到自然图像的统计特性，能量谱只能去除二阶统计特性，然而对于高级统计特性，稀疏编码是一种有效的独立特征的提取方法。

本文的模型生成完整的图像表达，能被用于如SVM和BOOSTING的标准分类器的输入。不同于其他图像表示，该方法需要事先训练一个滤波器。本模型先用稀疏编码形成多个变换的层，然后利用最大汇聚运算。每个解卷积层直接减少了输入图像受稀疏编码重构的错误。该模型为：

其中，Cl（y）为代价函数；l为层；为重建图像；y为原始图像；zk，l为2D特征图；λl为权重。与现存的算法相比，本文的卷积稀疏编码尝试直接减小重建的错误，而不是输出下层图像。

对于给定的输入图像y滤波器f和层l，本文的目的是找到特征图zk，l和最小化丢失函数Cl（y）。在每层中，为了解决大量卷积稀疏编码的问题，本文采用文献［6］的方法，用辅助变量w（z中的1个单元）来区分可能性（likelihood）和正则项（regularization term），从而可得：

其中，βl为附加参数；Cl（y）为被最小化的代价函数。

（1）修复2Dzk，l生成一个可分离的wk，l的1D问题。W－subproblem 给定zk，l，最佳的wk，l为：

（2）用一个二次方程，通过wk，l解决zk，l（Z－subproblem）。从βl开始，交替解决2个subproblem，直到βl足够联系zk，l和wk，l，最终网络收敛。

Z－subproblem：给定wk，l，用（5）式最小化zk，l：

本文的模型未表现出明显的非线性。但是下述步骤体现了本算法的非线性，由zl所生成的是线性的，对于确定的向量s1，…，sl－1等同于：

作为输入在l层进行滤波FT和汇聚Ps运算。由（5）式求极值，得到zl的线性系统为：

相应地，用zl通过Rl计算矩阵向量，然后通过获得层l，最终将βl加到所有单元上。（7）式右边除了有输入图像还有平均权重βlwl。重建R和传播RT操作非常快，只包含卷积、求和、s1作为阈值的汇聚或非汇聚运算，所有这些运算都包含丢失惩罚。所有上述运算可以有效地用线性共轭梯度算法解决（7）式，即使是特征图多达105。

1.3 Pooling

在模型的每层中，重建图像由2D特征图zk，l和滤波器组成，即

其中，＊为2D卷积操作。滤波器f中所有参数经训练后确定。特征图zk，l对于每幅输入图像是可变的。当K＞1时，模型具有过完备性（overcomplete），但是正则化参数确定只有唯一一种解决方法。本文合并l层的卷积和最大汇聚运算到一个矩阵Fl，将2D特征图zk，l简化到zl：

在每一个解卷积层，在特征图zk，l上做一个最大汇聚（max pooling）运算，此运算不仅在同层之间进行，而且在相邻层之间运算，起到稀疏作用。在第1层特征图中的每个特征pj，1（x，y）是由在特征图z1中的相邻像素N（x，y，j）执行最大运算生成的。Pooling运算也称为池运算。一个典型的3×3窗口（无叠加）二维的最大池运算公式为：

开关变量s1用以表示池运算的最大值。为了描述简单，用矩阵表示池运算。p1＝1，Ps1为二值矩阵。其相应的非最大池运算＝，将单元p1在s1位置上赋值为z1，其余赋值为0，＝1。池运算的目的是进行模型运算时，特征图内每个单元能最大地表示原输入图像。

1.4 多层结构

本算法与其他算法相比，层数均为4层，但是特征图Kl却大大增加了，每层都用滤波器重建输入图像，定义重建操作Rl为：把特征图zl从l层中交替地卷积并且不做池运算直接输入下一层：

本文的模型从底层开始执行，当层上升时，滤波器和开关变量选定，当到达推论时，用（7）式完成Z－subproblem，用（4）式完成开关变量。对于输入图像Y＝｛y1，…，yi，…，yN｝，学习的目的是用不同的图像训练滤波器f，并且在给定层中计算。由（1）式求极值得到fl的线性系统为：

整个算法如图1所示，实际中，本文发现2次CG重复，zl和fl就能有效地收敛。

图1 算法结构及其结果

2 仿真实验

Caltech 101由Feifei Li，Marco Andreeto及Marcelio Ranzato于2003年9月整理。其中有效物体共101类，再加上背景，共102类。其中有40～800张彩色图片，大部分类中有50张图片，每张图片的大小为300×200。本文从中选取3 060幅图像（每种30幅）作为训练样本。

（1）输入图像转化为灰度。

（2）利用Gabor滤波器对3D金字塔滤波。Gabor参数设置为：x，y∈（－5，5），γ＝0.3，σ＝4.5，λ＝5.6。即滤波器归一化，均值为0，模为1。

（3）对所得到的图像块（Patch）进行处理（白化和中心化），f中稀疏字典库大小为512。参数设置为：e≤0.01，λSC＝0.2，σSC＝0.14。

（4）利用f比较相同方向、不同尺度的Patch，得到局域不变特征。

（5）对得到的特征图z1，1进行类感受野抑制操作。参数设置为：s1，1＝0.5。

（6）得到汇聚图p1，1，并反复迭代4次，最终得到全局特征。从待分类图中建立特征，最终测试分类结果。

实验中，比较pooling部分，采用本文算法、Average pooling （convolutional nets）［7］、Max pooling；比较分类器，采用线性 SVM［8］、Spatial Pyramid Match（SPM）［6］。分类结果及耗时见表1所列。

表1 分类结果及耗时

数据库中其余图片作为测试样本。算法分类正确率69.58%。如果在第4层再用一次 Max Pooling，本文能再提升6%，超过了很多其他层次结构与SPM分类组合算法；若使用SVM的RBF核，可达到79.11%。

算法训练耗时约48h。对于单幅图像分类时间平均为16.6s，其中耗时最长是最后提取全局不变特征，约为10.3s。上述时间是由Matlab在单个4核CPU完成的。

3 结束语

用4D结构的Gabor滤波器模拟了视网膜对输入视觉信息的模拟，从而完成了计算机视觉中的Coding部分。设计一种高阶滤波器模型，模拟了视觉信息在大脑皮层中的处理过程，从而完成了计算机视觉中的Pooling部分。实验表明，本文算法能够有效地减小复杂度和提高精度。在模型中加入了感受野模型，并简化了最后的全局特征，从而使整个耗时接近人类真实处理视觉信息的时间，但仍远大于人类识别单幅图像的时间，其原因可能在于训练时间不能与人类真实训练时间相比。但随着硬件的提高以及大脑皮层更深的理解，可以更真实地模拟人类处理视觉的过程。

［1］Zhuo Y，Zhou T G，Rao H Y，et al.Contributions of the visual ventral pathway to long－range apparent motion［J］.Science，2003，299：417－420.

［2］Felzenszwalb P，Mcallester D，Ramanan D.A discriminatively trained，multiscale，deformable part model［C］／／CVPR，2008，11：122－125.

［3］Hubel D H.Single unit activity in lateral geniculate body and optic tract of unrestrained cats［J］.Hysiol，1960，150：91－104.

［4］Hayashi I，Maeda HOillianmson J R.A formulation of receptive field type input layer for TAM network using Gabor function［C］／／Budapest，Hungary，2004，29：25－29.

［5］Serre T，Wolf T.Robust object recognition with cortex like mechanisms［C］／／IEEE Transactions on Pattern Analysis and Machine Intelligence，2007，29：411－426.

［6］Lazebnik S，Schmid C，Ponce J.Beyond bags of features：Spatial pyramid matching for recognizing natural scene categories［C］／／CVPR，2006，11：211—223.

［7］LeCun Y，Bottou L，Bengio Y.Gradientbased learning applied to document recognition［J］.Proceedings of the IEEE，1998，86（11）：2278－2324.

［8］华德梅，叶震.一个基于改进遗传算法的RBF网络入侵检测模型［J］.合肥工业大学学报：自然科学版，2010，33（3）：368－371，375.

Object recognition algorithm based on biological visual pathway

SONG Hao1，2， XU Xiao－hong1
（1.School of Computer and Information，Hefei University of Technology，Hefei 230009，China；2.No.38Research Institute，China Electronics Technology Group Corporation，Hefei 230088，China）

The research on the anatomical and functional connectivity of visual pathway affords a broad way of machine learning.An algorithm to simulate the whole visual pathway is presented based on the improved classic SC and HMAX models.This process can be broken down into two steps：the first is a coding step，which utilizes 4DGabor pyramid to simulate visual information processing from the retina to the ventral pathway V1 area，and the second is a pooling step，which utilizes a sparse nonlinear filter to simulate multi－level visual information processing from V1area to PFC area.The experimental results show that this approach tallies with the living model and achieves the result of the state－of－the－art model.

cortex；HMAX model；object recognition

TP389.1

1003－5060（2012）04－0481－04

10.3969／j.issn.1003－5060.2012.04.011

2011－04－17；

2011－05－04

宋皓（1982－），男，安徽合肥人，合肥工业大学硕士生；

徐小红（1976－），男，安徽合肥人，博士，合肥工业大学讲师，硕士生导师.

（责任编辑闫杏丽）