基于示例选择的计算机辅助乳腺钙化簇检测研究

2015-04-14李耀琳王小东卜起荣陈宝莹

计算机工程与应用 2015年1期

李耀琳，冯筠，王小东，卜起荣，陈宝莹

1.西北大学信息科学与技术学院，西安 710127

2.第四军医大学唐都医院放射诊断科，西安 710038

1 引言

乳腺癌是妇女常见的恶性肿瘤之一，防治的关键在于早期诊断和早期治疗[1]，在乳腺癌的诸多影像检查方法中，钼靶X线检查被公认为最主要、最有效的检查手段[2]。乳腺癌的主要X线征象包括结节或肿块、毛刺和成簇钙化等，其中钙化簇在乳腺癌的诊断中占有特别重要的地位[3]。然而早期乳腺癌的钙化点容易被误诊漏诊[4]，随着计算机技术的快速发展，针对钼靶X线影像的计算机辅助检测微钙化簇已成为研究热点[5]。

传统计算机辅助检测系统CAD（Computer Aided Detection）大都包含以下几个部分[6]：（1）图像预处理，即对影像进行去噪、增强和去除床板等；（2）提取感兴趣区域 ROI（Region of Interest），即将疑似病灶的区域筛选出来；（3）特征提取，即提取出能够将正常组织和非正常组织区分开来的特征参数；（4）模式分类，根据提取出来的特征，将疑似区域进行再分类，最终得到该区域是正常组织或是病灶的结论。其中，提取感兴趣区域及分类器的设计是众多学者研究的热点。

在感兴趣区域提取方面，Fam等人提出基于区域增长的ROI提取方法，根据强度差异进行区域增长运算并计算像素的强度梯度，判断是否满足均值和误差标准，该算法的最大问题是所需的许多变量需要用户自己输入[7]。Nakayama等利用正交二维小波分析对乳腺图像进行分解，得到每个像素的Hessian矩阵，通过检测Hessian矩阵的特征值将ROI检测出来[8]。Papadopoulos等人提出对整个乳腺区域进行增强，然后和原来的图求差图，得到本身具有高灰度值且相对于局部背景具有高灰度值的像素点，从而提取ROI[9]。

在分类器设计方面，刘敏华等人利用尺度空间滤波法得到乳腺图像的显著特征图，再通过人眼视觉特性分割法得到粗检测钙化点二值图像，并送入分类器进行检测[10]。Alaylioglu等人将小波技术和神经网络技术加以结合，先在小波域的高频子带中对微钙化进行增强，然后再抽取其空间域和小波域特性，继而利用人工神经网络进行相应的分类[11]。Eila等人先用马尔科夫随机场方法去掉乳腺图像中均匀的部分，再对剩下的区域利用支持向量机分类[12]。Harirchi等人提出基于两层分类器检测法，第一级的分类器判定乳腺图像是否含有微钙化点，若有则通过第二级的分类器进行判定其严重程度[13]。还有许多方法提出通过集成分类器，或者改善分类器性能获得良好和快速的钙化簇检测效果[14]。

纵观计算机辅助诊断研究文献，提取ROI的方法目前分为两种：手工标注和半自动化提取[15]。手工标注虽然能够得到较为精确的ROI区域，但是由于需要专业医生人工确定，往往需要花费大量的时间和精力；半自动化提取方式虽然在一定程度上缓解了手工标注的需要，但是仍要求有医生手动提取的训练样本作为系统的初始条件[16]。更为重要的是，在传统乳腺钙化簇检测系统中，分类性能的好坏主要依赖于感兴趣区域的全面性、可区分性及特征集合的表征性能。在很多情况下，伪影和其他组织会被当做病灶提取出来，造成一个样本具有多个ROI，使得病灶区域不确定而引入更多非病灶信息，产生大量假阳，造成分类效果下降。

基于病灶显著特征的区域分割是提高检准率，降低假阳性率的关键所在。能够最大限度地从训练样本中学习特定种类区域特征的先验知识，并且利用先验知识进行有目的的区域分割，将是解决本问题的一个有效途径。多示例算法作为这样一种学习方式，使得在乳腺钙化簇诊断中可以忽略ROI分割步骤，这样既可以避免自动分割算法不精确带来的分类误差，也可以很大程度上减少医生提供训练样本时手画ROI的工作量。但是多示例学习一般需要花费大量时间迭代寻找最优概念点，因此训练时间比较长。

为了解决上述问题，本文通过选择正常组织区域训练先验知识，采用纹理统计建模进行区域的纹理和形状的量化描述，以钙化簇与正常组织的形状和纹理差异为条件，通过与正常区域的平均模型进行曼式距离的比较，进行自动寻找最大可疑病灶区域。该疑似区域面积相等且具有唯一性。通过模式识别分类技术对可疑区域进行检测，在无需人工提取ROI的前提下，不仅可以保持乳腺钙化簇检测精度，还能够大幅度减少运行时间和存储空间。

2 基于多示例的图像分包

在本文中，首先提出面向乳腺钼靶X线影像的示例打包方法。病灶图像中至少含有一个分割区域为钙化簇图像包，正常图像包中全部为正常组织区域。在进行每幅乳腺图像示例选择之前，必须给出可选示例集。而在没有人工标定的情况下，为了不漏掉任何可疑区域，应该选择一种整齐排列的分割方式，以便能够涵盖所有可疑信息。因此，本文采用正方形分割方式对乳腺图像进行分块。

2.1 乳腺钼靶X线图像分块

在对乳腺钼靶X线影像进行预处理之后，将图像全局分块，块大小为bl×bl，每个图像为一个包，包的已知标签由医生给定。每个块为包中的一个示例（钙化簇块，非钙化簇块），示例未知标签。分块方式如图1所示。

图1 图像分块

图中，分块大小bl的确定是影响后续特征提取与统计模型的关键，过大过小都会影响分类结果。由于乳腺微钙化簇的特殊性（形状不规则，大小不一致），采用较小块长，造成图像块中像素数量过少，且由于灰度共生矩阵是基于统计的纹理特征，所以块小不能体现统计特性，同时斑点噪声也较易影响图像特征提取的质量，最终使得准确率下降。之后随着块长增加，图像块中信息量增加，准确率得以逐渐上升，但是增加到一定量，由于图像块太大，扩入过多复杂纹理信息，分类准确率反而下降。

根据医学放射科对乳腺X线图像中的钙化簇的定义，区域内含有3个或3个以上钙化点的才称之为钙化簇，且钙化簇中的两个钙化点之间的距离一般小于2 mm。根据这两个先验知识，在预处理的二值化图像上对每个检测出来的疑似钙化点进行计算，计算其临近的4 mm×4 mm的邻域内疑似钙化点的数目，大于或等于3个则认为该疑似钙化点邻域内成簇状分布，且在其邻域范围内的疑似钙化点应给予保留。所以在进行乳腺钼靶X线影像分块时，bl取值以能覆盖小范围钙化簇为基准。如果块的长度小于4 mm，可能无法包含3个以上的钙化点，难以形成钙化簇特性，因此，块的长度bl至少取4 mm。

由于各个X线影像分辨率的差异，块的长度表现在像素上会有不同。其中块的毫米长度bl与块的像素pixel之间的转化关系为：

其中DPI表示每英寸点数，反映扫描精度。另外，对于不同来源的影像，其分块数目不同，但分块标准仍以覆盖最小范围钙化簇为基准。

2.2 乳腺钼靶X线分块图像打包

本文采用一幅图像作为一个包，每个包包含对应图像的所有块。换言之，每个正包和负包都应该包含bl×bl个示例。但是因为一幅乳腺图像中，真正是乳腺部分的信息一般只占整个图像的一半甚至更少，因此存在大量的冗余空白信息，如果把这些背景信息也算成包中的示例，一方面会影响包中信息的有效成分，另一方面会影响统计模型建立的真实性和正确性。必须删除这些无用的块。

通过提取所有块的像素信息去删除无用块。在前期的图像预处理中，已经剔除掉可能影响图像质量的杂质，以及图像背景上的机床、拍摄仪器的阴影等，所以这些背景块的像素值基本都保持在某一较大灰度值，而且没有任何纹理和几何信息，因此很容易去除。或者先直接对预处理后的乳腺图像进行区域分割，把乳腺部分分割出来，再进行分块，这样的块就只包含乳腺信息。筛选后的块分别被选入对应的包中，其中，正包中包含至少一个钙化簇块，负包中全部是非钙化簇块。打包方式如图2所示。

图2 分块图像打包

3 基于AAM算法的示例选择

主动表观模型（Active Appearance Model，AAM）作为一种参数化的形状和纹理表观模型[17]，利用主成分分析对可变性目标的形状和纹理进行统一建模[17]。AAM是近年来广泛应用于模式识别领域的一种基于特征点的提取方法。它不仅考虑到了局部的特征信息，而且综合了全局性状和纹理信息，对这些局部特征和全局纹理进行统计分析，就可以建立物体的混合AAM模型。而乳腺钼靶X线影像中钙化簇与正常组织的区别主要表现在形状和纹理特征的不同，对正常组织区域统一建模能够学习非病灶区域的先验知识，并且无需迭代寻找最优概念点，减少了运行时间和存储空间。

但是，AAM模型目前仅广泛用于人脸定位和识别，在计算机辅助医学图像检测领域上的应用较少，只有张等人提出通过AAM算法对人工提取的ROI在不进行特征提取的基础上直接进行乳腺癌检测[18]。本文首次提出基于AAM的示例选择算法，并用于计算机辅助乳腺钙化簇检测中，其流程图如图3所示。

图3 基于示例选择的计算机辅助钙化簇检测算法流程图

3.1 基于AAM的纹理统计建模

由于正包中包含至少一个钙化簇块，负包中全部是非钙化簇块，可以确定大量的负示例，也就是非钙化簇块。本文抓住包的这一性质，对大量负示例建立统计模型，通过AAM算法对所有负包中的负示例建立平均模型，并计算未知乳腺图像包中每个示例到平均模型的距离。

假设训练样本的所有负包中共有m个示例：

（2）计算未知包中每个示例与平均模型的偏移量：

（3）计算偏移量的协方差矩阵Ca：

（4）计算协方差矩阵Ca的特征值：，特征向量：。

（5）计算能使总贡献率ϑt最大的前t个特征值：

3.2 基于曼式距离的示例选择

以分块图像作为计算示例，在建立了大量正常组织区域的平均模型后，去衡量未知图像块与平均模型之间的差异性，即未知图像包中的示例与平均模型的距离。差异性越大，距离越远；反之，距离越小。

对于各个负包来说，与平均模型距离最近的示例可选做该包中最可能是非钙化簇的示例，也就可以看成这幅图像中的非钙化簇可疑区域；同理对于各个正包来说，与平均模型距离最远的示例可选做该包中最可能是钙化簇的示例，也就可以看成这幅图像中的钙化簇可疑区域。由此可估计出每幅图像中最接近临床标定结果的代表示例，达到了在人工未标记的情况下自动选取最大可疑区域的目的。

由于每一幅乳腺钼靶X线影像患病情况都是未知的，虽然并不确定代表示例的正负性，但是计算机辅助检测的目标是找出有钙化簇的图像，所以本文的目标是找出每幅乳腺图像中的疑似钙化簇示例，避免漏诊。因此，只要对所有未知图像的示例与平均模型进行距离计算，其中距离最大的示例就最可能是钙化簇疑似区域。

假设对应包中共有n个示例，l为距离平均模型最大的示例在其对应包中的编号，Dl代表n个示例中与平均模型最远的距离。其算法流程如下。

（1）计算未知包中每个示例到平均模型的曼式距离：

（2）计算未知包中与平均模型距离最大的示例：

3.3 基于纹理和灰度的示例特征选择

在选出乳腺钼靶X线影像的疑似区域后，就转化到传统的模式识别分类上。虽然还要进行特征提取这一步，但是与传统多示例算法相比，已经极大程度上减少了感兴趣区域提取和特征提取的运算。因为多示例进行运算时，需要提前提取所有示例的特征去寻找最大概念点，并且在运算时多维特征的存储和计算都会提高空间和时间的复杂度。而本文提出的算法在进行特征提取时只针对一个包中的一个示例，减少了不必要的运算，从另一方面减少了运行时间和存储空间。

根据乳腺钼靶X线影像的纹理和灰度表现形式，对提取的最疑似区域进行了主要特征的提取，如表1所示。

表1 乳腺图像提取的特征

训练样本的特征向量，经过传统分类器的学习，建立有效的先验知识分类器。接着，用此分类器进行可疑病灶区域的分类，即为每幅乳腺图像的钙化簇检测结果。

4 实验结果及分析

4.1 实验数据

从南佛罗里达州立大学提供的DDSM数据库获得740幅乳腺图像（http：//marthon.csee.usf.edu/Mammography/Database.html），其中病灶图像380幅，正常图像360幅。选择训练样本300幅，包括病灶图像150幅，正常图像150幅，进行建模的负示例全部来自训练样本中的病灶图像。测试样本为440幅，全部通过本文算法自动提取可疑病灶区域。同时对西安市唐都医院的乳腺钼靶X线影像进行测试。数据实验采用五重交叉检验。

由于DDSM图像大小和亮度都不统一，先对其进行归一化。归一化后的图像大小均为3 000像素×1 500像素，亮度为0～4 096的灰度值，如图4所示。

图4 原始图像（DDSM）

对上述归一化图像进行10×5的分块，每块大小为300像素×300像素，并把每幅图像的可用分块图像作为一个示例包，图5给出两幅图像分块后的示例。

图5 分块图像（DDSM）

同理，对唐都医院的乳腺图像进行归一化，并进行图像分块，每块大小为256像素×256像素。

4.2 实验结果

对DDSM训练集中所有负包中的示例分别进行空域和频域纹理统计建模，可以发现空域下的平均模型表现为普通图像形式，而频域下的表现为频谱图形式，其平均模型如图6所示。

图6 负包平均模型（DDSM）

测试集中各个包的示例与平均模型进行距离计算，取最大距离得到代表示例，把选择的代表示例看做可疑病灶区域，某个包选择的示例如图7所示。

图7 选择的代表示例（DDSM）

对唐都医院训练集进行纹理建模，其空域平均模型和频域平均模型如图8所示。

图8 负包平均模型（唐都医院）

测试集中某个包选择的代表示例如图9所示。

图9 选择的代表示例（唐都医院）

本文首先比较了基于空域纹理模型和基于频域纹理模型提取可疑区域的检测性能。使用KNN（k-Nearest Neighbor）分类器分类，其近邻数k取1到15，DDSM数据和唐都医院数据的检测结果分别如图10和图11所示。

为了客观地评价本文提出的算法和传统多示例DD算法（Diverse Density algorithm）、人工标注ROI的强分类检测算法的优劣，进一步进行了性能测试。人工标记的ROI区域和本文提出的空域及频域示例均使用SVM（Support Vector Machine）分类器进行分类，其惩罚因子C=100，通过反复实验选用径向基核函数。表2显示了4种算法在DDSM数据上的性能比较。

4.3 实验结果比较及分析

图10 KNN检测结果（DDSM）

图11 KNN检测结果（唐都医院）

表2 性能测试结果

从表2中，可以发现空域纹理建模比频域的性能高，它们的训练时间接近，但是空域下的检测正确率高于频域，真阳性率也高于频域，并且假阳性率明显低于频域；频域下的检测性能虽然在时间方面快于DD算法，但真阳性率没有DD算法高；空域下的检测能力比DD算法强，不仅在检测正确率上高出10个多百分点，真阳性率也略高于DD算法，而假阳性率明显低于DD算法，并且训练时间要短很多。而在有人工标注的情况下使用SVM进行检测，其检测性能与使用空域纹理建模持平，虽然其真阳性率稍高于空域，但是其人工标注的时间却是巨大的。因此，通过本文提出的基于空域纹理建模的示例选择方法，进行自动化提取可疑病灶区域是可靠的，并且能降低训练时间。

图10和图11也给出了空域和纹理建模两种算法的检测结果，无论是DDSM数据还是唐都医院的临床数据，都显示基于空域纹理建模比频域纹理建模的正确率高，并且真阳性高，假阳性低，说明空域纹理建模下的示例选择更胜一筹。

5 结束语

本文首次使用AAM算法解决了计算机辅助乳腺钙化簇检测中的人工标注ROI问题，通过建立正常区域平均模型进行病灶示例的选择。实验表明纹理统计建模对于解决人工提取ROI有一定帮助，达到在没有人工标注感兴趣区域的情况下，自动提取一个可疑病灶区域，也能有较高的钙化簇检测率，同时在一定程度上降低了时间和空间复杂度。

[1]Nielsen M，Karemore G，Loog M，et al.A novel and automatic mammographic texture resemblance marker is an independent risk factor for breast cancer[J].Cancer Epidemiology，2011，35：381-387.

[2]Dubey R B，Hanmandlu M，Gupta S K.A comparison of two methods for the segmentation of masses in the digital mammograms[J].Computerized Medical Imaging and Graphics，2010，34：185-191.

[3]Strickland R N，Hahn H.Wavelet transforms for detecting microcalcifications in mammograms[J].Medical Imaging，1996，15（2）：218-229.

[4]Verma B，McLeod P，Klevansky A.Classifition of benign and malignant patterns in digital mammograms for the diagnosis of breast cancer[J].Expert Systems with Applications，2010，37：3344-3351.

[5]常甜甜，刘红卫，王宇，等.基于分组特征多核支持向量机的微钙化簇检测[J].系统仿真学报，2010，22（5）：1159-1161.

[6]付强，冯筠，王惠亚.基于动态特征子集选择和EM-Bayesian集成算法的乳腺癌辅助检测[C]//全国模式识别会议，2009：88-92.

[7]Fam B W，Olson S L，Winter P F，et al.Algorithm for the detection of fine clustered calcifications on film mammograms[J].Radiology，1988，169：333-337.

[8]Nakayama R，Uchiyama Y，Yamamoto K，et al.Computeraided diagnosis scheme using a filter bank for detection of microcalcificationclustersinmammograms[J].IEEE Transactions on Biomedical Engineering，2006，53（2）：273-283.

[9]Papadopoulos A，Fotiadis D I，Likas A.An automatic microcalcification detection system based on hybrid neural network classifier[J].Artificial Intelligence in Medicine，2002，25（2）：149-167.

[10]刘敏华.基于尺度空间滤波的乳腺X线图像微钙化点检测及辅助诊断技术研究[D].秦皇岛：燕山大学，2010.

[11]Tsai Nan-Chyuan，Chen Hongwei，Hsu Sheng-Liang.Computer-aided diagnosis for early-stage breast cancer by using wavelet transform[J].Computerized Medical Imaging and Graphics，2011，35（1）：1-8.

[12]Eddaoudi F，Regragui F，Mahmoudi A，et al.Masses detection using SVM classifier based on textures analysis[J].Applied Mathematical Sciences，2011，5（8）：367-379.

[13]Harirchi F，Radparvar P，Moghaddam H A，et al.Two-level Algorithm for MCs detection in mammograms using diverse-adaboost-SVM[J].Pattern Recognition，2010，75：269-272.

[14]Ramirez-Villegas J F，Ramirez-Moreno D F.Wavelet packet energy，Tsallis entropy and statistical parameterization for support vector-based and neural-based classification of mammographic regions[J].Neurocomputing，2012，77（1）：82-100.

[15]李树楠，万柏坤，马振鹤，等.基于小波变换的乳腺X线影像微钙化点感兴趣区域提取新技术[J].生物医学工程学杂志，2005，22（2）：360-362.

[16]Jo Eun-Byeol，Lee Ju-Hwan，Park Jun-Young，et al.Detection of breast cancer based on texture analysis from digital mammograms[J].Advances in Intelligent Systems and Computing，2013，194：893-900.

[17]Cootes T F，Edwards G J，Taylor C J.Active appearance models[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2001，23（6）：681-685.

[18]张欣.基于统计模型的乳腺癌微钙化点病灶辅助检测研究[D].西安：西北大学，2010.

[19]Fu Zhouyu，Robles-Kelly A，Zhou Jun.MILIS：Multiple Instance Learning with Instance Selection[J].Pattern Analysis and Machine Intelligence，2011，33（5）：958-962.