APP下载

基于纹理特征与条件随机场的宫颈癌病理图像分类研究

2021-09-03张家伟李晨贺良子陈昊

中国医疗设备 2021年8期
关键词:灰度级特征向量特征提取

张家伟,李晨,贺良子,陈昊

1.东北大学 医学与生物信息工程学院,辽宁 沈阳 110819;2.北京航空航天大学 生物与医学工程学院,北京 100191

引言

宫颈癌是发病率与死亡率双高的妇科恶性肿瘤,因此对于宫颈癌的早期诊断与筛查是十分关键与必要的[1]。组织病理学方法是宫颈癌诊断的金标准,但是此方法需经验丰富的专家对大量组织病理学图像进行分析与诊断,具有很强的主观性和不确定性[2]。因此,一种高效准确的诊断方法急需被开发并应用。使用计算机人工智能辅助诊断将大幅推动宫颈癌筛查与诊断工作的普及。

国内在计算机辅助宫颈癌组织病理图像分析方面的相关研究较少。赵英红等[3]在CIELab颜色空间中采用K均值(K-means)彩色聚类算法分割宫颈癌细胞。宁梓淯等[4]使用支持向量机对宫颈癌组织病理学图像进行分类。

国外有很多将计算机技术应用在组织病理图像分析方面的相关研究。Keenan等[5]使用Delaunay三角剖分算法提取了图像特征,并使用传统的树形统计结构(决策树)进行分类。Naghdy等[6]提出了一个两层分类策略,使用Gabor滤波器组进行局部分类和全局分类的异常传播。Purwanti等[7]提出了一种利用人工神经网络和学习矢量量化对正常和异常宫颈细胞进行分类的方法,准确率达到了90%。Park等[8]使用了基于条件随机场(Conditional Random Field,CRF)模型的分类器,以概率方式去结合相邻区域从而获得分类结果。综上所述,针对宫颈癌组织病理学图像的方面的研究仍有较大的进步空间,尤其是将CRF应用于宫颈癌病理图像分析仍未取得突破性的进展。

临床上传统方法为涂片式检查,刮取宫颈处的细胞并涂抹在涂片上,采用免疫组织化的染色方法进行染色后放置在高倍显微镜下进行拍照,获得组织病理图像,再由专家进行分类鉴定[9]。目前,使用细胞病理学的方法对于宫颈癌进行人工诊断相对普及,此种方法对于医生的要求较高,不同的病理学家之间以及同一病理学家在不同状态下都有可能对相同的组织病理学或细胞病理学图像产生不同的判断[10]。本文提出的基于CRF的宫颈癌组织病理学图像的自动分析和诊断,可以提高分类准确率,达到提高计算机辅助诊断系统效果的目的。

1 方法

1.1 方法的整体流程

图1为本文方法的整体流程图,主要由两部分组成。首先,提出一种基于纹理特征与CRF的宫颈癌细胞分类方法。其次,对图像进行灰度化及网格化的预处理,并使用灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)研究纹理特征对于图像分类准确率的影响,通过调整随机森林的参数,获得三种分类器并比较不同的分类器,分别为CRF的一元势和二元势选择与其相符合的分类器,并在最终的CRF模型中计算联合概率分布的结果。

图1 开发流程示意图

1.2 预处理

由于直接获取的宫颈癌组织病理学图像存在因抖动、电子脉冲干扰等因素而导致的图片失真,需要对已有的病理学图像进行预处理。为了使计算机能够更为高效、准确地进行判定分类,需要对图像进行去噪和网格化处理。

1.2.1 图像去噪

根据实验图片的实际情况,选择图像平滑作为主要去噪方式。本实验采用中值滤波对图像进行去噪。噪声处理前后对比图像如图2所示。

图2 噪声处理前后对比图像

1.2.2 图像网格化

由于本实验为基于图像的每一个区块进行特征提取,因此网格化是预处理中的必要操作。网格化处理后的图像如图3所示。

图3 网格化处理后的图像与原图像对比

1.3 特征提取

本研究中,采用GLCM进行纹理特征提取。GLCM是一种通过计算图像二阶组合的条件概率密度来区分不同纹理的特征提取方法,具体表现为在图像中通过对具有一定距离、灰度值等状况进行统计而形成的矩阵[11-13]。

通过不同特征向量及其统计值的组合最终尝试实验了8种情况(其中,像素间距默认为1,GLCM的灰度级分别设置为4、8、16匹配以下多种情况)。

(1)参数设置1:仅使用GLCM本身作为特征向量,其中扫描方向设置为水平方向,即单方向参数。

(2)参数设置2:仅使用GLCM本身作为特征向量,其中扫描方向设置为4个方向参数,即方向、方向、方向及方向(通常情况下4个方向分别表示为:[0,1],[-1,0],[-1,1],[-1,-1],见图 4)。

图4 GLCM 4个方向参数

(3)参数设置3:选择GLCM的4种特征值,即对比度、齐次性、互相关、能量作为特征向量,其中扫描方向设置为4个方向参数,即方向、方向、方向及方向(图5)。

图5 宫颈癌组织病理图像采用4个方向参数提取出的4个GLCM

(4)参数设置4:在第3种情况的基础上,将4种特征向量分别统计均值及方差,形成最后的8个统计特征向量,扫描方向仍为4个方向。

(5)参数设置5:使用3个GLCM的特征向量,即平滑度、三阶矩、一致性,扫描方向仍为4个方向。

(6)参数设置6:将第4种情况及第5种情况相结合,形成11个统计特征,扫描方向仍为4个方向。

(7)参数设置7:使用矩阵的其他4种特征向量,即惯性矩、能量、互相关、熵,扫描方向仍为4个方向。

(8)参数设置8:将第7种情况的4个特征分别取均值及方差,形成最后的8统计特征,扫描方向仍为4个方向。

以上为实验当中用到的8种GLCM特征提取情况,且为了实现尽可能高的分类准确率,将灰度图的灰度级做了3种情况的处理,将原灰度图的灰度级分别压缩到4灰度级、8灰度级以及16灰度级,这样每张图片相当于被分为3张灰度级不同的子图,最后将3种灰度级的图片与8种特征提取情况相匹配获得24种不同的结果。

1.4 基于CRF的图像分类

CRF是由Lafferty等[14]于2001年提出的一种概念,它是一种将最大熵模型和隐马尔可夫模型相结合的无向图模型[15-16]。近年来,其常被应用于词性标注和命名实体标识中,并取得了显著的成就[17]。CRF是典型的判别模型,通过将其势函数接连相乘从而获得最终的联合概率。本研究设计了一种多层隐CRF(Multilayer Hidden CRF,MHCRF)框架用于解决复杂的宫颈癌组织病理学图像问题。MHCRF可以用式(1)来表示:

其中,Z用公式(2)表示:

图6为MHCRF的整体框架构图。为了将不同分化程度的病理图像准确分类,首先将经过免疫组织化学染色后的图片分为训练集、验证集以及测试集,经预处理后,将训练集和验证集的补丁级组织病理学图像输入到MHCRF框架进行弱监督学习[18],通过随机森林分类器对图像块进行预分类。接着基于所选择的图像块的分类结果,生成MHCRF的一元势和二元势,最终将一元势与二元势组合起来计算最终图像级的分类结果。

在图6中,左边为一元势的计算过程,右边为二元势的计算过程。第一层显示了与第二层对应的真实标签,第一层为不可见层,而第二层为可见层。第三层中,一元势表示每个补丁级图像被提取出来的纹理特征,而二元势是根据布局计算目标图像块周围8个图像块的特征,将特征总和作为中央目标图像块的最终特征,根据1.3介绍的8种GLCM参数设置情况,将8种参设条件下一元势和二元势提取的特征输入第四层。第四层采用随机森林分类器来获得补丁级图像的先验概率。第五层通过调整随机森林分类器的内部参数获得多种不同效果的分类器,同时提取不同的特征向量及其统计值,接着将分类器与各种特征提取情况分别组合,从中选择分类效果最优的组合作为最终的一元势与二元势模型。最后在第七层中结合上述模型并获得最终的MHCRF模型。

图6 MHCRF(GLCM)框架构图

一元势:标签xi取值c(c∈L)的概率与式(1)的一元势部分φi(xi,Y)相关,其中式(1)由φi(xi,Y)∝p(xi=c|fi(Y))给出,图像的数据作为位矢特征向量fi(Y)被表达,并且可能取决于Y的所有数据。

在该架构中的第三层提取GLCM特征。为了获得标签概率,将不同的特征提取情况输入到该MHCRF的第四层,即随机森林分类器,并将树的数量设置为2n(n=2,4,8)。最终获得3×3×8个,即72个先验准确率结果,并从中挑选准确率最高的一个作为一元势最终的代表。

二元势:式(1)的二元势部分,即φij(xi,xj,Y)表示了相邻位置的和如何获取标签(xi,xj)=(c,c')给出的数据,对应公式为:φij(xi,xj,Y)=p(xi=c;xj=c'|fi(Y)fj(Y))。图7为实验中二元势所用到的布局,实验使用这种布局通过计算该补丁周围八邻域的补丁的特征之和来表征该中心补丁的特征向量。

图7 二元势布局(“∑”代表将目标补丁的八邻域特征向量之和作为该补丁的特征向量)

2 实验

2.1 实验平台搭建

系统平台:Microsoft Windows 10;

编程语言:Matlab 2018a;

CPU :3.60 GHz Intel Core i7-7700 ;

GPU:GeForce GTX 1080 8 GB;

内存:32 GB RAM。

2.2 组织病理学显微图像数据库

2.2.1 数据库来源

本实验采用宫颈癌组织病理图像,在细胞病理学的角度通常把宫颈癌分为高、中、低分化三个分化阶段。本实验所用到的宫颈癌组织病理图像均来自于中国医科大学附属盛京医院的病理科医生。图像采用了免疫组化染色法。原图分辨率为2560×1920,经过预实验得出,由于显存过小,此分辨率的图像无法稳定进行实验。为了加快运转速度,且尽可能保留更多的图片信息,逐步降低图片分辨率,最终可以稳定运行实验的图像分辨率为1280×960。然后使用100×100的滑动窗口从图像的左上角遍历到右下角,步长为像素。裁剪之后无法整除的边缘部分直接舍弃,这也是图像裁剪的常规操作[19]。

2.2.2 数据集划分

数据库中共有103张图片,其中有高分化图像35张,中分化图像35张,低分化图像33张。由于本实验所用的方法为基于MHCRF框架的弱指导学习,只需要病理图像的高、中、低三分类标签,并不需要病灶区域的像素级标签。本实验数据中训练集包含9张高分化图像、9张中分化图像以及9张低分化图像;验证集包含9张高分化图像、9张中分化图像以及8张低分化图像;测试集包含17张高分化图像、17张中分化图像以及16张低分化图像。数据集的部分示例如图8所示。

图8 数据集示例

2.3 实验过程

首先求得在不同参设条件下的MHCRF分类结果,接着对不同参设条件下的实验结果进行具体分析,通过比较所有的实验结果,从中选出最终MHCRF的一元势以及二元势模型,最后计算得出MHCRF在验证集以及测试集的分类准确率情况。

3 结果

3.1 基于GLCM的随机森林一元势分类

根据1.4中所介绍的MHCRF来架构模型。首先,实验将在随机森林分类器层,获得针对于GLCM特征的图像补丁级(patch-level)的先验概率。接着将随机森林分类器分为n=2、n=4、n=8三种情况,并将三种情况分别应用于8种GLCM特征提取。最后将组织病理图灰度级分别设置为4、8、16,此unary-MHCRF-GLCM在第四层获得数据,如表1所示。

表1 不同GLCM灰度级下patch-level一元势分类准确率

综合以上情况可以看出,在第二种情况中,即使用具有4个方向参数的以GLCM本身作为特征向量进行实验时,在灰度级为8时并且随机森林含有256棵树时获得的Patch-level分类准确率最高,为0.5150。因此在unary-MHCRF-GLCM的第五层选取其作为最终的一元势特征向量-分类器(Feature-classifier)模型。

3.2 基于GLCM的随机森林二元势分类

与一元势实验相类似地,在二元势实验中也通过改变随机森林的树木情况(2n),将随机森林分类器分为n=2、n=4、n=8三种情况,并将三种情况分别应用于8种不同情况的GLCM特征提取,同时将灰度级分别设置为4、8、16,由此binary-MHCRF-GLCM在第四层获得结果如表2所示。

表2 不同GLCM灰度级下patch-level二元势分类准确率

根据实验结果可以看出在第二种参数设置情况时,即使用具有4个方向参数的GLCM作为特征向量时,灰度级设置为16且随机森林树木为256棵时获得的Patchlevel分类准确率最高,为0.5944。因此在binary-MHCRFGLCM的第五层选取其作为最终的二元势特征向量-分类器(Feature-classifier)模型。

3.3 一元势与二元势在MHCRF中的联合分布概率

通过计算混淆矩阵来展示最终的分类结果[20]。混淆矩阵通过使用行数和列数相等的矩阵来呈现算法性能的可视化方法,通常用于监督学习。该矩阵的每一列表示的是预测标签,而每一行则表示样本的实际标签。根据以上实验,已经完成了在MHCRF的第五层中进行的Feature-classifier的选择,接下来的实验将会在图像的级别进行操作。将验证集图像输入到MHCRF-GLCM模型中,最终在验证集图像上的一元势、二元势分类结果如图9a~9b所示。将获得的一元势与二元势的分类结果输入到MHCRF模型的最后一层获得最终的分类准确率如图9c所示,混淆矩阵中绿色方块代表真阳率,即分类正确的比例,而灰色方块为3个真阳率的和,代表了整体的分类准确率。

图9 GLCM分类结果

本文中所提出的弱监督MHCRF模型在验证集和测试集上的分类结果分别如图9c~9d所示,可以看到验证集和测试集的准确率分别为69.2%和82.0%。从这些结果可以看出虽然一元势和二元势的联合分布在验证集上是稳定的,但它在测试集上具有改善的分类性能。

在MHCRF-GLCM实验中,通过表1可以看出,在灰度级相同时,随着随机森林里树木的棵数增多,大多数情况下的分类准确率会有所提升。由此可得,当随机森林中用于分类的决策树增多时,在大部分情况下可以起到提高分类准确率的作用。

4 结论

本文提出了一种特征提取与分类器相结合的特征选择和一种基于弱监督的MHCRF。前者首先将随机森林分类器做不同的调整后获得了三种效果不同的分类器。后者将图像的标签层、真实图像层、特征提取层、随机森林分类器层、特征选择层链接起来,获得了一个MHCRF结构,并通过分别计算CRF的一元势及二元势最终获得联合概率分布。最终实验结果表明,使用MHCRF对于图像分类有很大的贡献,其中使用GLCM特征获得了的最高分类准确率达到了82.0%。

本文提出的方法还可以做进一步改进:① 本文仅使用了两种特征提取方法,未来可以提取更多的特征,并通过不同的特征融合方式获得更多的实验可能性;② 未来可以使用较新颖的深度学习对数据库进行图像分类,与传统的机器学习的分类结果形成对比;③ 本文所提出的MHCRF架构作为一种较新颖的模型,还存在更多的发展可能性,通过优化内部各层的结构以及所使用的方法将它设计为一个可以获得更高分类准确率的架构模型;④ 本文仅使用组织病理图像进行研究与分类,但是由于不同程度的患病者可能出现不同的生理信号,因此对于不同数据来源的特征提取以及分类方法还有一定的提升空间。

猜你喜欢

灰度级特征向量特征提取
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
人眼可感知最多相邻像素灰度差的全局图像优化方法*
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于灰度直方图的单一图像噪声类型识别研究
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
Bagging RCSP脑电特征提取算法
基于混沌加密的DCT域灰度级盲水印算法