APP下载

基于多分类器和多模态特征的AD患者鉴别研究

2020-11-06徐鑫秀

现代信息科技 2020年13期
关键词:分类器模态受试者

摘  要:已有很多成果利用结构功能磁共振成像、静息态功能磁共振成像等成像数据研究机器学习判别分析在阿尔茨海默病患者诊断中的应用,经进一步分析发现,如果能够综合利用多种模态成像特征数据将为分类器提供更丰富、全面的信息,有利于最终的判别分析。在这项研究中,提出一种将结构功能磁共振成像、静息态功能磁共振成像两种成像模态提取的特征结合的机器学习分类算法应用于阿尔茨海默病患者鉴别的方法,相比利用单一模态数据的鉴别模型具有显著优势。

关键词:AD疾病辅助诊断;多模态;多分类器;MLDA;SVM;MRI;R-fMRI

中图分类号:TP391.41      文献标识码:A 文章编号:2096-4706(2020)13-0001-04

Abstract:There are many achievements on the application of machine learning discriminant analysis in the diagnosis of AD patients using MRI、R-fMRI and other imaging data. Through further analysis,it is found that if the multi-modal imaging feature data can be used comprehensively,it will provide more abundant and comprehensive information for the classifier,which is conducive to the final discriminant analysis. In this study,the machine learning classification algorithm is proposed to identify the AD patients by combining the feature extraction methods of the two imaging modalities of MRI and R-fMRI. Compared with the identification model using single modal data,it has a significant advantage.

Keywords:aided diagnosis of AD patients;multi-modal imaging;multi-classifier;MLDA;SVM;MRI;R-fMRI

0  引  言

阿尔茨海默病(Alzheimers disease,AD)是一种常见的进行性神经衰退性疾病,临床主要表现为记忆力和其他认知功能的下降,它会逐渐破坏患者的记忆和推理、判断、交流以及处理日常活动的能力[1]。据报道,自20世纪80年代中期以来,西方国家65岁以上老年痴呆症的患病率为3.6%~10.3%,东亚地区为1.8%~10.8%,另据估计,大约50%~60%的痴呆患者患有AD[2]。而且患者往往在晚期才被明确诊断为患有AD,因此,在这样的进行性神经衰退性疾病晚期,开始任何可能的神经保护治疗对疾病的治疗都鲜有实质性的影响。为了提高对AD患者的基础研究水平和临床干预水平,寻找一种有效的、客观的诊断方法来区分早期轻度AD患者和健康对照者是至关重要的。在过去的二十年里,人们已经采取了各种客观的措施来鉴别、诊断阿尔茨海默病,包括一系列的嗅觉、电生理和神经心理学测试[3]。在提供客观评估方面,技术最发达的领域是神经影像学[4]。

近年来,神经影像学领域中诊断AD的客观方法越来越多。以前的大多数研究都是基于有创伤性的成像方式或单一的成像方式,而这并不是理想的诊断工具。近年来,静息态功能磁共振成像(R-fMRI)作为一种高时空分辨率的无创技术,已被用于多种神经精神疾病的脑功能异常研究[5,6]。此外,最近一些研究成果利用结构功能磁共振成像(MRI)数据,根据提取的特征研究AD的自动分类方法[7,8],比如基于顶点的皮质厚度和体素方向的体积特征。综上所述,这些研究表明AD患者的结构MRI和R-fMRI变化与疾病的严重程度显著相关,如果能有效地整合结构和功能脑成像信息,就可以更好地将阿尔茨海默病患者与健康人群区分开来。在这项研究中,我们提出了一种基于多模态成像特征和多分析器的AD患者分析框架,该分析方法可以综合各种模态脑成像信息的优点来诊断早期AD患者。通过实验证明该分析框架相比原有的基于单一模态数据或者基于一种分类器的AD患者鉴别框架在准确率上具有明显的优势。下边依次介绍该框架所用到的四种特征数据提取,分析框架的建立、实验数据、分析结果。

1  结构MRI和R-fMRI特征提取

根据已有的相关研究成果可知,结构MRI数据包含了丰富的脑组织形态学信息,包括灰质密度(GMD)、白质密度(WMD)和脑脊液(CSF)密度,其中灰质密度已被广泛应用于研究AD患者的灰质萎缩。R-fMRI对于正常和病理状态下大脑的内在功能结构的分析研究至关重要。一些研究已经利用R-fMRI证明AD疾病与R-fMRI多个层次的特征改变有关,包括低频振幅(ALFF)、局部一致性(ReHo)、區域功能连接度(RFCS)。近年来的一些基于机器学习算法的AD患者诊断研究表明,综合利用多模态成像信息可以显著提高AD诊断的识别精度[9,10]。因此在本文研究中,我们提出利用多模态成像(结构MRI和R-fMRI)的多水平特征(ALFF、ReHo、RFCS、GMD)来区分AD患者和健康对照组。通过有效地整合丰富而全面的信息,可以提高整个系统的分类能力。

1.1  局部一致性

局部一致性(ReHo)最初是用来测量功能磁共振成像时间过程中区域之间的同步程度,并可用于评估静息状态下的大脑活动。ReHo被定义为给定体素与其最近邻体素时间序列的Kendall一致性系数(KCC),相邻体素的数目是26。计算公式如下:

其中,n表示时间点数,k为给定体素和其最近邻体素的点数和,由于本例中选择相邻体素的数目是26,所以本例中二者之和为27,它们共同构成一个成像簇(cluster),Ri為该cluster中每个体素点的体素值, 代表它们的平均值。

为了减少所有受试者变异性的整体影响,用每个体素的ReHo除以每个受试者的整体平均ReHo值。因此,每个受试者都获得了一张ReHo图。然后使用自动解剖标记(AAL)图谱将单个ReHo图划分为116个感兴趣区域(ROI),并计算每个区域的平均ReHo值。一个受试者的ReHo特征由每个区域的平均ReHo组成。

1.2  低频振幅

低频振幅(ALFF)是衡量人脑固有或自发神经活动能量水平的有效指标。简单来说,首先利用快速傅立叶变换将每个体素的时间序列转换到频域得到功率谱,然后再在功率谱的每个频率处计算平方根,最后将0.01~0.10 Hz频谱范围内的平方根取平均值,即为该体素的ALFF值。为了减少所有受试者变异性的整体影响,将每个体素的ALFF除以全局平均值。因此,每个受试者都获得了ALFF图。然后,根据AAL图谱,将ALFF图分为116个感兴趣区域,并通过平均该区域内的ALFF值计算每个区域的平均ALFF值。一个被试的ALFF特征由每个区域的平均ALFF组成。

1.3  区域功能连接度

区域功能连接度(RFCS)是用来测量给定区域与所有其他区域之间的平均相关强度。为了计算静息状态下的功能连通性,首先回归出头部运动的影响和整个大脑的平均信号,去除这几个影响协变量的伪效应。然后使用AAL图谱将单个R-fMRI划分为116个ROI,然后计算每个区域内所有体素时间序列的平均值。为了度量区域间的功能连通性,需计算所有潜在区域对的时间序列之间的Pearson相关系数,每个受试者将得到一个116×116的相关矩阵,然后去掉对角线上的值,即为该被试的RFCS,区域i的区域RFCS定义为:

其中,Rij是区域i和区域j之间的Pearson相关系数,N是区域的数量。

1.4  灰质密度

通过线性变换进行运动校正预处理后,将每个被试的结构MRI分为三幅图像:灰质密度、白质密度和脑脊液密度,在空间上使用统一的配准算法标准化这三幅图像,再选择10 mm窗口大小的高斯核平滑方法对单个GMD图像处理。最后使用AAL图谱将单个GMD图像分割成116个ROI,然后通过平均该区域内所有体素提取每个区域的平均值,从每个受试者的GMD图中提取了116个特征。

2  基于多模态脑成像特征和多分类器的AD患者判别模型构建

2.1  MLDA和SVM分类器特性

本文所提出的多分类器模型主要是基于最大不确定度LDA(线性判别分析)算法MLDA和支持向量机(SVM)两类基本机器学习算法,因此下边就这两类算法做简单分析。

由前边特征选择描述可知,在本文所提出的框架中,即使进行了特征选择,特征空间的维数仍然极可能高于样本数,这就使得在本文中应用Fisher线性判别方法做出分类决择时,由于有限样本量和特征高维问题,面临着类内离散矩阵Sw是非奇异矩阵或估计不好的风险[11]。为了避免类内离散矩阵Sw在有限样本和高维问题中的奇异性和不稳定性问题,作为一种基于LDA的优化算法,MLDA提出用修正后的类内离散矩阵  代替根据原有数据计算所得的离散矩阵Sw,该方法基于最大熵协方差选择思想,改进了有限样本问题的二次分类性能[12],MLDA仅扩展离散矩阵Sw较小且可靠性较低的特征值,并保持其大部分的较大特征值不变,方法如下:

(1)计算矩阵Sp=Sw/N-g(g为样本类别数)的特征向量矩阵Ф、特征值对角矩阵Λ;

(2)计算平均值 =trace(Sp)/d,将Λ中小于  的特征值替换为  ,大于  的特征值保持不变,得到修正之后的对角矩阵Λ*,其中,d为特征维度;

(3)计算修正之后类内离散矩阵=(N-g)=Ф Λ*ФT(N-g)。

MLDA是通过将传统LDA算法所述的基本准则公式中的Sw替换为  而构成的,当LDA应用于有限样本和高维问题时,该方法克服了类内离散矩阵Sw的奇异性和不稳定性,还避免了传统LDA收缩过程中固有的计算成本。

SVM是机器学习领域一类经典的分类器,SVM可以在有限样本上获得和样本相适应的最好的推广能力,其突出的优势就是能够有效避免小样本问题。

2.2  分析模型构建

由以上描述可知,由R-fMRI提取的ReHo、ALFF两类特征和由结构MRI提取的GMD特征可以选用MLDA分类器;对于由R-fMRI提取的RFCS,由于其维度达到6 670,选用在小样本分类问题上具有优势的SVM分类器。因此本文所构建的AD患者鉴别模型首先将ReHo、ALFF、GMD、RFCS分别输入四个基本分类器,产生各自的判别结果,最终的分类结果是对上述四个特征输入产生的四个结果赋予权值并相加得到,其中四个权值是对应的分类器在训练集上的准确率。当输入一个未知样本时,首先提取四个特征矢量,并将其输入对应的四个基本分类模型中,最后用产生的四个结果乘以训练所得的四个权值并求和,即可得到该未知样本的判别结果,这种方法能更有效地避免歧义训练数据对分类器性能的破坏。总结基于多分类器和多模态脑成像的AD患者辅助诊断过程如图1所示。

其中,x1、x2、x3、x4分别对应根据样本x结构MRI和R-fMRI提取的四个特征:ReHo、ALFF、GMD、RFCS; 表示对应特征的分类器,R-fMRI提取的三个特征对应MLDA、GMD对应SVM;ωk表示每个基本分类模型的投票权值,该权值就是 在训练集上的准确率。

3  实验分析

3.1  实验条件描述

实验所用数据来自西安唐都医院,数据经过医学专家临床诊断建议认定,真實可靠。本次实验的自愿参与者共57位,其中包括轻度AD患者组27人、正常对照组30人,参与者全部为中国籍、汉语为母语、右利手。

所有轻度AD患者都接受了全面的身体和神经检查以及一系列的神经心理学评估和标准的实验室测试;所有健康对照组均无神经或精神疾病史、感觉运动障碍或认知障碍,脑部MRI检查也未见异常。所有自愿参与者在进入测试前均获得书面知情同意书,并经医院伦理委员会同意,57位参与者的人口统计信息和MMSE值分布情况如表1所示。

3.2  特征提取

使用SPM5和DPARSF工具包对所有的功能磁共振成像数据(包括结构RMI和R-fMRI)进行预处理,R-fMRI数据的预处理如下,考虑到影响初始磁共振信号不稳定性和受试者适应环境的因素,前10幅功能图像被丢弃;余下的R-fMRI图像需首先校正切片间的采集时间差,然后通过对齐到第一个体积以校正扫描间头部运动的影响。在这项研究中,头部在任何方向上最大位移大于2 mm或头部旋转大于2°的个体被丢弃,以尽量减少运动伪影。然后将运动校正的功能体积空间归一化为MNI模板,之后再次采样为3 mm各向同性体素[13]。接下来使用REST工具包计算ALFF、ReHo和RFCS。

用SPM8对结构RMI图像进行预处理,首先使用线性变换对所有图像进行偏差校正。然后将校正后的结构图像分割为GMD图像、WMD图像和CSF密度图像,并使用统一的分割算法在空间上使其标准化。在标准化和分割过程结束时,使用10 mm FWHM高斯核对GMD图像进行空间平滑处理,所有的GMD图像被重新采样为3 mm各向异性体素,以保持所有受试者的恒定分辨率;接下来与功能图一样,使用AAL图谱将单个GMD图划分为116个ROI,然后通过平均该区域内所有体素的GMD值来提取每个区域的平均GMD值。

3.3  留一交叉校验法

为了验证本文所提出的AD患者辅助诊断方法的有效性和优势,需要将实验数据划分为测试数据集和训练数据集,但是鉴于实验样本容量只有57,样本量太小,所以采用留一交叉校验法(LOOCV)来评估所提出判别方法的性能,即每实验一次,将其中一个样本作为测试集,其余样本则被用来训练多分类器,直到所有样本都被测试完毕。在LOOCV预测结果的基础上,可以定义准确率(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)以量化LOOCV过程中分类器的性能。

三个指标定义如下:

其中,TP、FN、TN和FP分别表示正确预测的患者数量、被划分为正常对照者的患者数量、正确预测的正常对照者数量和被划分为患者的正常对照者数量。

4  实验结果分析

为了去掉一些冗余的特征以改善多分类器的AD患者鉴别性能,在输入分类器之前我们使用特征选择算法来选择具有最大鉴别能力的特征,以提高最终的判别性能。在这项研究中,我们使用双T检验特征选择方法来比较两组受试者之间不同脑区的特征值,ALFF、ReHo、RFCS和GMD四类特征矢量在提取之后都进行双T检验,选择两组间有显著性差异(P<0.05,未修正)的特征,我们还使用非参数秩和检验进行特征选择,得到了相似的结果,当然这里的双T检验只在每次LOOCV折叠训练数据集上执行,以避免分类器的过度拟合。

我们用LOOCV来估计分类器的泛化能力,表2详细列出了基于各种组合和简单类型特征的分类性能。从表中可以看出,本文提出的基于四种特征组合的多分类器AD鉴别方法在三个性能评估指标方面都表现优异,其准确率达到92.98%,灵敏度为88.19%,特异度为94.39%,这些结果准确率、灵敏度、特异度三个方面都优于任何单一类型的特征或其他类型的多类型特征组合得到的值;而且从表中结果可以看到,综合多种模态数据特征的分类模型对AD患者脑部图像的分类能力整体优于利用单一模态数据特征的分类模型。

5  结  论

本文系太原工业学院青年基金项目“基于张量模式的多模态多特征AD患者辅助诊断方法研究”的研究成果。与单一模态成像相比,使用多种模态数据特征的分类模型的优势在于能提取更多的特征(有效特征)。从理论上讲,多模态方法采用不同的特征作为输入,这些输入可以综合反映样本的多个方面特性,这种分类的特征选择策略能更多更全面地反映不同类别的特性,并针对不同特征的特点采用适宜的机器学习方法来构造分类器,能获得更精确的解。事实上,实验结果表明基于单模态的分类器性能低于多模态方法分类器。

这项研究还有几个方面需要改进。首先,我们使用线性回归方法来减少低频漂移和高频生理噪声的影响,但这并不是最有效的方法;在未来的研究中,这些生理效应应该通过在数据采集过程中同时记录呼吸和心脏周期来估计和消除。第二,虽然我们使用了结构功能磁共振成像和静息态功能磁共振成像数据,但也有其他方法(如EEG、PET)可用于进一步提高分类性能。第三,我们使用AAL图谱将大脑图像分成116个ROI,也可以使用其他结构和功能脑部图谱,因为不同的分割方法可能产生不同的结果。事实上,最近的几项研究表明,不同的分组地图集可以影响大脑网络的连接模式。在未来的研究中我们会把该方法应用到其他的脑图谱中。

参考文献:

[1] JEONG J S. EEG dynamics in patients with Alzheimers disease [J]. Clinical Neurophysiology,2004,115(7):1490-1505.

[2] LEE D Y,LEE J H,JU Y S,et al. The Prevalence of Dementia in Older People in an Urban Population of Korea:The Seoul Study [J]. Journal of the American Geriatrics Society,2002,50(7):1233-1239.

[3] JODI K,RICHARD C,WAYNE M. Parkinsonian syndromes and differential diagnosis [J]. Current opinion in neurology,2002,15(4):461-466.

[4] PICCINI P,WHONE A. Functional brain imaging in the differential diagnosis of Parkinsons disease [J]. Lancet Neurology,2004,3(5):284-290.

[5] GREICIUS M D,SRIVASTAVA G, REISS A L,et al. Default-Mode Network Activity Distinguishes Alzheimers Disease from Healthy Aging:Evidence from Functional MRI [J]. Proceedings of the National Academy of Sciences of the United States of America,2004,101(13):4637-4642.

[6] CHEN G,WARD B D,XIE C M,et al. Classification of Alzheimer disease,mild cognitive impairment,and normal cognitive status with large-scale network analysis based on resting-state functional MR imaging [J]. Radiology,2011,259(1):213-221.

[7] HIRATA Y,MATSUDA H,NEMOTO K,et al. Voxel-based morphometry to discriminate early Alzheimers disease from controls [J]. Neuroscience letters,2005,382(3):269-274.

[8] KARAS G B,BURTON E J,ROMBOUTS S A R B,et al. A comprehensive study of gray matter loss in patients with Alzheimers disease using optimized voxel-based morphometry [J]. Neuroimage,2003,18(4):895-907.

[9] ZHANG D Q,WANG Y P,ZHOU L P,et al. Multimodal classification of Alzheimers disease and mild cognitive impairment [J]. NeuroImage,2011,55(3):856-867.

[10] WALHOVD K B,FJELL A M,BREWER J,et al. Combining MR imaging,positron-emission tomography,and CSF biomarkers in the diagnosis and prognosis of Alzheimer disease [J]. AJNR. American journal of neuroradiology,2010,31(2):347-354.

[11] 張宇萍.基于Fisher准则的二次线性特征提取 [J].西安工业大学学报,2007(5):460-463.

[12] ZANG Y F,HE Y,ZHU C Z,et al. Altered baseline brain activity in children with ADHD revealed by resting-state functional MRI [J]. Brain & development,2007,29(2):83-91.

[13] ASHBURNER J,FRISTON K J. Unified segmentation [J]. Neuroimage,2005,26(3):839-851.

作者简介:徐鑫秀(1984—),男,汉族,山西朔州人,助教,硕士研究生,研究方向:机器学习、模式识别。

猜你喜欢

分类器模态受试者
学贯中西(6):阐述ML分类器的工作流程
多模态话语理论在英语教学中的应用与前景探析
模态可精确化方向的含糊性研究
基于滑动拟合阶次和统计方法的模态阻尼比辨识技术
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
适度惩罚让人进步
重要的事为什么要说三遍?
与较胖者进食 食量会增加
基于支持向量机的蛋白质交互界面热点的预测的研究与改进