APP下载

基于多尺度脑网络局部特征的抑郁症分类

2018-12-22曹敏娜陈俊杰

计算机工程与设计 2018年12期
关键词:体素特征选择脑区

曹敏娜,陈俊杰,郭 浩

(太原理工大学 计算机科学与技术学院,山西 晋中 030600)

0 引 言

为了辅助抑郁症的临床诊断,通过使用脑网络对功能磁共振成像(functional magnetic resonance imaging,fMRI)得到的影像数据进行处理并分类作为其中一种诊断方式被广泛使用。现有对脑网络中节点的定义,包括神经元、神经元集群、脑区[1]等不同粒度。使用的节点粒度不同会得到不同尺度的脑网络,进而影响最后的分类诊断结果。然而现有研究中,将抑郁症影像数据结合复杂网络的知识处理为脑网络数据的过程,往往是在单一大规模脑网络的空间尺度下进行的[2-4];Jiaolong Qin等[5]虽然细分了脑区,但并没有将空间尺度作为重点进行分类比较;少数使用了多尺度脑网络来分类对比的研究,也没有探索抑郁症[6-8]。

针对先前的临床分类研究中对脑网络空间尺度划分上考虑的不足,本文从多个脑网络空间尺度的角度入手,对脑网络局部特征的抑郁症分类进行了研究。根据预定义脑图谱将抑郁症患者的静息态磁共振影像数据处理为不同空间尺度下的脑网络数据,使用统计分析对不同尺度网络下的局部属性进行特征选择,采取支持向量机(support vector machine,SVM)方法来实现分类,进一步分析分类结果来判断脑网络的空间尺度对使用脑网络特征进行抑郁症分类诊断的影响。

1 数据获取

1.1 被 试

本次研究总共收集被试66名,包括无用药首发的抑郁症患者38名,以及对照组中年龄与性别匹配的28名健康人。被试都是具有中国国籍的汉族人,抑郁组被试全部由山西医科大第一附属医院精神科确诊,并且为美国精神障碍诊断与统计学手册第四版(DSM-IV)和24项汉密尔顿抑郁量表(hamilton depressive rating scale,HAMD)为依据评定的重度抑郁症患者,无神经紊乱史。把人格障碍的定式访谈(SCID-II)作为健康组被试的判定依据,该组被试亦无神经紊乱史。实验采用严格的标准排除其它疾病及异常情况,并与每位被试均达成了书面协议。被试信息见表1。

表1 被试基本信息

表1使用最小数值-最大数值(平均数±标准差)的数据形式表示年龄范围,HAMD是汉密尔顿24项抑郁表的英文缩写。带有上标a的P值由双尾双样本的T检验的方式获取,带有上标b的P值是通过双尾皮尔逊卡方检验的方式获取。

1.2 数据采集与预处理

本文中的数据采集工作是和山西医科大学第一医院共同完成的,并由具有丰富磁共振扫描经验的放射科医生对所有被试的脑部进行扫描。静息态功能核磁共振的脑部扫描任务全是使用德国强度为3T的核磁共振扫描设备(siemens trio 3-tesla scanner, erlangen, germany)操作的。过程中,为了防止被试主观进行头部运动,采取海绵固定头部,以减少垃圾数据。静息态的限定则需要参与者在扫描全过程闭眼放松,要求大脑不进行思考活动的同时又不能进入睡眠。还需要对设备的扫描参数进行以下配置:

射频重复时间(repetition time,TR)为2 s,存储矩阵为64*64,回波时间(echo time,TE)为30 ms,层间间隔(slice gap)为0,层厚(slice thickness)为4.0 mm,成像视野(field of view,FOV)为192*192 mm。

研究中的数据预处理是通过MATLAB平台的SPM(statistical parametric mapping) 工具对采到的图像进行时间层校正、头动校正、联合配准、空间标准化、低频滤波。

2 脑网络构建

脑网络是使用图论的知识构建的,定义与属性与图论中的理论相统一。针对每个被试构建脑网络,涉及网络中节点和边的定义。

2.1 节点定义

便于研究,节点的定义多根据某一预定义模板进行,常用的是AAL(automated anatomical labeling)脑图谱。首先根据AAL模板对脑部影像区域进行分割,共划分出90个脑区(包括左半脑45个区域和右半脑对应的45个区域)。每个脑区定义为脑网络中的一个节点,各节点的值是通过计算各脑区全部体素的血氧含量浓度时间序列的算术平均值得到的,以此完成90个节点的定义。

节点的规模会决定空间尺度的大小,脑网络中节点规模定义的越大,即空间尺度越大,整个脑网络中的节点个数就越少。本文定义了5个不同尺度的节点个数,分别是90、256、497、1003、1501[1]。90个节点对应90的尺度,对于256,497,1003,1501这4个不同小尺度的节点定义,是基于AAL模板的独立脑区进一步划分得到的。具体方法为:

设置预期节点定义数为250、500、1000、1500,按AAL模板中每个脑区占所有脑区的体素比例计算得到AAL原有脑区在相应的小尺度下应细分的子区域个数。使用动态随机种子点[1]的设置方法形成子区域,即对每个子区域随机设置种子体素,对所有剩余体素与种子体素的距离进行顺序计算,接下来需要选出和目前体素最近距离的体素,并把该体素和种子体素进行合并,组成一个新的子区域,该新子区域内含此新体素。接下来计算得出此新子区域的物理中心位置,把该点设置成新的种子体素,然后计算得到各体素和新种子体素间距。重复循环此过程,一直到此区域中全部的无归属体素被划至其中。至全部AAL独立脑区划分完毕就可以得出一个小的尺度。由于子区域个数不是整数,故四舍五入,最后得到256、497、1003、1501这4个节点个数对应的空间尺度。

2.2 边定义

2.2.1 皮尔逊相关

本文使用皮尔逊相关(Pearson correlation)计算得到两个脑区之间的无向功能连接。皮尔逊相关系数用于计算两个变量间的线性相关,针对5个不同节点规模的空间尺度,分别计算该尺度下脑区平均时间序列两两之间的皮尔逊相关系数,得到不同尺度下的相关系数矩阵,即加权脑网络。该系数矩阵为对称方阵,阶数分别为90,256,497,1003,1501。皮尔逊相关系数计算方式如下

(1)

2.2.2 阈值选择

为便于分析与计算,设置阈值将网络转化为二值网络,即把不同尺度下关联矩阵中的权值转化为无权二值邻接矩阵中的值。若关联矩阵中的元素值rij大于该阈值,则元素值设为1,表示节点i与节点j之间有边,否则设为0,表示节点i与节点j间无边。

由于阈值的大小会影响脑网络中连接的密度,本文使用稀疏度来进行阈值选择。稀疏度描述的是在当前脑网络中存在边的数目与该脑网络对应的完全图中全部边的数目的比值。当稀疏度的值大于0.5时,脑网络会变为随机网络[1]。故为了得到有小世界属性的脑网络,设置稀疏度范围为0.05到0.4,以0.05为步长,以此对于每个被试得到8个不同稀疏度下的二值网络。

3 局部属性计算

本文针对不同尺度下的二值网络,计算网络中常见的3个局部属性作为分类的特征,分别为度,中间中心度,节点效率[9]。

3.1 度(degree)

二值网络里一个节点的度是与此节点能通过一条线直连的节点个数,衡量此节点和网络中剩余节点的连通性。网络中节点i的度k(i)定义[9]为

(2)

式中:aij为二值网络对应的二值矩阵中第i行第j列元素,表示i节点与j节点之间的边。

3.2 中间中心度(betweenness centrality)

一个节点中间中心度的值越大,此节点越处在中心位置,其对于网络中其余节点间传递的消息会产生关键影响。在二值网络中,节点i的中间中心度bi定义[9]为

(3)

网络中,节点m到达n有许多途径,上式中σmn是这许多途径里的最短路径条数,σmn(i)是m到n中的最短路径会经过某节点i的路径条数。

3.3 节点效率(node efficiency)

节点效率衡量了节点和网络中其它节点间的信息传递能力,二值网络中任一节点i的节点效率ei可描述[9]为

(4)

式中:N表示脑网络中总的节点数量,dij代表节点i距离j的最短路径长度。对于二值网络,最短路径长度等于两节点间各不同途径里距离最短的一条中所含元素1的个数。

3.4 曲线下面积(area under the curve,AUC)

由于不同尺度下每个被试有8个不同稀疏度的二值网络,故不同尺度网络的每个局部属性可以得到8个稀疏度下的值。为了衡量网络的局部属性在不同稀疏度下总的变化强度[9],使用AUC值来将不同稀疏度下的各局部属性值进行统一。对于每一个被试,90空间尺度下得到270个AUC值(一个节点对应一个属性的AUC值,则90个节点90个局部属性,3个局部属性即270个),同理,256尺度得到768个AUC值,497尺度得到1491个AUC值,1003尺度得到3009个AUC值,1501尺度得到4503个AUC值。

AUC的计算方式如下

(5)

其中,YAUC表示AUC值,Y(Sk)是阈值Sk对应的局部属性值,ΔS是两个阈值之间的间隔。

4 分 类

本文使用特征选择的传统方法统计分析对3种局部属性进行特征选择,然后使用SVM对正常组被试和抑郁症患者进行分类。

4.1 特征选择

为从特征全集中找到最优特征子集,进一步防止过度拟合现象发生、优化模型性能、高效训练分类器[10],分类开始前做特征选择是很有必要的。特征选择有很多种方法,本文采用特征选择方法之一的过滤方法,并选取其中最常见的统计分析法[11]进行特征选择。对两组被试的所有AUC值做双样本T检验,选取具有统计显著性(即P<0.05)的AUC值作为有效特征。

4.2 分 类

在众多分类算法中,SVM在解决小样本二分类、非线性及高维模式识别,特别是在fMRI数据分析中很有优势[9],并得到了广泛的应用[2,6,7]。本文通过MATLAB平台下导入台湾大学林智仁博士等开发的LIBSVM工具包来用SVM完成分类。训练分类器时,使用径向基核函数(radial basis function,RBF)进行10次10折交叉验证。对于其中每一次的分类,决策函数中惩罚因子与核参数的参数寻优使用基于网格的搜索算法来实现[12]。

4.3 验 证

为了确定有效特征数量对最终的分类结果是否有影响,验证脑网络空间尺度、有效特征数与分类结果三者之间的关系,设计在有效特征数量不变的情况下,比较不同尺度脑网络的分类结果。具体实验从各个小尺度脑网络的有效特征中随机抽取与大尺度脑网络有效特征相同数量的特征,随机抽取10次,对每次抽取出的特征进行分类,每次的分类都进行10次10折交叉验证,得到每个小尺度下相应特征数的平均分类准确率后,比较不同尺度下相同数量的特征分类后的准确率。

5 结果分析

5.1 特征选择结果

在特征选择后,具有统计显著性的特征在90空间尺度下有16个(270个AUC值中选出16个),256尺度下有48个,497尺度下有95个,1003尺度下有186个,1501尺度下有240个。不同尺度与局部属性对应的特征数如图1所示。

图1 各尺度下不同局部属性的有效特征数

从图1中可以看出,特征选择得到的每个局部属性的特征数随脑网络空间尺度减小而增长,总的有效特征数也随之增长,即不同的空间尺度能影响特征选择得到的有效特征数量。

5.2 分类结果

对每个尺度的两组被试使用特征选择后得到的有效特征进行分类,分类结果如图2所示。

图2 不同尺度下有效特征的分类结果

从图2中可以看出,伴随脑网络空间尺度减小,分类效果明显上升,结合图1对空间尺度与有效特征数的分析结果,可以推论不同的空间尺度是通过影响有效特征数量而影响最后分类结果的。由于90的节点数为传统用AAL模板分割脑区的方法,故本实验结果表明细分AAL模板中脑区得到小空间尺度的分类准确率显然优于传统根据AAL模板分割脑区方法的分类。

5.3 验证结果

对90尺度下对应的有效特征数的值16,实验中分别从较小尺度256对应的48个有效特征,以及尺度497对应的95个、1003对应的186个、1501对应的240个有效特征里边随机抽取和尺度90对应有效特征数值(即16)相同的特征数量,每个较小的尺度都随机抽取10次并对这些有效特征训练分类并比较结果[13]。用这种方法,对256尺度下对应的有效特征数值48,分别从比256尺度小的尺度497的有效特征里随机抽48个分类,尺度1003的有效特征里亦随机抽48个分类,尺度1501的有效特征里也随机抽48个分类,得出分类结果后将三者与图2中初始256尺度下48个有效特征的分类结果相互比较;对497对应的数95,从比其相对小的尺度1003、尺度1501分别对应的不同数量有效特征里边都随机抽95个训练分类、比较结果;对1003对应的数186,从比其相对小的尺度1501对应的有效特征里边随机抽186个训练分类、比较结果[13]。每个尺度都选择比其相对小的尺度比较,在对各尺度下数目一样的特征分类后,其分类准确率如图3所示。

图3 各有效特征数下不同尺度的分类准确率注:每个尺度下的准确率为当前尺度下随机抽取10次特征后的平均值

通过对图3的分析能够看出在相同特征数量的维度下,分类准确率基本不受脑网络的空间尺度变化的影响,并且准确率的值与5.2节中相应尺度下的初始分类结果的值相似。此处特征数指的是有效特征,显然,只有增加有效特征数,才能提升分类效果,说明分类准确率的提升本质上是由有效特征数的递增带来的。综合对图1关于空间尺度与有效特征数间关系和图2关于空间尺度与分类准确率间关系的分析,更加体现出随脑网络的空间尺度缩小而引发的有效特征数量增多,是导致最终分类准确率变化的根本原因,阐明了脑网络空间尺度对分类结果的影响因素。

6 结束语

本文针对先前研究中对于空间尺度划分方面考虑的不足,用分类的方法来分析空间尺度对于使用脑网络分析精神疾病的研究。基于传统AAL模板,将AAL模板对应的脑区继续拆分,以小尺度构建脑网络,分类比较。本次研究的实验结果表明,和传统AAL模板定义的节点相比,细分后的脑区节点对于分类结果有明显提升;在特征选择方面,特征选择后的有效特征数随空间尺度的减小而增加,而有效特征数的增加会提升分类准确率,进一步说明空间尺度在使用脑网络属性进行分类研究中的重要性,也为以后使用脑网络对精神疾病进行分类诊断提供了新思路。然而,空间尺度是否越小越好?分类准确率提升的同时,可能引起其它方面的变化还有待进一步研究。

猜你喜欢

体素特征选择脑区
腹腔注射右美托咪定后小鼠大脑响应区域初探
瘦体素决定肥瘦
Dividing cubes算法在数控仿真中的应用
脑自发性神经振荡低频振幅表征脑功能网络静息态信息流
基于体素格尺度不变特征变换的快速点云配准方法
基于最大信息系数和近似马尔科夫毯的特征选择方法
止咳药水滥用导致大脑结构异常
Kmeans 应用与特征选择
基于特征选择聚类方法的稀疏TSK模糊系统
基于特征选择和RRVPMCD的滚动轴承故障诊断方法