APP下载

基于Task-fMRI 的分类分析研究

2022-07-09黄庆坤艾斯克尔米吉提杨鹏

电子技术与软件工程 2022年9期
关键词:体素分类特征

黄庆坤 艾斯克尔·米吉提 杨鹏

(1.大理护理职业学院 云南省大理市 671000 2.南京财经大学 江苏省南京市 210000)

脑科学研究的目的之一是从大脑中“读出”受试者的感受或他正在经历的视听情境。该研究基于以下假设:对于被试所受到到的外部特征刺激与他们大脑中某些组织的活动之间存在一定的映射关系。为了验证这个假设,我们需要两个前提:Step1 需要准确定位大脑的活动区域,并检测它们的活动变化;Step2 需要通过算法来描述出该映射关系。对于Step1,功能性磁共振成像(functional magnetic resonance imaging,fMRI)可以检测到相关脑激活区血氧的微小变化进行功能成像,能够很好地反映大脑的动态活动,在有限延迟的情况下准确定位不同的活动组织。对于Step2,大多采用fMRI 数据研究方法,引入统计学习和人工智能原理,结合深度学习和机器学习算法,解码大脑认知状态。基于现阶段研究,本文主要对以下两方面进行讨论:

(1)在获取任务态fMRI 数据后怎样对相应任务激活脑区进行定位研究;

(2)怎样找到各特征变化率序列以及脑功能图像序列间的映射关系,并泛化到数据中用来实现分类。

由于fMRI 数据存在时序性特征,假设BOLD 信号没有任何噪音干扰,能直接显示神经活动,实验就可通过分析时间序列来建立预测模型,通过预测变量与实际fMRI 信号进行统计分析,进而观察体素对刺激任务的响应状态。但是神经活动本身存在复杂多变性,使得fMRI 数据存在着噪声大的特点,导致了fMRI 数据存在着有效信息提取困难等问题。因此本文首先在被试间进行一级模型分析(First level model),通过将血液动力学响应函数(HRF)与设计矩阵中定义的一组预测变量进行卷积,将每个体素的时间序列与预测的BOLD 响应进行回归,提取感兴趣区域(ROI);其次通过机器学习算法建立分类模型,在超参数寻优方法下通过交叉验证(Cross-Validation)来进行算法评估。

1 方法概述

1.1 GLM

1.2 分类分析

分类分析的任务是建立每个特征的变化率序列与脑功能图像之间的映射关系(预测特征变化率序列的准确性)。给定数据集T={(x,y),…(x,y)},其中x∈X表示功能扫描下大脑体素(voxel)特征的活动序列,y∈Y表示具有时间序列的任务类别,其中tr 时间序列 ,p 是对应于特征率体素的个数。通过寻找X上的决策函数J(x): X →Y,实现从实现体素到目标任务的特征映射:

2 实验及结果分析

2.1 数据集

Haxby 数据集是一个块设计的任务态fMRI 数据集,来自于对大脑腹侧颞叶皮层中面部和物体表征的研究。在每一次扫描中,被试参与八个物体类别的灰度图像任务,按24 秒的时间段分组,每幅图像显示500ms,1500ms 的刺激间隔,2.5s 的重复扫描时间(TR)。在实验之前需要标准的预处理步骤:图像格式转换、时间层校正、头部运动校正、空间归一化、去线性漂移、带通滤波(0.01~0.08hz)、回归独立信号等。

表1:

2.2 GLM定位激活区域

由于fMRI 数据具有时序性,在被试间可通过与功能扫描(session)下对应的任务刺激类别(events)构建设计矩阵(Design matrix)进行建模分析(一级模型)。在实验中,通过将血液动力学响应函数(HRF)与设计矩阵中定义的预测变量进行卷积构建BOLD 信号,并通过回归模型预测大脑体素的时序性(任务相关激活体素,例如一组激活体素可能对应face 图像任务,而另一组激活体素可能对应cat 图像任务),见图1。

图1: GLM 实验图。图1(a)为实验设计图,图1(b)为设计矩阵,图1(c)为全脑β 值图。对每个被试进行一级模型分析,在被试组级进行二级模型分析,设计矩阵对应每个Run 中的图像任务,通过设计矩阵来进行GLM 回归,此时fMRI 数据被描述为包含一组回归变量(X1,X2)的模型(X)的线性组合-E.q(3),结果是一组β 值的全脑图(图1(c)),β 值反映了每组成份与任务的相关性大小。

2.3 分类实验

基于上述GLM 建模分析,实验构建subject1 到subject6被试的fMRI 数据集。Step1. 提取(mask)被试ROI 的激活体素值构建特征向量;Step2. 通过机器学习算法构建决策函数,实现激活体素到类别标签的特征映射-E.q(4),其中实验对比了支持向量机、贝叶斯、决策树和神经网络分类算法;Step3. 通过通过K-Fold 交叉验证法来进行分类实验,为了降低实验模型的复杂度,实验采用了一种集成方法(Method of Pipeline),通过方差分析(anova)与特征选择(SelectKBest),使用前K 个与标签最相关的特征进行实验,其中对于分类结采用准确率:acc(f;N)=∫∏(f(x)=y)p(x) dx 来进行模型评估,其中N 为数据分布,p(·)为概率密度函数。在被试组subject1 到subject6,对比不同模型在图像刺激任务下的分类结果,见表2。在支持向量机分类模型中使用三种核函数进行参数映射:

表2:

其中γ,θ,d,δ 是核参数并且γ>0。通过超参数寻优算法得到最佳核参数“linear”:C=0.01;“rbf”:C=100,gamma=0.001;“poly”:C=100,degree=4,gamma=0.001。

从表2 中可以看出通过SMV(rbf)分类准确率值均值最高92%(最佳阈值)。并且SVM(linear)模型也取得不错的分类结果。由于神经网络分类效果受隐藏层个数与神经元节点数影响(hidden_layer=5,每层200 个神经元节点,Adam 优化算法,learning_rate=0.001),分类效果较差。SVM(poly)、贝叶斯分类器以及决策树在改组数据上分类结果不理想。实验通过SVM(linear)和SVM(poly)分类模型在被试组进行对比分析,见图2,从图中可看出每个被试针对同一组图像任务所得的分类结果不同,并且泛化到subjects 组间SVM(rbf)分类结果优于SVM(linear)(被试间存在个体差异性)。

图2: subjects-各外部特征率分类结果对比。横坐标为K 值,纵坐标为对应K 值的准确率。

3 讨论

通过实验研究发现,不同的分类模型所得到的准确率不同,其中SVM(rbf)预测准确率最高(92%),但需要注意的是算法之间并不存在优劣性。对于fMRI 数据的高维稀疏性使得线性模型具有很强的适应能力,尽管fMRI 数据通过预处理后具有较低的信噪比,但是线性叠加有助于抵消大量噪音,并且预测结果稳定性较好,具有很好的操作性。因此,在实验中SVM 模型预测效果优于其他分类模型,但不同的是,线性SVM 不直接依赖于数据分布,只有少数几个代表支持向量的样本参与了计算,分类平面不受一类点影响,进而SVM 算法在不同图像任务下能取得较稳定的预测得分。尽管通过实验实现对Task-fMRI 数据进行分类,但结果任然存在误差,这是由于被试间存在个体的差异性(BOLD信号之间差异性等)、算法模型复杂度(特别地,在实验中神经网络模型分类由于受隐藏层个数、神经元节点等参数的约束)等问题,加之传统机器学习模型都为浅层模型,对fMRI 数据样本少、维度高的特性仍然存在特征选择问题(先验知识):对fMRI 图像局部特征提取较弱,未能充分处理fMRI 数据隐含的时序特征。因此,在下一步研究中,将更充分地挖掘大脑隐藏体素,针对于fMRI 数据特性尝试递归特征消除、通过构建动态相关矩阵并进行非负稀疏矩阵分解等算法更好地进行特征提取,并且针对于分类模型,将尝试运用深度学习算法,并通过迁移学习等更好的解决小样本学习带来的问题。

猜你喜欢

体素分类特征
基于多级细分的彩色模型表面体素化算法
分类算一算
运用边界状态约束的表面体素加密细分算法
如何表达“特征”
不忠诚的四个特征
基于体素格尺度不变特征变换的快速点云配准方法
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
抓住特征巧观察