APP下载

基于机器学习的丙型肝炎肝纤维化预测算法对比研究

2022-04-02刘怀进

肇庆学院学报 2022年2期
关键词:丙型肝炎准确度梯度

李 芳,刘怀进,田 庆

(1.肇庆学院 计算机科学与软件学院,广东 肇庆 526061;2.华侨大学 计算机科学与技术学院,福建 厦门 361021)

丙型肝炎病毒(HCV)感染在全球范围内影响超过1亿7 千万人[1].中国是世界上丙型肝炎患病率最高的国家之一,其患病率达到13%~15%.HCV感染的特点是具有持续性和向慢性肝炎发展的高趋势性,并在部分患者中发展为肝硬化或肝癌.迄今为止,尚无指标或可靠的标准来确定纤维化的进展速度,以及何时会发展为肝硬化.HCV的治疗中连续肝活检通常是诊断肝纤维化进展的“金标准”.肝活检是侵入性的,伴有严重的并发症,给患者带来诸多困难且治疗费用相当昂贵[2].最近机器学习技术在医疗领域的发展给肝纤维化预测带来了前景,其目标是开发、评估和验证一种替代侵入性技术的预测模型,并将预测模型作为预测肝纤维化进展的一种测量方法.首先采用ARIMA模型对全国2005年到2013年丙型肝炎进行建模,为今后丙型肝炎疾病的预防和控制提供了理论支持[3].基于随机森林的丙型肝纤维化预测的分类模型,对123 例丙型肝炎的血清学指标进行分析预测得到的分类正确率为68.29%[4].基于K近邻的肝炎预测模型对数据进行归一化的分类正确率为79%[5].使用C4.5决策树对3 719 例埃及慢性丙型肝炎患者的治疗结果预测进行数据挖掘评估的分类准确性为73%[6].线性优化最优解(LP)和Bayesian 网络分类法(BN)被用来评估和识别HCV序列与纤维化进展率(RFP)之间的关系,其最大分类准确率达到了85%[7].针对39 567名慢性丙型肝炎患者建立了预测纤维化风险的决策树、遗传算法、粒子群优化和多线性回归模型,对多种机器学习方法建模的分类准确度在66.3%~84.4%之间[8].通过减少错误技术构建的决策树对427例丙型肝炎患者在预测晚期纤维化方面的准确率为88%[9].一种基于非侵入性方法的新模型对401 例慢性肝炎患者的预测分类准确率为85.9%[10].慢性丙型肝炎病毒(HCV)感染为发生肝纤维化及肝硬化的主要原因,但由于肝纤维化具有可逆性,若能及时干预对患者具有积极意义[11].大量研究表明,由于机器学习技术能够从医学数据库中发现隐藏的预测模式,因此它是预测肝纤维化的强大工具.因此对HCV感染肝纤维化的准确评估,不仅有助于指导临床医师及时制定合理的治疗方案,而且对改善患者病情具有重要的意义.

1 方法

1.1 丙型肝炎

丙型肝炎由丙型肝炎病毒(HCV)感染所致,主要由血液和体液传播.丙型肝炎是一种全球性传染病,可导致慢性炎症肝坏死和肝纤维化,最后发展为肝硬化甚至是肝癌.肝纤维化对丙型肝炎患者而言是一项重要的影响预后因素,肝活组织病理学检查一直被认为是肝纤维化诊断的“金标准”,它可提供肝纤维化分期的重要信息[12].病理科医师通过阅片进行肝纤维化程度划分,分期标准参照肝纤维化分期法[13],共分为5 期(F0~F4),F0为无纤维化,F1为汇管区有纤维化但无纤维间隔形成,F2为汇管区纤维化伴少量纤维间隔形成,F3为大量纤维间隔形成,F4为肝硬化.

1.2 数据集分析

本研究展示的HCV肝纤维化数据集.数据中包括了1 741 名接受治疗的丙型肝炎患者的数据.患者的数据由埃及艾因沙姆斯大学医学院在埃尔德梅尔达什医院收集[14].患者接受干扰素-阿尔法和利巴韦林的联合治疗超过15 个月.所收集的数据有几种形式和结构.因此,在专家建议的基础上应用了改进的预处理阶段.从诊断的角度来看,HCV 数据集包含1 741 条记录和29 个数据特征属性(包含28 个属性特征和1 个分类标签),所有的特征属性都是数字,如表1所示.“基线组织学分期”是具有值{F0,F1,F2,F3,F4}的类别标签.这些标签代表了肝纤维化的不同等级,如下所示:无纤维化(F0)、门静脉区纤维化(F1)、少数纤维间隔(F2)、大量纤维间隔(F3)、肝硬化(F4).

表1 描述数据集的特征

2 非集成算法

2.1 审查分类算法

审查算法前并不知道哪些非集成分类算法对HCV问题最有效,所以需要通过一系列实验进行验证,以找到预测HCV问题最有效的算法.本文将选择6 种经典的非集成分类算法(包括线性和非线性算法)对HCV问题进行预测,通过分类准确度(Accuracy)评估算法的结果.其中线性分类算法包括逻辑回归(LR)[15]和线性判别分析(LDA)[16],非线性分类算法包括K近邻(KNN)[17]、分类与回归树(CART)[18]、朴素贝叶斯(NB)[19]和支持向量机(SVM)[20].

通过使用10折交叉验证评估模型的预测性能,采用6种分类算法对原始数据进行建模,算法性能评估主要通过分类准确度的平均值和标准方差来比较.实验结果如表2所示,从数据可以看出,LR和KNN值得进一步的分析和研究.

表2 原始数据的分类准确度的平均值和标准方差

为了更加准确分类算法,通常还需要查看所有算法每次得出的数据结果分布状况.这里使用箱线图来表示所有数据结果的分布情况,如图1所示.

图1 非集成算法对原始数据预测结果分布状况

从图1可以看出,KNN的执行结果比较紧凑,说明算法对数据的处理比较准确.为了使原始数据分布均匀,我们对数据进行预处理,然后重新评估算法.表3为正态化数据处理后的算法比较结果.

表3 正态化数据的分类准确度的平均值和标准方差

从表3可以看出,KNN依然有较好的执行结果,同时SVM的结果也有了极大的改善.我们再通过箱线图来看一下所有算法每次执行结果的分布情况,如图2所示.

图2 非集成算法对正态化数据预测结果分布状况

从图2可以看出,KNN和SVM的数据分布也是比较紧凑的.

2.2 算法调参

通过对6种算法的评估发现KNN和SVM值得进一步研究.如图3所示.

图3 集群分类增强过程的可视化说明

图3中(a)为初始化的样本集,(b)和(c)为在初始化样本在目标集群下进行的搜索分类.通过遍历计算未知点x与已知群集中点的欧指距离判断是否属于群集T1的类型,其中,T1={(x1,y1),(x2,y2),……(xn,yn)}.

KNN的原理是,若一个样本与数据集中的k个样本最相似,且这k个样本中的大多数属于某一个类别,则该样本也属于这个类别.在判断两个样本相似性时,一般使用的欧式距离,如公式(1)所示.

综上所述,对未知类型属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离增序排序;

(3)选取与当前点距离最近的k个点;

(4)决定这k个点所属类别的出现频率;

(5)返回前k个点出现频率最高的类别作为当前点的预测分类.

SVM是一种二类分类模型,如图4(a)所示,其基本模型定义为特征空间上的间隔最大的线性分类器,其中,红色集群为I1,蓝色集群为I2,通过计算样本的正负性判断集群种类.然而,对某个实际问题函数来寻找一个二分类是非常困难的,因此使用合适的核函数对空间进行映射是非常有效的方法,如图4(b)所示.

图4 SVM模型的说明

SVM的工作流程主要有2种:第一种为线性可分SVM超平面:y=wx+b,通过非线性最优化求使几何间隔最大的分离超平面.第二种为线性不可分SVM超平面:将样本映射到特征空间得到yk=wkx+b,通过非线性最优化求使几何间隔最大的分离超平面.

下面分别对KNN 和SVM 算法进行调参,以进一步优化算法模型.KNN 默认的邻近点的个数(n_neighbors)是5,我们对n_neighbors从1到20的奇数进行网格搜索优化参数,以确定KNN算法的最优参数.执行结果如表4所示,从执行结果来看,最优的n_neighbors数是1,准确度达到0.85.

表4 KNN参数遍历结果

接下来对SVM进行调参,SVM有两个重要的参数分别是惩罚系数(C)和核函数(kernel),C参数默认的值是1,kernel 参数默认的值是rbf.我们同样采用网格搜索算法遍历参数C={0.1,0.3,…,1.7,2.0}和kernel={‘linear’ ,‘poly’ ,‘rbf’ ,‘sigmoid’ },以确定SVM 算法的最优解.执行结果如表5 所示,从执行结果来看,最优的C数是1.5,kernel数是rbf,准确度达到0.87.

表5 SVM算法参数遍历结果

3 集成算法

在机器学习中,除了算法调参提高分类准确度以外,还可以通过集成算法提高分类准确度.我们采用四种经典集成算法进行预测,分别是随机森林(RF)[21]、极端随机树(ET)[22]、AdaBoost(AB)[23]和梯度提升机(GBM)[24].依然正态化数据和采用10折交叉验证分离评估算法,执行结果如表6所示.

表6 集成算法分类准确度的平均值和标准方差

通过箱线图来查看集成算法预测数据结果的分布情况,如图5 所示.从图5 可以看出,GBM具有最高的准确度,且数据结果分布比较紧凑.GBM 默认的弱学习器的数量(n_estimators)是100,为了优化模型,通过网格搜索算法对参数n_estimators 从10 到900 间隔为50 进行遍历.最后执行结果显示n_estimators=500 时,GBM 达到最大准确度0.86.

图5 集成算法对正态化数据预测结果分布状况

综合前面一系列的算法评估,我们最终得到非集成算法SVM对HCV预测具有最大的准确度.所以我们采用SVM 算法对训练集进行建模,采用测试集来评估模型.在训练模型过程中,对数据进行正态化处理,并设置SVM 的参数C=1,5和kernel=‘rbf’ .从执行结果来看,优化后的SVM模型对HCV分类准确度为87%.

4 深度学习算法

由于传统的机器学习算法对HCV数据进行训练预测并未达到期望的分类效果,本节将采用深度学习算法对HCV进行建模预测.由于卷积神经网络适用于图像分类,所以我们只选择了多层感知机网络(MLP)[25]和长短时记忆网络(LSTM)[26]进行建模预测.

首先我们构建一个4层的MLP,它包括一个输入层、两个隐藏层和一个输出层,隐藏层使用Relu激活函数,输出层使用softmax激活函数.基于MLP的HCV预测模型的网络结构定义代码如表7所示.

在搭建LSTM网络模型训练HCV数据时,需要先处理一下原始的特征数据维度.我们将原来的二维特征数据(samples,n_features)变成了三维数据(samples,seq_steps,n_features),序列步长seq_steps设置为1,标签数据维度保持不变.然后构建了一个3层的循环神经网络(LSTM),它包括一个输入层、一个隐藏层和一个输出层,隐藏层使用sigmoid和tanh激活函数,输出层使用softmax激活函数.基于LSTM的丙型肝炎预测模型的网络结构的定义代码如表7所示.

表7 网络模型结构定义

除了自定义的MLP 网络结构外,MLP 模型设置的具体网络参数如表8所示,其中隐藏层神经元个数和学习速率是通过经验和实验调参相结合确定的最优值.

除了定义的LSTM网络结构外,LSTM模型设置的具体网络参数和MPL模型设置的网络参数基本一样,具体参考表8所示.

表8 模型参数

在定义好网络模型之后,我们对HCV数据进行训练和测试.从图6的实验结果对比来看,我们发现在隐藏层神经元个数为30,学习速率为0.01时,随着迭代次数epoch的不断增加,MLP模型在测试集上的分类精确度达到89.10%,LSTM模型在测试集上的分类精确度达到了90.48%.

5 LSTM算法的改进

在深入研究LSTM 算法的过程中,我们发现反向传播算法可以进行优化改进.如图6 所示,在描述LSTM 反向传播优化算法之前,我们先简单介绍一下LSTM 算法原理.LSTM 主要有细胞状态、隐藏状态和三个门控组成,门控包括遗忘门、输入门和输出门.LSTM 算法主要分为前向传播算法和反向传播算法,具体原理和算法请参考文献[26].

图6 MLP和LSTM模型对HCV数据训练过程

在LSTM反向传播算法过程中,通过梯度下降法更新算法参数的关键是计算出隐藏状态的损失梯度误差δth和细胞状态的损失梯度误差δtc.为了方便找到梯度的递推模式,我们根据前向传播算法简单画出了LSTM的数据前向流动示意图,如图7所示.

图7 LSMT数据流动示意图

其中,f(t)代表了遗忘上一层隐藏细胞状态的概率,输入门由两部分组成,第一部分使用了sigmoid激活函数,输出为i(t),第二部分使用了tanh激活函数,输出a(t).如公式(5)所示,细胞状态C(t)由两部分组成,第一部分是C(t—1)和遗忘门输出f(t)的乘积,第二部分是输入门的i(t)和的乘积,其中∘是Hadamard积:

对于隐藏层h(t),它的更新由两部分组成,第一部分是o(t),它由上一序列的隐藏状态h(t—1)和本序列数据x(t),以及激活函数sigmoid得到,第二部分由隐藏状态C(t)和tanh激活函数组成,即:

由于δth的梯度误差由本层的梯度误差和下一层的梯度误差共同决定,我们根据链式法则和全微分方程可以求出隐藏状态的损失梯度误差δth和细胞状态的损失梯度误差δtc,如公式(8)和(9)所示.

对比文献[26]求隐藏状态的损失梯度误差δth和细胞状态的损失梯度误差δtc,这里给出公式如(10)和(11)所示,明显我们的反向传播算法更加简洁,计算复杂度更低.

6 总结

本文采用多种机器学习和深度学习分类算法对病人数据进行肝纤维化预测,以寻求优质的算法模型运用到丙型肝炎预测中.经过正态化数据处理、交叉验证调参优化和网络模型结构搭建之后,得到如下结论:

(1)基于机器学习算法的非集成算法模型SVM和集成算法模型GBM,相对于其他传统的机器学习算法在应用于HCV预测具有较好的分类性能,不过分类准确度并没有达到预期效果.

(2)基于深度学习算法的MLP和LSTM模型的分类预测效果要优于传统的机器学习算法,同时LSTM的分类精确度高于MLP模型,更适合HCV的预测.

(3)通过对LSMT前向反向传播算法分析和递推,发现LSTM算法的反向传播算法可以进一步优化.通过数学链式法则和矩阵向量求导规则,我们推导的反向传播算法更加简洁,计算复杂度更低.

猜你喜欢

丙型肝炎准确度梯度
带非线性梯度项的p-Laplacian抛物方程的临界指标
围剿暗行者——丙型肝炎
影响重力式自动装料衡器准确度的因素分析
基于全科医生丙肝认知现状探索基层丙肝消除策略
丙型肝炎病毒感染和2型糖尿病的相关性
丙型肝炎的最新传播途径与预防研究进展
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
一个具梯度项的p-Laplace 方程弱解的存在性
基于AMR的梯度磁传感器在磁异常检测中的研究
基于数字虚拟飞行的民机复飞爬升梯度评估