APP下载

基于BP神经网络、随机森林和决策树建立早期慢性乙型病毒性肝炎肝硬化无创诊断模型*

2022-04-24唐艳芳刘旭东温映华

重庆医学 2022年7期
关键词:决策树纤维化正确率

唐艳芳,刘旭东,吕 萍,林 海,温映华

(广西中医药大学附属瑞康医院肝病科,南宁 530000)

乙型肝炎病毒(hepatitis B virus,HBV)感染仍是全球重大公共卫生问题。据世界卫生组织(WHO)报道,全球约有2.57亿慢性HBV 感染者,非洲地区和西太平洋地区占 68%[1]。全球每年约有88.7万人死于HBV感染相关疾病,其中肝硬化和原发性肝细胞癌死亡分别占52%和38%[2]。肝硬化是由不同病因引起的慢性、进行性、弥漫性肝病,是各种慢性肝病发展的晚期阶段[3],早期积极治疗可有效控制疾病进展,延缓和阻止病情进展为肝硬化失代偿期、肝癌及其他并发症的发生,因此,早期诊断肝硬化对于患者的治疗决策、疗效评估及预后都有非常重要的临床意义。由于早期肝硬化患者往往缺乏典型的临床表现、体征,部分患者肝功能可一直正常,诊断较为困难,容易导致漏诊,延误了最佳治疗时机。目前早期肝硬化的诊断金标准仍然是肝组织活检,但由于获取活组织时的抽样误差及观察者的不同也可能出现分期不准确的情况[4]。因此,临床上迫切需要寻找1种简单、易行、精确的非侵入性手段来替代肝组织活检。随着科学技术的不断发展,数据挖掘技术广泛应用于医学领域,在疾病诊断、预后判断、风险评估等方面具有良好的应用价值[5-7]。本研究收集患者基本人口学资料、中医四诊资料、血清生化指标、肝脏硬度值(LSM)等参数,以病理学结果为金标准,分别采用BP神经网络、随机森林和决策树CHAID算法,构建1套早期慢性乙型病毒性肝炎肝硬化无创诊断模型,并比较3种模型的预测效果,以期达到高效、无创地诊断早期肝硬化的目的,为临床提供简便、可靠的无创肝硬化评估方法。

1 资料与方法

1.1 一般资料

选取2018年1月至2019年8月在本院住院的慢性乙型病毒性肝炎患者106例,年龄18~59岁,平均(39.87±10.36)岁,其中,男83例,女23例,病程1~22年。所有患者在知情同意的情况下均接受肝组织穿刺活检术,并进行病理学分期。按照病理诊断肝硬化的分期结果,将患者分为2组,分别为非肝硬化组(肝纤维化S0~S3期)和肝硬化组(肝纤维化S4期)。其中非肝硬化组49例(46.2%),年龄 20~53岁,平均(36±9)岁;肝硬化组57例(53.8%),年龄18~59岁,平均(43±10)岁。2组患者性别、年龄差异无统计学意义(P>0.05),具有可比性。慢性乙型病毒性肝炎诊断参考中华医学会肝病学分会和中华医学会感染病学分会共同制订的《慢性乙型病毒性肝炎防治指南(2019年更新版)》[2]。排除标准:(1)拒绝加入本课题研究,未签署知情同意书的患者;(2)同时合并其他非嗜肝病毒感染者;(3)失代偿期肝硬化、肝肿瘤或合并其他脏器肿瘤者;(4)肝活检标本长度不足或临床资料不全的患者。

1.2 中医辨证分型

参照2017年中国中西医结合学会消化系统疾病专业委员会制订的《肝纤维化中西医结合诊疗共识意见》[8],结合患者临床详细四诊资料,制订临床常见的3种肝纤维化主要证型——肝胆湿热证、肝郁脾虚证、痰瘀互结证。

1.3 调查方法

在多次预调查的基础上,结合临床诊断自行制订《慢性乙型病毒性肝炎患者个案调查表》,详细记录患者的一般人口学资料、症状、体征、中医四诊资料、穴位信息、中医辨证分型、生化指标、病毒学标志物及肝脏硬度值(LSM)等数据。研究变量如下:(1)中医四诊资料;(2)症状和体征:疲倦乏力、纳差、胁肋疼痛、肝掌、蜘蛛痣、舌有瘀斑、肝俞压痛;(3)LSM值;(4)生化指标及病毒学标志物:Ⅲ型前胶原(PCⅢ)、透明质酸酶(HA)、Ⅳ型胶原(CⅣ)、层粘连蛋白(LN)、血小板计数(PLT)、胆碱酯酶(CHE)、总胆红素(TBIL)、清蛋白(ALB)、球蛋白(GLOB)、丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、甲胎蛋白(AFP)、纤维蛋白原(FIB)、HBV DNA(HBV-DNA)水平、乙型肝炎e抗原定量(HBeAg)、HBV表面抗原定量(HBsAg)。应用美国RXL全自动生化分析仪检测相关生化指标。检测项目均由本院检验科专业人员严格按照试剂盒说明书操作。

1.4 肝脏组织学病理检查

采用超声引导下经皮肝穿刺活检,肝组织学检查及病理阅片均由1名经验丰富的主治医师独立完成,肝组织长度大于或等于1.5 cm,至少包括6个以上汇管区。依据Scheuer分期标准,纤维化程度分为:S0,无纤维化;S1,汇管区纤维化扩大,局限窦周及小叶内纤维化;S2,汇管区周围纤维化,纤维间隔形成,小叶结构保留;S3,纤维间隔伴小叶结构紊乱,无肝硬化;S4,早期肝硬化。规定S0~S3为非肝硬化组,S4为肝硬化组。

1.5 LSM值测定

运用FibroTouch(FT-C型,无锡海斯凯尔医学技术有限公司)测定LSM值,患者取平卧位,双上肢置于头顶,双下肢向外侧平移,使身体成弓形,肋间隙增宽,选择右侧腋前线至腋中线第7~9肋间为检测点。使用B超探头二维成像,避开胆囊、大血管、胆管、囊肿等组织,通过专用探头固定于检测区域,发出固定低频率的剪切波,对肝脏组织实施瞬时主动激励,同时发出高频信号追踪剪切波在肝脏内的传播并计算传播速度,算出肝脏的LSM值,要求成功检测10次,四分位差小于1/10中位数,成功率为100%,取中位数为检测结果,用弹性值(kPa)表示。上述操作均为同一位医师操作。

1.6 统计学处理

采用Epidata3.0软件建立数据库,双人双录入。应用IBM SPSS18.0软件进行统计分析。计数资料以频数表示,比较采用χ2检验;不符合正态分布的连续性变量采用中位数和四分位间距[M(P25,P75)]表示,比较采用非参数检验进行分析,采用单因素分析筛选出差异有统计学意义的变量分别建立BP神经网络算法模型,随机森林算法模型和决策树CHAID算法模型。通过随机样本分割节点,将患者分为训练集和测试集,按照机器学习的常规设置,训练集为80%,测试集为20%。模型具体设置:(1)BP神经网络算法模型:采用多层感知器。隐含层设置为自动计算,最大训练时间为15 min,最大训练周期数量为250,最低准确性为90%。先进行初始BP神经网络算法模型的建立。根据所收集的病历资料数据结构,确定BP神经网络算法模型基本框架,以经过自变量筛选得到的变量作为BP神经网络算法模型的输入变量,以有或无肝硬化作为输出变量。BP神经网络算法模型的输入层层数与输入变量的个数相同;通过试凑法来确定隐含层节点个数,将BP神经网络的隐含层个数范围设置为(10,60),分别进行50次重复试验,记录每一次试验中的网络模型误差率,比较其中位数大小,根据隐含层节点数使BP神经网络算法模型的分类错误率误差最低时选择隐含层节点数。(2)CHAID决策树算法模型:分割显著性水准α设置为0.05,树的生长层数为3层,停止规则α=0.05,母、子母节点最小样本量分别设为50、10,并产生CHAID决策树分析模型的乙型病毒性肝炎肝硬化预测概率。(3)随机森林算法模型:在Rstudio软件中,通过调用randomforest程序包来进行随机森林分类识别模型的构建。randomforest函数在进行模型构建过程中主要包含mtry(随机森林算法中用于设定决策树分支的变量个数)和ntree(随机森林算法中决策树的数目)2个模型参数。数据集中变量个数开平方根所得数值,通常作为参数mtry的取值方式,本研究随机森林算法模型的输入变量个数为106,因此将参数mtry默认设定为10;ntree在通常情况下设定为500,即随机森林算法中默认存在500棵树。根据上述默认参数,建立初始随机森林算法模型,在测试集中对分类模型效果进行评价,并选出最优参数建立最终模型。为了比较不同模型的诊断价值,通过计算3个模型的正确率、错误率、混淆矩阵、灵敏度、特异度、约登指数、阳性预测值、阴性预测值、受试者工作特征(receiver operating characteristic,ROC)曲线下面积(AUC)值等比较模型的优劣。以P<0.05为差异有统计学意义。

2 结 果

2.1 血清学指标与肝硬化的单因素分析

由于PCⅢ、CⅣ、LN、HA、HBV-DNA等连续性变量不符合正态分布,采用非参数检验进行分析,结果显示:CⅣ、LN、HA、GLOB、PLT、FIB、ALT、AST、AFP、HBsAg、HBeAg和LSM值与肝硬化有关,差异有统计学意义(P<0.05),可进入之后的模型进行分析。PCⅢ、CHE、HBV-DNA、TBIL和ALB在组间差异无统计学意义(P>0.05),予以排除。见表1。

表1 106例患者血清学指标的单因素分析[M(P25,P75)]

续表1 106例患者血清学指标的单因素分析[M(P25,P75)]

2.2 临床特征与肝硬化的单因素分析

χ2检验结果显示,中医四诊资料、肝掌、舌有瘀斑、疲倦乏力、纳差和肝俞压痛,差异有统计学意义(P<0.05),可进入之后的模型进行分析,蜘蛛痣和胁肋疼痛差异无统计学意义(P>0.05),予以排除,见表2。

2.3 BP神经网络、随机森林和决策树CHAID算法模型的混淆矩阵、正确率和错误率比较

本文采用混淆矩阵及整体正确率、错误率对模型进行评价,混淆矩阵结果见表3。在训练集中,3个模型正确率均较高,均在90%以上,随机森林算法模型更是达到了100%的正确率。进一步推广到测试集中,最优的模型是随机森林算法模型,正确率为84%,其次为BP神经网络算法模型,正确率为80%,再次为CHAD决策树算法模型,正确率为72%。见表4。

2.4 3种预测模型性能比较

在同一测试集中,对比BP神经网络、随机森林和决策树CHAID 3种算法模型的分类效能,随机森林算法模型在真正患者识别早期肝硬化效果方面优于BP神经网络算法模型和决策树CHAID算法模型,随机森林模型的灵敏度(0.813)、特异度(0.889)、约登指数(0.701)、阳性预测值(0.929)、阴性预测值(0.727)及AUC(0.896)均高于BP神经网络算法模型和决策树CHAID算法模型。由此得出,随机森林算法模型的预测效果最为理想,其诊断价值高于BP神经网络算法模型和决策树CHAID算法模型。见表5。

表2 106例患者的临床特征比较(n)

表3 3种模型在训练集和测试集的混淆矩阵(行为实际值)

表4 3种模型在训练集和测试集的整体正确率和错误率[n(%)]

表5 3种预测模型评价指标体系比较

3 讨 论

在慢性肝病的进程中,肝硬化的早期诊断和评估,对慢性HBV肝炎患者选择合适的治疗策略和预测预后具有重要的临床意义[9]。肝组织活检仍是评估肝纤维化程度的“金标准”,但其具有重复性差、侵入性、观察者内和观察者间的变异及易伴出血、疼痛等风险的缺点[10-11],这使得早期肝硬化的诊断相对滞后。近年来,基于多项临床生物化学指标及影像学检查建立的肝纤维化无创性诊断模型受到越来越多的学者关注,这些模型对肝纤维化的诊断具有一定的临床运用价值,但以慢性HBV肝炎为研究对象所建立的模型较少且尚不成熟,国内学者提出的相关研究主要包括:上海肝纤维化组(SLFG)模型[12]、Fibromodel[13]、FibroIndex[14]及S指数[15-16]等。这些模型所纳入的部分参数在临床上不易获取,未经临床广泛验证,临床推广应用则受到一定的限制。随着临床医学研究数据量剧增,数据形式趋于复杂化、多样化,如何从海量的数据中获取更有价值和意义的信息,是当前医学研究发展的难点及热点问题。显然,传统的数据分析方法和工具已不能满足当前的需要,针对海量、复杂的医学数据,机器学习算法显示了明显的优势,比如:BP神经网络算法、决策树CHAID算法可处理非线性关系的预测模型[17-18],随机森林模型的稳健性较高,可以高效地处理大数据集[19-20]。本研究以肝组织活检诊断结果为金标准,通过收集106例慢性HBV肝炎患者的临床症状、体征、中医四诊资料、生化指标、LSM及穴位信息资料,分别建立BP神经网络、随机森林和决策树CHAID算法模型用于预测乙型病毒性肝炎早期肝硬化,尽可能选择最优的参数建立模型,以更好地提升预测效果。通过对比研究,发现随机森林算法模型的预测性能高于BP神经网络算法和决策树CHAID算法模型,显示出了良好的优势,其中在训练集中的正确率为100%,测试集中的正确率为84.00%,AUC为0.896,这可能与随机森林算法的随机特征选择思想较其他分类器(如判别分析、支持向量机、神经网络等)表现得更为出色有关,并且它在处理过拟合问题上也非常得心应手[21]。

本研究利用曼-惠特尼U检验和χ2检验筛选出的有效变量有CⅣ、LN、HA、GLOB、PLT、FIB、ALT、AST、AFP、HBsAg、HBeAg、LSM、中医四诊资料、肝掌、舌有瘀斑、疲倦乏力、纳差和肝俞压痛,这些危险因素与目前的临床、指南相符合,还提供一些对临床有重要意义的信息,值得进一步探究。另外,在本研究中中医证型诊断也可以用于早期乙型病毒性肝炎肝硬化的预测模型中,这给临床提供了一个实用性的新思路。

综上所述,本研究采用的随机森林算法模型在判别早期乙型病毒性肝炎肝硬化研究中初步显示出较好的诊断效能和稳定性,在一定程度上减少了肝组织活检的必要性,对指导临床治疗和随访病情转归具有现实意义。相比于其他肝纤维化非创伤性诊断模型,本研究的预测因素更为全面,包括症状、体征、生化指标、LSM值、中医证型、舌脉及穴位信息等,涉及范围大,可充分挖掘数据信息,模型更为完善,在这个数据量不断膨胀的时代,显示了其独特的优势。另外,研究采用多种模型对早期肝硬化进行预测,并比较各模型的预测效能,对临床的指导意义巨大。本研究也存在一些不足之处,首先本研究为单中心研究,所纳入的患者数较少,可能存在一定的发表偏倚。其次,本研究并未对肝纤维化程度进行细分,只进行了明显肝纤维化和肝硬化的预测分析,属于0-1二分类数据集,这就使得本次研究对肝纤维化的具体分期预测不够明确,下一步将使用更大、更全面的样本集对本文中的模型进行验证和改进,从而建立更加完善的分类模型。

猜你喜欢

决策树纤维化正确率
线粒体自噬在纤维化疾病中作用的研究进展
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
恩替卡韦联合安络化纤丸治疗慢性乙型肝炎肝纤维化的研究
个性化护理干预对提高住院患者留取痰标本正确率的影响
课程设置对大学生近视认知的影响
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
生意
生意
决策树在施工项目管理中的应用