APP下载

构建基于20基因的急性髓系白血病预后生存模型

2021-03-25何文君石张镇胡南均孙延霞

中国实验诊断学 2021年3期
关键词:生存期决策树测序

何文君,石张镇,胡南均,孙延霞

(吉林大学中日联谊医院 血液肿瘤科,吉林 长春130033)

急性髓系白血病(AML)是一种骨髓造血干/祖细胞的恶性克隆性疾病,其主要特征是骨髓和外周血中原始和未成熟的骨髓细胞发育不良。多数情况下病情急、重,预后差,不及时治疗可能危及生命[1]。尽管已经进行了广泛的研究来识别和发现预后标记,但AML的死亡率仍然很高。近几十年来,大量研究表明许多基因突变和基因异常表达与AML的预后密切相关。已经报道的具有预后意义的突变基因包括FLT3、KIT、CEBPA、N-RAS、FES、FOS、GATA-1、JUN B、MPL、MYC、p53、PU.1、RB、WT1、RUNX1、WNT、NPM1、CBF、RAR-α、HOX、MLL[2-4]。目前临床实践中广泛使用NPM1、WT1、CEBPA和FLT3突变来评估AML危险分层及指导治疗[5],但是很多病例不存在上述基因突变,所以这些患者很难被准确评估其预后。最近的研究表明,新的AML生物标志物的识别有助于更好地理解疾病的分子基础,对AML的筛查、诊断、预后和监测以及评估个体治疗反应都非常有益[4]。因此,迫切需要探索新的准确的生物标志物来改善AML风险分层,评估预后。本研究基于对AML患者基因表达谱的数据分析,运用机器学习算法,构建了AML 1年预后生存模型。

1 材料和方法

1.1 数据的获取与筛选

首先,从GDC(Genomic Data Commons)的外部链接Broad Firehose数据库(Firehose数据库中AML项目源于美国麻省理工学院和哈佛大学研究所共建的Broadinstitute运行的GDAC,提供较为完善的以TCGA数据为基础的各类信息检索)中下载关于AML患者的临床及转录组数据,筛选出符合要求的生存期及mRNA测序数据的病历共163例,病例截止时间为2016年1月28日。

1.2 数据预处理和差异基因筛选

基于R语言对上述数据集进行预处理:以生存期1年为界限将163例患者分为≥1年生存期、<1年生存期两组,根据表达量对基因进行过滤,过滤掉低表达量的基因,本研究自定义该阈值为表达量为0的值≥10个的基因,并形成数据矩阵。利用R语言的DESeq程序包,以|log2FoldChange|>1.0,调整后P值<0.05作为筛选条件,鉴别差异表达基因(DEGs)。

1.3 机器学习建模

筛选|log2FoldChange|≥1.4,校正后P值<0.05的差异表达基因共20个(表1),利用基于R语言的Rattle包,首先将20个差异表达基因数集进行背景矫正和归一化处理,原始测序数据经过[0,1]转换,将163名患者以7∶3比例分为训练集和内部验证集,构建决策树、RF、Boost、SVM、线性逻辑回归、ANN生存分析模型,利用受试者工作特征曲线(ROC)评估模型预测预后能力,并进行内部数据验证,从而筛选出AUC值最高的Boost模型作为最理想的预后模型。

2 结果

2.1 差异基因识别

通过使用R语言DESeq程序包对数据集进行差异基因识别,以校正后P值<0.05,|log2FoldChange|≥1.4作为筛选标准,结果共发现20个差异表达基因。其中,表达水平上调的基因5个(EBF4、MTUS2、NT5E、AEF2、IGDCC4),表达水平下调的基因15个(ADAMTS2、TRPM4、PACSIN1、CACNG4、SPON1、CCDC3、C10orf72、MAOA、ESPN、CIQA、LILRA4、UBXN10、LIF、WDR86、PEG10)。差异表达基因的情况见表1。

表1 差异表达基因

2.2 机器学习预后模型分析

机器学习模型对训练集学习其规律后,对验证集进行预测,从而评价决策树、RF、Boost、SVM、线性回归、ANN预测准确率。决策树的AUC值为0.63,RF的AUC值为0.72,Boost的AUC值为0.75,SVM的AUC值为0.72,线性回归的AUC值为0.71,ANN的AUC值为0.66。经ROC曲线评判,结果显示Boost对AML患者1年生存情况的预测效果更佳,详情见图1-6,6种预后模型预测能力对比见表2。

3 讨论

AML是一种异质性血液系统恶性肿瘤,死亡率高,预后较差,遗传学和表观遗传学异常在其发病的不同阶段、疾病预后和临床特点等方面起着至关重要的作用。因此,研究AML遗传学和表观遗传学异常、全面认识发病机制、探索新的预后基因是目前亟待解决的问题。

图1 决策树预测模型ROC曲线 图2 RF预测模型ROC曲线 图3 Boost预测模型ROC曲线

图4 SVM预测模型ROC曲线 图5 线性回归预测模型ROC曲线 图6 ANN预测模型ROC曲线

表2 6种预后模型预测能力对比

一项纳入200例确诊为AML患者的TCGA-AML子研究通过全基因组(50例)、全外显子测序(150例),以及RNA和miRNA测序和DNA甲基化分析,发现几乎所有样本在与发病机制有关的九类基因中至少有1个显著突变,包括:转录因子融合、NPM1基因、肿瘤抑制基因、DNA甲基化相关基因、信号基因、染色质修饰基因、髓样转录因子基因、内聚蛋白复合物基因和剪接体复合物基因,这些基因突变与患者预后密切相关[6]。而近年来的研究表明,影响患者预后的因素除了与患者的一般临床资料、治疗方案、染色体异常、表观遗传因子突变、DNA甲基化、组蛋白翻译后修饰、miRNA、蛋白质组学等相关外[4],基因表达量也可作为AML患者预后的标志。一项210名接受强化化疗的细胞遗传学正常患者的队列研究表明,ERG基因高表达与较低的完全缓解率(CRs),较短的中位无进展生存期(PFS)相关,高ERG表达水平是一种负性预测因子[7]。一项回顾性研究表明,骨髓中SET基因表达水平与AML发病及其预后有显著相关性,SET基因高表达组中位总生存期 (OS)、PFS明显低于低表达组[8]。最近一项纳入111例正常核型AML患者的研究表明,BAALC和(或)MN1基因高表达组预后不佳,CRs降低,BAALC和MN1表达水平可用于更精确的正常核型AML患者的风险分层,特别是 FLT3-ITD-/NPM1-的患者,可将中间风险组转变为预后不佳组[9]。

随着大规模基因组学测序的兴起,机器学习(ML)算法越来越多地被应用到基因表达分析中,目的是对肿瘤进行分类,预测生存,确定治疗目标,并根据功能对基因进行分类[10-13]。近年兴起的机器学习算法,如基于统计学习理论的决策树、RF、SVM、线性回归、ANN适用于高维数据的分析,可以得到具有较好泛化能力的预测模型。董华等人使用机器学习中的决策树算法实现了对三阴性乳腺癌的预测,预测模型的准确率达95.5%[14]。Luan等人使用支持向量机对乳腺癌患者进行智能决策,该实验表明支持向量机在该疾病的诊断中效果良好[15]。Boost是一种通过累加弱模型来产生一个强模型的机器学习方法,他是通过不断消除残差来提高模型精度,着重优化了两个不同的方面:偏差 (Bias)和方差(Variance),能够很灵活地拟合各种复杂的训练样本。一项预测668例颅内肿瘤手术24小时内发生早期术后并发症的研究表明,应用梯度Boost机器学习算法,可以创建一个优于传统统计方法的预测模型[16]。

本课题组前期已经完成人工神经网络建立术前判断进展期胃癌淋巴结转移的诊断模型,其优于传统的Logistic多元回归分析,有望帮助相关科室提高判断淋巴结转移的准确率[17]。本研究以AML为研究对象,利用Firehose数据库数据进行差异基因表达分析。通过分析,筛选出20个基因为预后相关基因构建AML预后预测模型,Boost模型AUC值0.7534,能较准确的通过基因表达水平预测AML预后,尽管本研究仅基于基因表达量,通过生物信息学分析角度研究急性髓系白血病潜在的预后标志物,但仍然为急性髓系白血病的进一步危险分层及预后评估提供了新的思路,希望在以后的工作中进行多组学分析建模,更加精准地判断和评估AML预后。

猜你喜欢

生存期决策树测序
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
基因测序技术研究进展
决策树和随机森林方法在管理决策中的应用
决策树学习的剪枝方法
感染性心内膜炎手术治疗的疗效观察
肝癌TACE术后生存期小于1年及大于3年的相关影响因素分析
决策树多元分类模型预测森林植被覆盖
决策树在施工项目管理中的应用