APP下载

食管鳞状细胞癌预后甲基化基因生物标志物筛选

2020-03-20陈思禹王钰琦

武警医学 2020年1期
关键词:训练组甲基化标志物

赵 明,陈思禹,王钰琦

食管癌(esophageal carcinoma, EC)包括腺癌和鳞状细胞癌,是世界第八大常见癌症,也是导致癌症相关死亡的第六大原因[1,2]。大多数食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)患者是在病情发展到晚期才被诊断出来的,患者的生存率很低。虽然有改进的治疗方案,但大多数ESCC患者的预后仍然很差,5年的长期生存率为5%~20%[3]。目前尚缺乏预测ESCC预后的有效生物标志物,但对ESCC发生发展的表观遗传学和遗传学机制的进一步了解表明,一种敏感、特异的甲基化生物标志物有助于食管癌患者尽早开展临床治疗,从而改善预后[4]。DNA甲基化是基因沉默的一种机制,在胚胎发育、转录、基因组印记和X染色体失活等许多细胞和发育过程中发挥着重要作用[5-7]。据报道,一些肿瘤抑制基因,如CDKN2A、MGMT、RASSF1A和APC,在癌症发展过程中由于启动子的高甲基化而被沉默,在肺癌(lung cancer, LC)、乳腺癌(breast cancer, BC)和结直肠癌(colorectal cancer, CRC)中都有重要的作用[8-10]。在ESCC中,19%~88%的病例CDKN2A被甲基化[11,12]。DKK-3、RUNX-3和SFRP-1的高甲基化也会增加ESCC复发的风险[13]。因此,本研究旨在通过TCGA数据库ESCC甲基化数据分析出与生存相关的甲基化基因作为ESCC患者预后的生物标志物,寻找潜在的治疗靶点,为ESCC的治疗提供科学依据。

1 资料与方法

1.1 一般资料 在TCGA数据库下载ESCC全基因组甲基化level3数据及相应的临床信息。最终,96例ESCC样本和3例正常样本甲基化数据被纳入研究,ESCC样本临床信息主要包括生存信息、年龄、性别和TNM分期等。将所有ESCC样本随机分为训练组和验证组。

1.2 构建甲基化基因生物标志物 在ESCC样本和正常样本中进行差异甲基化基因筛选,认定甲基化值(beta value)>0.1、差异倍数在2倍以上(|Fold Change|≥2)并且校正后的P值(FDR)≤0.05为差异甲基化基因。通过单因素Cox比例风险回归分析来筛选出训练组中与生存相关的差异甲基化基因。一般认为,模型的甲基化基因数量越少,模型越实用,因此笔者采用随机生存森林(random survival forest-variable hunting, RSFVH)算法和多因素Cox回归分析筛选出甲基化基因标志物。进而采用多因素Cox回归分析建立模型,该模型能够根据如下表达评估预后风险:

其中,N为判断预后的DNA甲基化基因数量,Meth代表基因DNA甲基化值,Coef为单因素Cox回归系数。

1.3 统计学处理 训练组中,风险分数平均值作为临界值将ESCC患者分为高风险组与低风险组,采用Kaplan-Meier法绘制生存曲线来预测总生存率,并使用时序检验(log- rank test)来检验高、低风险组生存曲线是否存在差异,P值(FDR)≤0.05为存在差异,P值越小差异越显著。然后使用时间依赖性ROC曲线来评估该预后模型的预测能力。本研究将鉴定的生物标志物与其他临床参数共同纳入多因素Cox回归分析来评估其独立预后价值。在验证组中使用时间依赖性ROC曲线和Kaplan-Meier生存分析验证甲基化基因标志物的预测能力。

1.4 DNA甲基化生物标志物基因功能注释 通过基因功能(gene ontology,GO)注释来研究所有选择标志物基因的功能,以进一步了解所选标志物基因的预测能力,设定阈值P<0.05。

2 结 果

2.1 样本情况 数据处理后,将96例ESCC样本随机分为验证组32例,训练组64例。患者的一般资料见表1。

表1 96例食管鳞状细胞癌患者一般资料 (n;%)

2.2 鉴定ESCC预后相关甲基化基因 通过差异甲基化基因筛选,共筛选到差异甲基化基因283个。单因素Cox比例风险回归分析基因甲基化水平与生存时间的关系,鉴定出51个甲基化基因与患者的总生存时间均有显著的相关性(P< 0.05)。通过随机生存森林和多因素Cox回归分析,我们鉴定出4个预后相关甲基化基因并建立了ESCC预后标志物模型,这4个基因分别是RRAGB、SYP、ERCC6L和RNASEH2CP1。

2.3 甲基化基因生物标志物预测能力验证 每个ESCC患者的风险评分如下:RS=(-0.31×methRRAGB)+(-0.31×methSYP)+(0.30×methERCC6L)+(0.28×methRNASEH2CP1)

每个患者从所选择的甲基化基因标志物中得到一个风险评分,以中位风险评分作为临界值,将训练组患者分为低风险组(n=32)和高风险组(n=32)。Kaplan-Meier生存分析显示,低风险组患者总生存期明显长于高风险组(OS: 1.47年vs0.92年, log-rank testP<0.001,图1A)。在验证组中得到相似的结果,高风险组患者的总生存期明显短于低风险组(OS:1.25年vs1.39年,log-rankP=0.03,图1B)。通常认为,ROC曲线下面积(AUC值)越大,预测模型越好。在训练组中,4个甲基化基因生物标志物的AUC值为0.984(图1C),预测能力较高。

并在验证组中得到验证(AUC标志物=0.83,图1D)。

将鉴定的甲基化基因生物标志物和其他临床特征(性别、年龄、TNM分期等)结合进行多因素Cox回归分析,结果表明,笔者鉴定的甲基化基因生物标志物是独立的预后因子(高风险组与低风险组,危险比HR=4.83, 95%CI: 1.74~13.40,P=0,n=64,表2),其他临床特征无关。同样的结果也在验证组中出现(高风险组vs低风险组,HR=1.80,95%CI:0.87~3.70,P=0.03,n=32,表2)。

2.4 甲基化基因生物标志物基因功能注释 GO功能注释显示,预后相关的甲基化生物标志物基因显著富集在转录和转录调控、DNA结合、链特异性DNA结合等方面。表明这些预后相关基因可能通过调控转录和DNA结合等方面来调控ESCC的预后。

图1 甲基化基因生物标志物预测肺腺癌患者预后

A.训练组高风险组与低风险组Kaplan-Meier生存曲线;B.验证组高风险组与低风险组Kaplan-Meier生存曲线;C.训练组ROC曲线;D.验证组ROC曲线

表2 训练组和验证组4个甲基化基因与ESCC患者生存的单变量和多变量Cox回归分析

3 讨 论

食管癌是消化系统最常见的恶性肿瘤之一,死亡率高,预后差。尽管有放化疗或手术治疗,食管癌的预后仍然很差,总生存率很低[14]。在ESCC的发生和发展过程中,已经发现了表观遗传和遗传畸变在其中的重要作用。随着基因分析技术的迅速发展,我们可以进一步研究ESCC的分子特征,为其预后和治疗分子靶点提供有价值的证据。

近年来,表观遗传学与肿瘤发生的关系研究一直是分子生物学研究的热点之一。表观遗传学是核苷酸序列没有改变,而是通过DNA甲基化、染色体重构和组蛋白去乙酰化发挥作用。并且,越来越多的证据表明,异常的DNA甲基化与肿瘤的发生和发展有关。例如,Gao等[15]建立了评估肺腺癌患者的预后风险模型,研究了预后较差的关键基因异常甲基化位点与预后的关系。此外,Fan等[16]利用GEO数据库研究异常甲基化基因作为肝癌的生物标志物[17]。许多研究表明,DNA甲基化与ESCC相关。因此,研究ESCC进展的表观遗传学变化及其分子机制对ESCC的预后预测和治疗具有重要意义。异常基因甲基化分析的稳定性和独立性使其成为预测预后生物标志物的一种可行方法[18]。文献[19-21]研究表明,DNA异常甲基化会影响基因参与DNA损伤、细胞周期、Wnt、NF-κB信号通路,这些基因包括P16、DACH1和ZNF382。此外,其他研究表明,甲基化FHIT与早期ESCC预后不良有关[22]。因此,对异常甲基化DNA分子功能富集和预后价值的生物信息学分析可以为临床医师提供参考有前景的工具来预测预后和治疗患者。

本研究系统分析了ESCC甲基化数据,通过差异甲基化基因鉴定,共鉴定了283个差异甲基化基因,然后通过单因素Cox回归分析,找到了51个与ESCC生存相关的差异甲基化基因。笔者采用随机生存森林算法来提取预后相关的甲基化基因并缩小基因数。随机生存森林算法是基于决策树集合的多数投票预测,利用最大子树进行有效的变量选择。利用基因重要性准则对原始基因集进行迭代过滤,在标志物选择方面取得了较好的效果,实现了更大的稳定性和更准确的预测。最后,确定了一个由4个甲基化基因组成的新型甲基化基因生物标志物。笔者选择的生物标志物可以在训练组和验证组中将ESCC患者分为生存时间显著不同的高风险组和低风险组,表明其具有强大的预测能力。通过多因素Cox回归分析,以年龄、TNM分期和性别为协变量,证实甲基化基因标志物的风险得分与总生存期保持独立相关,不受其他临床因素的影响。ROC曲线训练组中的AUC值是0.984,而验证组中AUC值是0.83,进一步证明了笔者鉴定的甲基化基因标志物是一个高精度的预后标志物,具有重要的临床价值。

此外,笔者分析了作为生物标志物的甲基化基因的功能。GO功能注释主要集中在转录、转录调控、DNA结合和链特异性DNA结合等功能。RRAGB可作为各种信号转导通路的分子开关,尤其是调控mTOR信号通路起着关键作用,而mTOR的激活促进肿瘤生长和转移[23]。SYP可作为神经内分泌前列腺癌的生物标志物[24]。下调MDA-MB-231细胞中ERCC6L的表达水平,可显著抑制乳腺癌细胞增殖,扰乱细胞周期分布,诱导细胞凋亡。这些发现提示ERCC6L作为癌基因在乳腺癌中表达较高,参与乳腺癌的发生发展,可能成为治疗乳腺癌的一个新的分子靶点[25]。RNASEH2CP1的报道较少,可能是食管癌中一个新的甲基化标志物,需要我们继续进行研究。

综上所述,笔者已经识别并成功验证了ESCC患者的甲基化基因生物标志物,并且这个甲基化标志物具有很高的预后预测准确率,表明该标志物可能具有较好的临床意义。

猜你喜欢

训练组甲基化标志物
炎性及心肌纤维化相关标志物在心力衰竭中的研究进展
新型抗阻力训练模式改善大学生身体素质的实验研究
多项肿瘤标志物联合检测在健康体检中的应用价值
甲基苯丙胺改变成瘾小鼠突触可塑性基因的甲基化修饰
产后妇女盆底功能障碍康复治疗方法及应用效果观察
跑台运动训练对脊髓损伤大鼠肺功能及HMGB-1表达的影响
基于TCGA数据库分析、筛选并验证前列腺癌诊断或预后标志物
DNA甲基化与基因活性的调控
运动可延缓衰老
冠状动脉疾病的生物学标志物