APP下载

长链非编码RNA预测头颈部鳞状细胞癌患者预后的研究

2020-06-01徐晓晨谭君武

中国实验诊断学 2020年5期
关键词:高风险生存率关键

向 琳,徐晓晨,谭君武,杜 波*

(1.湖北民族大学附属民大医院,湖北 恩施445000;2.吉林大学第一医院,吉林 长春130021)

头颈部鳞状细胞癌(head and neck squamous cell carcinoma ,HNSC)每年全球约新增75万病例,死亡约40万,严重威胁人类健康[1],这类肿瘤包括起源于口腔、口咽、下咽、喉、鼻咽、腭舌和扁桃体的癌症。这类患者的预后受多种因素的影响,预测其预后对临床工作十分重要。长链非编码RNA(long non-coding RNA,lncRNA)在HNSC的发生发展过程中发挥重要作用,影响肿瘤的生存、迁移和侵袭,可能是潜在的预后标志物[2]。既往已有lncRNA预测喉癌预后的相关研究[3],本研究利用癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中HNSC表达数据预测患者5年生存率,筛选预测预后的关键lncRNA。

1 材料与方法

1.1 HNSC患者信息

头颈部鳞状细胞癌(HNSC)患者RNA-seq数据和临床资料由TCGA网站(https://tcga-data.nci.nih.gov/tcga/)下载。临床资料包括总体生存率(overall survival,OS)、年龄、性别、肿瘤分级和AJCC分期。

1.2 HNSC样本表达谱

HNSC患者HTSeq-counts数据与GENCODE数据库资料(https://www.gencodegenes.org/human/,gencode.v22)匹配添加注释信息。使用RPKM对lncRNAs和mRNAs表达水平进行标准化。lncRNAs筛选标准:Ⅰ.转录位置不在蛋白编码区域;Ⅱ.在Gencode中存在注释信息;Ⅲ.至少在一半HNSC样本中表达;Ⅳ.平均RPKM>0.1。

1.3 差异表达分析

使用edgeR包以log2|fold change|>1 和调整后P<0.001作为阈值计算差异表达lncRNAs。

1.4 关键lncRNA筛选

在训练集中使用单因素COX分析计算差异表达lncRNAs与总体生存率(OS)之间的关系,然后使用多因素COX分析随机生存森林法筛选关键lncRNAs,风险评分(risk scores,RS)等于每个lncRNA的Coeffcient系数乘以其表达量之和,大于中位值定义为高风险,反之为低风险,以P-value <0.05表示差异有统计学意义。

1.5 生存分析

使用Kaplan-Meier曲线log-rank检验计算两组的生存差异,多因素COX分析和分层分析评估关键lncRNAs和临床特征的关系。使用受试者工作特征(receiver operating characteristic,ROC)曲线评估五年生存预测的敏感性和特异性。

1.6 功能富集

使用Spearman相关性分析筛选lncRNA-mRNA共表达的蛋白编码基因,相关系数>0.40,P<0.01表示显著相关。功能富集使用GO分析,通路富集使用KEGG分析,以P-value <0.001,Q-value<0.01作为阈值。所有分析均使用R(version 3.6.2)软件。

2 结果

2.1 关键lncRNAs

通过与临床信息匹配共筛选出475例样本,随机分为训练集(n=238)和测试集(n=237),共筛选出493个满足阈值的差异表达lncRNAs。在训练集共筛选出5个关键lncRNAs与样本预后明显相关(表1),其中1个(RP11-865I6.2)为正系数,表示其高表达与短生存期相关,4个(RP11-417L19.2、RP11-567M16.1、RP11-44K6.2、FALEC)为负系数,表示其高表达与长生存期相关。

表1 HNSC训练集中5个lncRNAs与总体生存率的关系

2.2 训练集中关键lncRNAs与总体生存率

训练集中Kaplan-Meier曲线显示高风险患者(n=119)预后显著差于低风险患者(n=119)(P<0.0001,图1A)。高风险患者3年生存率38.61%、5年生存率23.59%、8年生存率0%,低风险患者3年生存率79.80%、5年生存率63.78%、8年生存率39.25%。使用ROC曲线评估5个lncRNAs预测HNSC患者预后的作用,其ROC曲线下(area under curv,AUC)面积为0.774(图1B)。单因素COX分析显示5个lncRNAs风险评分显著和患者预后相关(表2)。高风险患者死亡率显著高于低风险患者(图1C),热图显示RP11-865I6.2在高风险组上调,RP11-417L19.2、RP11-567M16.1、RP11-44K6.2和FALEC在高风险组下调(图1C)。

2.3 测试集、整集中关键lncRNAs与总体生存率

测试集中高风险患者(n=132)OS明显差于低风险患者(n=105)(P=0.0042,图2A)。整集中高风险患者(n=251)生存期明显短于低风险患者(n=224)(P<0.0001,图2B)。测试集高风险患者3年生存率51.02%、5年生存率37.93%、8年生存率15.17%;低风险患者3年生存率61.19%、5年生存率52.35%、8年生存率52.35%。整集中高风险患者3年生存率45.11%、5年生存率31.61%、8年生存率11.08%;低风险患者3年生存率72.09%、5年生存率58.66%、8年生存率47.16%。测试集和整集AUC分别为0.651(图2C)和0.712(图2D)。

表2 不同数据集COX分析结果

图1 HNSC训练集中5个lncRNAs风险评分模型预测总体生存率

2.4 关键lncRNAs的独立性分析

COX分析显示5个lncRNAs危险评分、年龄与预后相关(表2)。按中位年龄61岁将样本分为两组,结果显示在不同年龄分层中,高风险患者OS显著短于低风险患者(图3A-3C)。低风险中不同年龄组患者预后无差异(P=0.091,图3D)。

图2 HNSC测试集与整集中5个lncRNAs风险评分模型预测总体生存率

图3 5个lncRNAs在不同年龄患者的分层分析

2.5 关键lncRNAs的功能分析

共筛选出728个蛋白编码基因,GO分析显示5个关键lncRNAs相关蛋白编码基因在242个GO项中显著富集,其中BP 219项,CC 13项,MF 10项,KEGG分析显示在33个通路中显著富集。功能富集主要集中在白细胞粘附、淋巴细胞分化、淋巴和T细胞激活(图4A),通路富集主要集中在抗原处理和呈递、T细胞分化、细胞粘附分子(图4B)。

图4 5个lncRNAs的功能富集分析

3 讨论

长链非编码RNA(lncRNA)调节肿瘤发生、迁移和侵袭。已有众多研究发现lncRNA通过下游基因靶向调节HNSC细胞增殖与入侵[4-6],许多研究表明lncRNA可以作为癌症预后的独立预测因子[7,8]。Xiong D 等[9]的研究发现 LINC00958 和 HOXC13-AS可作为HNSC患者的诊断标志物。lncRNA是癌和其他头颈部肿瘤的重要生物标志物[10]。但是,lncRNA在预测HNSC患者预后中的作用尚不明确。

本研究中,我们利用TCGA数据库,在训练集中通过单因素和多因素COX分析构建了一个基于5-lncRNAs的风险模型,利用中位风险值将患者分为高风险组和低风险组。在测试集和全集中验证了5-lncRNAs模型,与低危患者相比,高危患者总体生存率低。将5-lncRNAs模型与临床信息相结合做分层分析,证实5-lncRNAs模型独立于临床因素,这增加了预后预测的可靠性。RP11-865I6.2上调,与患者预后呈负相关,RP11-417L19.2、RP11-567M16.1、RP11-44K6.2和FALEC下调,与患者预后呈正相关。我们的研究中,共筛选出5个lncRNAs作为预测HNSC患者预后的关键因子,据我们所知,之前没有关于这5个lncRNAs的报告,表明它们是在本研究中新发现的。Li J等[11]研究发现了10个lncRNAs,Xing L等[12]发现4个lncRNAs,Zhang Z等[13]发现3个lncRNAs,Yang B等[14]发现8个lncRNAs,这些lncRNAs均与HNSC患者预后明显相关。这可能是分析过程中数据处理方法的差异,样本量的不同,样本来源数据库的不同以及不同lncRNA之间的差异导致患者处于不同的风险水平所导致。本研究利用一个稳健的随机生存森林分析来筛选与预后相关的关键lncRNA,确定了一个5-lncRNAs风险模型,而且没有和以上研究相重复的lncRNA。我们希望更多的类似研究揭示预测HNSC患者预后的关键因子,Pan Y等[15]研究发现RP11-865I6.2、RP11-366H4.1、HOTTIP、RP11-275N1.1可作为HNSC患者的预后预测基因,这些重复较多的基因可能为进一步研究HNSC的分子机制和生物标志物提供新的靶点和理论基础,而且,采用生物信息学工具对HNSC中lncRNA进行表达分析时必须使用不同的方法对结果进行验证。我们的研究提示这个5个lncRNAs独立于临床因素。事实上,包含基因信息、临床病理分期的变量相较于单纯的TNM分期变量能更加准确的估计喉癌总体生存率[3]。既往有研究发现在中国人中lncRNA WWTR1-AS1过表达与不良预后相关[16],我们的结果中不包括上述基因,可能是由于人种的差异导致其潜在的分子机制不同。富集分析显示与5个lncRNAs相关蛋白编码基因主要集中在细胞免疫及分子粘附方面。这与以前肿瘤免疫以及细胞粘附分子的相关研究结果相似[17,18]。

本研究存在一定的局限和不足。首先,本研究主要集中在数据挖掘和分析两个方面,这些都是基于统计学方法,研究结果没有通过进一步的实验验证,没有试验分析其潜在机制,此外,我们只分析验证了TCGA数据集中5个lncRNAs的预测能力,没有其他数据库lncRNA表达数据用于进一步验证。其次,由于不同的lncRNA检测方法可能导致不同的结果,因此必须对lncRNA的检测、量化和转录活性的测定过程进行标准化。最后,lncRNA通过复杂的调控网络调节肿瘤过程,涉及到不同种类的顺式和反式调控元件,在广泛的生物过程中发挥着重要的调控作用,需要进一步的综合分析5个lncRNA在HNSC中的作用。因此,我们建议未来的研究应增加多变量预测模型以提高HNSC患者预后预测的准确性。

本研究中,我们证明了lncRNAs在HNSC患者中的预测价值,提示5个lncRNAs有助于预测临床结果,并且是独立预测HNSC患者生存率的有效预后生物标志物。

猜你喜欢

高风险生存率关键
硝酸甘油,用对是关键
上海市高风险移动放射源在线监控系统设计及应用
高考考好是关键
高风险富水隧道施工技术经济分析
“五年生存率”不等于只能活五年
影响胃癌术后5 年生存率的因素分析
人工智能助力卵巢癌生存率预测
日本首次公布本国居民癌症三年生存率
高风险测试对英语学习的反拨效应研究
蒋百里:“关键是中国人自己要努力”