APP下载

基于TCGA数据库构建肝癌Ten-miRNAs风险评估模型及预后分析

2021-01-07陈俊光

生物化工 2020年6期
关键词:标志物肝癌癌症

陈俊光

(石河子大学 生命科学学院,新疆石河子 832003)

肝癌(Liver hepatocellular carcinoma,LIHC)是指发生于肝脏的原发性或者继发性肿瘤。其中,起始于肝脏的癌症称为原发性肝癌,由起始位置不同分为4个类型:肝细胞癌、胆管细胞型肝癌、肝母细胞癌和血管内皮瘤;由血液、淋巴系统转移或者临近肿瘤浸润至肝脏产生的癌症称为继发性肝癌,其患者数量是前者的三十余倍[1-2]。长期慢性炎症、肝硬化和酗酒是导致原发性肝癌的主要因素,此外,代谢症候群和血色沉着病患者等遗传性因素也是肝癌的诱因[3-4]。肝癌患者存在明显的地域分布差异,亚太地区患者数量远高于欧美地区,发病率和肝炎患者数量呈正相关[5-6]。肝癌还存在性别分布差异,男性患者数量高出女性40%,且男性患者死亡率有持续走高趋势,而女性患者死亡率趋势平缓[7]。肝癌是第三大癌症致死类型,患者占所有癌症患者的2.37%,多发现于晚期,死亡率一直居高不下,临床治疗多以侵入式治疗为主。

MicroRNAs(miRNAs),又名小分子核糖核酸,是序列长度21~23 nt的非编码小分子RNA,经DNA转录后并未进一步翻译成蛋白质,而是和mRNA的3'UTR部分或者完全互补配对结合,从而调控基因表达在细胞凋亡、分化和增殖上发挥着重要作用[8-9]。miRNAs在体内发挥着类似抑癌基因和原癌基因的功能,但在肿瘤中常处于失调状态,因此miRNAs的异常水平表达和癌症的发展以及预后密切相关[10-11]。miRNAs不仅可以作为精确预测、诊断和追踪癌症预后的生物标志物,而且在肿瘤的靶向药物开发和化疗方案选取上具有重要的参考价值。

本研究从TCGA(The Cancer Genome Atlas,TCGA)数据库的肝癌样本筛选出10个miRNA作为一个组合,利用风险评分(Risk score,RS)对患者进行生存分析,证实ten-miRNAs组合具有高灵敏度和高特异性,可以作为肝癌预后分析的生物标记物。

1 材料与方法

1.1 肝癌测序和临床数据下载与整理

在R(V-4.0.0)环境下,使用RTCGA在TCGA数据库下载LIHC全部亚型的临床数据和miRNAs数据集。除LIHC外,TGCA还提供另外32种癌症的临床数据、RNA测序数据、DNA甲基化数据、DNA拷贝数变异数据和miRNAs测序数据等。所有数据来自374例肝癌组织和50例癌旁组织,共有1 046个miRNAs表达数据。使用EdgeR和Stringr包,筛选临床数据,过滤掉至少在3个样本中CPM(count-permillion)≤1的miRNAs,使用TMM法对数据进行归一处理,并设定阈值(FDR<0.05,fold change>2)。使用Gplots对筛选差异表达的miRNAs(Different Expression miRNAs,DEMs)进行热图绘制。

1.2 Cox单因素和多因素回归分析

在R环境下,使用Survival包中Cox比例风险回归模型(Cox's proportional hazards regression model)进行单因素回归分析,得到偏回归系数β、风险比(Hazard Ratio,HR)、P值等。

使用Survival包的Step函数,将单因素回归分析结果中影响患者生存的全部变量(P<0.05)作为Cox多因素回归分析的单线变量进行Cox多因素回归分析,采用双向逐步递归法和wald卡方检验。

β>0,HR>1,说明该变量水平增加时,危险率增加,该变量是危险因素;β<0,HR<1,说明该变量水平增加时,危险率下降,该变量是保护因素;β=0,HR=1,说明该变量水平增加时,危险率不变,该变量是危险无关因素。P<0.05的因素视为预后的独立影响因素。

1.3 预后相关miRNAs风险评分

在R环境下,使用Survival包的Predict函数,根据公式(1)计算每一位患者的风险评分(Survival Risk Score,SRS)。以风险评分的中位数为临界值,小于等于中位数的患者为低风险组,高于中位数的患者为高风险组。

1.4 统计分析

使用R语言对数据进行统计学分析,数据表示为平均值±标准偏差(SD),统计学比较采用配对样品t检验法,P<0.05被认为具有统计显著性差异。

2 结果与分析

2.1 肝癌组织和癌旁组织的miRNAs差异表达分析

通过对TCGA数据库的50个癌旁组织(对照组)和374个肝癌组织的miRNAs测序数据的分析,筛选肝癌中差异表达的miRNAs共247个,其中228个上调,19个下调。图1为424个样本差异表达基因双向分层聚类的热图,>0表示基因表达上调,<0表示基因表达下调。

2.2 筛选肝癌患者差异表达和患者总生存相关的miRNAs

单因素Cox回归分析结果显示,247个DEMis中有23个miRNAs和患者的总体生存期(Overall survival,OS)显著相关(P<0.05)(表1)。

2.3 建立与肝癌患者总生存相关的ten-miRNAs标记

图1 基因差异表达双向分层聚类分析

表1 单因素Cox回归分析结果

选择逐步多元Cox回归分析结果中前23个miRNAs中的10个建立预测模型。预测模型被定义为多因素Cox回归分析中由相对系数加权的tenmiRNAs表达水平的线性组合,用方程表达如公式(2)所示。

风险分层和ROC曲线表明,ten-miRNAs标志物组合在预测肝癌患者总生存期方面表现出良好的准确性。如图2所示,将研究中随访数据完整的340名患者进行生存风险评分,并根据中位数进行风险评分把患者分为高风险组(n=170)和低风险组(n=170)。如图3所示,基于ten-miRNA的两组Tekaplan-Meier总生存曲线显著不同(log-rankP=0<0.001),高风险患者生存时间显著降低,预后较差。如图4所示,计算接收者操作特征曲线(Receiver operating characteristic curve,ROC)下部面积(Area under the Curve of ROC,AUC for ROC)对ten-miRNA特征的预后能力,评估结果显示AUC=0.785,表明ten-miRNA特征模型在预测肝癌患者存活风险方面具有良好的准确度。

图2 Ten-miRNAs组合热图

图3 使用ten-miRNAs标志物用于肝癌患者的总生存期Kaplan-Meier生存曲线

图4 Ten-miRNAs标志物的ROC曲线分析

通过对TCGA数据库中肝癌的临床数据和miRNAs数据集进行数据挖掘,确定了一个tenmiRNA 组 合:hsa-mir-9-2、hsa-mir-506、hsamir-139、hsa-mir-3911、hsa-mir-548f-1、hsamir-326、hsa-mir-92a-1、hsa-mir-3171、hsamir-3614、hsa-mir-621。AUC评估显示ROC曲线有着良好的特异性和敏感度,可以作为评估肝癌患者预后的生物标志物。

miR-9由 Hsa-mir-9-1、Hsa-mir-9-2、Hsamir-9-3编码,最初被认为是促进神经元增生的神经发育调控因子,后在各种恶性肿瘤中被观察到异常表达,干扰正常细胞途径促使癌变,并且显示出功能多样性[12-13]。hsa-mir-548f-1所属的hsa-mir-548家族是转座子衍生物,是癌症的全局调控基因。上调会对控制细胞正常增殖的基因产生抑制,使细胞周期脱离正常调控,同时下调免疫细胞受体基因、转录因子和肿瘤坏死因子的编码基因[14]。hsa-mir-506、hsa-mir-139、hsa-mir-326、hsa-mir-92a-1、hsamir-621分别在乳腺癌、结肠癌、神经胶质瘤等癌症患者体内发挥着抑癌基因的作用,下调FGF1、NOB1等原癌基因,抑制相关肿瘤细胞的黏附、增殖、浸润和转移,将细胞周期阻滞在G1期(DNA合成前的时期),促使细胞凋亡,并增加癌变细胞对紫杉醇和卡铂(PTX/CBP)等化疗的敏感性[15-20]。其中,hsamir-139已被认为是多种癌症的肿瘤抑制因子以及癌症早期诊断和预后的生物标志物,hsa-mir-92a-1是miR-17~92致癌基因群成员,在转录后发挥调控作用[21-23]。hsa-mir-3911、hsa-mir-3171、hsa-mir-3614还未有和癌症基因间相互作用的报道。其中,hsamir-3911仅在心脏损伤早期预测中被鉴定为异常表达,且仅存在于外排体中;hsa-mir-3171被确定为乳腺癌预后标记物,但作用机制尚未阐明;hsamir-3614为病毒的防御基因,抑制病毒的感染性并抑制病毒复制[24-27]。

3 结语

本研究构建的ten-miRNAs组合在作为肝癌预后预测模型上表现出良好的准确性,可以作为预测肝癌患者预后的生物标志物,hsa-mir-3911、hsamir-3171、hsa-mir-3614各自的具体功能和实际临床价值还需要在细胞水平上进一步验证。

猜你喜欢

标志物肝癌癌症
体检发现的结节,离癌症有多远?
LCMT1在肝癌中的表达和预后的意义
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症
脓毒症早期诊断标志物的回顾及研究进展
microRNA在肝癌发生发展及诊治中的作用
冠状动脉疾病的生物学标志物
Rab27A和Rab27B在4种不同人肝癌细胞株中的表达
microRNA在肝癌诊断、治疗和预后中的作用研究进展