APP下载

基于生物信息学分析构建卵巢癌预后风险预测模型

2021-10-25熊廷川朱长军

关键词:生存期癌症因子

熊廷川,张 园,朱长军

(1.新疆医科大学第三临床医学院(附属肿瘤医院)妇外三科,乌鲁木齐830011;2.新疆医科大学第三临床医学院(附属肿瘤医院)肿瘤防治研究所,乌鲁木齐830011;3.天津师范大学天津市动植物抗性重点实验室,天津300387)

卵巢癌(ovarian cancer,OC)是妇科恶性肿瘤患者的主要死亡原因之一,可能影响所有年龄段的女性[1].根据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症相关数据,2020年,全球女性卵巢癌新发病例31万,死亡病例21万,发病率和死亡率均位居女性常见癌症第8位[2].虽然近几年OC在诊断水平和治疗技术方面均取得了不断进步,但由于OC早期通常无症状,大多数患者被诊断时已属于晚期,其5年生存率低于45%[1,3-4].OC具有异质性,不同患者在接受化学免疫疗法或手术疗法后,预后和生存时间可能存在较大差异[5-6].因此,基于个体的遗传组成来准确预测疾病风险对于OC患者有效预防和个性化治疗至关重要.Cox比例风险模型是常用的对于肿瘤和其他慢性病进行预后分析的风险模型,该模型可用于分析患者的总生存期及影响生存结果的危险因素[7],已被广泛应用于多种肿瘤的预后分析,可为临床根据患者身体特征制定个体化治疗方案提供指导[8-9].

本研究基于6个OC基因芯片,对OC样本与正常样本的差异表达基因(differentially expressed genes,DEGs)进行筛选,通过单因素Cox回归分析和LASSO分析构建OC风险模型,并验证该模型的预测价值和准确性.以期通过该风险模型对OC患者的生存和预后进行预测,有针对性地为患者制定个体化治疗方案,也可为OC患者的早期筛查提供依据,从而提高患者的生命质量.

1 材料与方法

1.1 主要材料与试剂

人正常卵巢细胞IOSE-80与人OC细胞A2780、CAOV3,美国ATCC细胞库;人OC细胞OVCAR-3和SK-OV-3,中国科学院细胞库.

RNA提取试剂盒、逆转录试剂盒及SYBR green qRT-PCR试剂盒,日本Takara公司;RPMI 1640培养基及胎牛血清(FBS),美国Thermo Fisher Scientific公司.

1.2 实验方法

1.2.1 细胞培养

所有细胞均采用含有100 U/mL青霉素、100μg/mL链霉素和10%FBS的RPMI-1640培养基,于37℃、5%CO2环境下培养.

1.2.2 RNA提取及qRT-PCR分析

采用RNA提取试剂盒提取对数生长期细胞的总RNA,通过逆转录试剂盒将其反转录成cDNA.然后按SYBR green qRT-PCR试剂盒说明书检测关键风险因子的mRNA水平.采用2-ΔΔct法计算目的基因的相对表达量.

1.2.3 芯片数据选择与分析

从GEO数据库中下载6个OC相关基因芯片数据集:GSE69428、GSE10971、GSE54388、GSE14407、GSE4122、GSE12470.分别从GPL570平台获取GSE69428、GSE10971、GSE54388、GSE14407注 释 信息,GPL201平台获取GSE4122注释信息,GPL887平台获取GSE12470注释信息.利用R语言包以及limma工具包对6个芯片数据集中的共同差异基因进行分析,|logFC|>1,P<0.05.

1.2.4 DEGs的GO和KEGG分析

通过Metascape在线分析工具(http://metascape.org)对筛选得到的99个DEGs进行GO(gene ontology)功能分析和KEGG(kyoto encyclopedia of genes and genomes)通路富集分析,设置P<0.05.

1.2.5 单因素和多因素Cox分析

通过单因素及多因素Cox回归分析筛选DEGs中与OC患者生存相关的风险因子,进一步采用LASSO算法基于风险因子构建与OC患者生存相关的风险模型(risk score,RS),计算公式如下:

式中:Exp为Cox回归模型中筛选出的风险因子在样本中的表达量;β为Cox模型中所选择的各个风险因子Cox回归分析的系数.以RS的中位值为分界值,将数据集中的OC患者分为高风险和低风险组.采用survival工具包绘制Kaplan-Meier(KM)生存曲线,对高、低风险组中OC患者的总生存率进行评价.P<0.05视为差异具有统计学意义.

1.2.6 OC风险模型预测能力分析

运用R软件中的survival ROC工具包绘制时间依赖的受试者工作曲线(receiver operating characteristic curve,ROC),并依据ROC曲线下的面积(area under the ROC curve,AUC)评价该Cox风险评估模型对OC患者3-、5-、8-、9-、10 a的总体生存期的预测能力.采用单因素、多因素Cox回归分析该模型风险得分在OC患者总体生存期、癌症状态、预后结局预测及临床早筛中的作用.P<0.05视为差异具有统计学意义.

1.2.7 TCGA数据库数据收集

以TCGA数据集中提供的OC患者相关资料为基础,分析OC风险模型预测能力.TCGA_OV数据集中包含378个OC临床参数和生存资料的病例,以RS的中位值为分界值,高风险组和低风险组分别包含189例样本.

2 结果与分析

2.1 OC芯片DEGs筛选

从GEO数据库中选择了6个OC相关基因芯片:GSE69428、GSE10971、GSE54388、GSE14407、GSE4122、GSE12470,各芯片数据包含的样本量如表1所示.最终在6个芯片中获得了99个共失调的DEGs,其中包含24个下调基因和75个上调基因.

表1 芯片信息Tab.1 Chip information

2.2 DEGs的GO功能富集和KEGG通路分析

使用Metascape在线分析,对99个DEGs进行GO功能富集和KEGG通路富集分析,结果如图1所示.DEGs主要与细胞周期过程的调节、生长调控、代谢调控、细胞成分组织的负调控、表皮细胞分化、免疫系统细胞因子信号转导、胞质分裂等生物活动显著相关.DEGs主要富集在细胞周期、药物代谢、癌症中的转录失调、癌症相关通路以及p53、HIF-1等信号通路.

图1 DEGs的GO功能富集分析与KEGG通路富集分析Fig.1 Analyses of GO function enrichment and KEGG pathway enrichment of DEGs

2.3 OC患者预后风险模型构建

基于前期OC基因芯片分析结果,对筛选出的DEGs进行单因素Cox回归分析,结果发现DEGs中有9个因子与TCGA-OV中OC患者的总体生存期显著相关(P<0.05),如表2所示.进一步通过LASSO算法对这9个DEGs进行分析,最终获得了由5个DEGs组成的风险模型,如图2所示.

表2 单因素Cox回归分析Tab.2 Univariate Cox analysis

模型中5个风险因子为EPS8、ARL4C、HMGB3、JUP和USP18,EPS8在6个OC相关芯片中均下调表达,其余4个因子在OC相关芯片中上调表达,如表3和图3所示.

图3 风险因子在不同数据集中的表达水平分析Fig.3 Expression of risk factors in different datasets

表3 风险因子信息Tab.3 Information of risk factors

图2基于LASSO方法构建OC风险模型Fig.2 Construction of OC risk model based on LASSO method

2.4 Kaplan-Meier生存曲线和ROC曲线的绘制

基于风险得分中位值,将每组数据集中的OC患者分为高风险组和低风险组,利用R语言绘制Kaplan-Meier(KM)生存曲线,分析OC患者总生存期、风险评分的分布及患者的生存现状.分析结果显示,TCGAOV中低风险组患者预后显著优于高风险组(P<0.05),而在GEO独立数据集GSE26712、GSE23554中也得到了相同的结果,如图4所示.进一步通过ROC分析,发现该模型风险得分对于卵巢癌患者3-、5-、8-、9-、10 a的总体生存期具有相当高的预测能力,如图5所示.提示该模型可用于OC患者的预后情况预测,可能具有重要的临床价值.

图4 KM生存曲线分析不同数据集中OC患者总生存期、风险评分分布与患者的生存现状Fig.4 KM survival curve analysis for overall survival of OC patients in different datasets and the analysis of the distribution of risk scores and the survival status of OC patients

图5 ROC曲线评价OC风险模型对不同数据集中患者生存期的预测能力Fig.5 ROC curve to evaluate the predictive ability of the OC risk model for patient survival in different datasets

2.5 Cox回归模型预测价值验证

进一步通过单因素、多因素Cox回归分析该风险模型预测价值,结果显示,风险得分与OC患者的总体生存期显著相关,如表4和图6所示.风险得分与TCGA-OV中OC患者的癌症状态、预后结局显著相关,即有癌症进展或者死亡的患者风险得分均显著较高,如图7所示,说明该风险模型可用于临床预测OC患者的生存和预后情况.此外,该模型风险得分还可以很好地区分OC与正常样本,如图8所示,这揭示了该模型可能对于OC临床早期筛查有一定的辅助作用.

图6 风险模型对OC患者总体生存期的预测能力Fig.6 Predictive ability of the risk model for the overall survival of OC patients

图7 风险模型对OC患者癌症状态、预后结局的预测能力Fig.7 Predictive ability of the risk model for the cancer status and prognostic outcome of OC patients

图8 风险模型区分不同数据集中OC与正常样本Fig.8 Risk model can be used to distinguish OC from normal samples in different data sets

表4 单因素和多因素Cox回归分析Tab.4 Univariate and multivariate Cox analyses

2.6 关键风险因子表达验证

进一步采用qRT-PCR检测组成风险模型的5个关键基因在人正常卵巢细胞IOSE-80和人OC细胞A2780、CAOV3、OVCAR-3和SK-OV-3中的表达水平,结果如图9所示.与人正常卵巢细胞相比,风险因子EPS8在4种人OC细胞中均显著下调表达(P<0.05),HMGB3、JUP、USP18和ARL4C在4种人OC细胞中均显著高表达(P<0.05).

图9 qRT-PCR验证关键风险因子在不同OC细胞中的表达水平Fig.9 Expression levels of key risk factors in different OC cells verified by qRT-PCR

3 讨论与结论

OC是致命的妇科癌症之一,尽管近几年生物标志物发展迅速,但由于发病隐匿,目前尚无有效的OC早期检查策略和治疗方法,导致患者复发率高,生存率较低[10].据报道,早期发现可以使OC患者死亡率降低10%到30%[4].随着基因检测技术和生物信息学的不断发展,恶性肿瘤预测风险模型的引入,有可能为OC的早期诊断、临床治疗和预后风险评估提供新的切入点和思路.Cox比例风险模型在医学领域的应用越来越广泛,基于此模型筛选慢性疾病或多种癌症相关风险因素,预测患者治疗效果及生存情况,有助于关注高风险患者群体,为精准医疗模式下个体化临床治疗方案的制定提供依据.如He等[11]通过多元Cox比例风险模型证实SNP rs3803662(TOX3/TNRC9)是河南汉族人群乳腺癌的独立预后因素;Arends等[12]构建的下咽癌生存期临床预测模型,可显著识别临床风险群体,从而提高生存期的个体化评估.

本研究对6个OC基因芯片中OC样本与正常样本的DEGs进行筛选,最终筛选到99个在6个芯片中共失调的DEGs.GO和KEGG分析结果显示,这些基因主要与细胞周期过程调控、细胞成分组织的负调控、免疫系统细胞因子信号转导、p53、HIF-1信号通路等显著相关.这些结果与现有报道一致,如趋化因子IFNγ途径基因在OC患者中缺失,并且与免疫评分低和不良预后显著相关[13];靶向HIF-1信号通路调控的肿瘤代谢能够克服OC细胞对顺铂的耐药性等[14].本研究进一步对筛选出的DEGs进行单因素、多因素Cox回归分析及LASSO算法,构建了由EPS8、ARL4C、HMGB3、JUP和USP18组成的OC风险评估模型.生存分析结果显示,高风险组患者和低风险组患者的总生存期和生存结局存在显著差异.该模型对OC患者3-、5-、8-、9-、10 a的总体生存期预测能力较高,可用于临床预测OC患者的预后情况.风险得分可显著区分OC患者和正常样本,提示该风险模型有助于提高OC早期筛查能力.

风险模型中的5个DEGs中,EPS8即表皮生长因子受体通路底物8(epidermal growth factor receptor pathway substrate 8)是一种新型的表皮生长因子受体(EGFR)激酶底物,参与了EGFR介导的与多种癌症发生、增殖和转移相关的信号通路[15].在OC中,EPS8能够与ABI1和SOS1蛋白形成复合体,参与OC细胞侵袭和转移[16-17].ADP-核糖基化样因子4C(ADP-ribosylation factor-like 4C,ARL4C)是ADP-核糖基化因子(ADP-ribosylation factor,Arf)家族成员之一,ARL4C在成人组织中几乎不表达,但在原发性肝细胞癌和结直肠癌[18]、胶质母细胞瘤[19]、胃癌[20]等中高表达.研究显示,ARL4C在子宫内膜异位症相关卵巢癌患者中上调表达,并与患者5 a生存期较差显著相关[21],有望成为卵巢癌预后的潜在预测指标.HMGB3即高迁移率族蛋白3(high mobility group-box 3),属于高迁移率族蛋白家族(HMGB),在DNA修复、重组、转录和复制中起关键作用,可通过调节细胞周期参与乳腺癌[22]、非小细胞肺癌[23]等多种肿瘤进展.Mukherjee等[24]发现HMGB3在OC中上调表达,并且可以提高OC化疗耐药细胞对顺铂的敏感性,提示靶向HMGB3可能是克服OC化疗耐药的潜在治疗策略.JUP为连接桥粒斑珠蛋白(junction plakoglobin),在上皮性卵巢癌患者静脉血中高表达,并与肿瘤恶性进展相关[25].USP18为泛素特异性蛋白酶18(ubiquitin specific protease 18),是去泛素化酶亚家族成员之一,USP18不仅与增殖、分化、发育等生理过程相关,在包括传染病、神经系统疾病和癌症在内的多种疾病的发病机制中也有重要作用[26],然而,它在OC中的作用仍有待探究.进一步采用qRTPCR验证5个风险因子在人正常卵巢细胞和4种人OC细胞中的表达,结果显示EPS8在4种人OC细胞中均显著下调表达,HMGB3、JUP、USP18和ARL4C则在4种人OC细胞中均显著高表达,与前期预测结果一致.

综上,本研究通过对OC芯片中DEGs进行筛选,构建了由5个风险因子组成的OC风险预测模型,该模型可能用于筛选高风险患者群体,也可用于预测OC患者的生存和预后情况,因此,具有一定的临床应用潜力.但该模型是否能够作为预测OC患者预后和指导临床实践的有用工具,还需进一步验证.

猜你喜欢

生存期癌症因子
我刊2021年影响因子年报
BCAA代谢异常与癌症的相关性研究进展
FBP1在癌症中的研究进展
体检发现的结节,离癌症有多远?
一些关于无穷多个素因子的问题
影响因子
癌症“偏爱”那些人?
感染性心内膜炎手术治疗的疗效观察
肝癌TACE术后生存期小于1年及大于3年的相关影响因素分析
扮靓爱车拒绝潜伏危险因子