APP下载

基于TCGA 和Oncomine 数据库子宫内膜癌生物信息学分析

2022-03-16段红桃

中国医药导报 2022年6期
关键词:信息学内膜数据库

段红桃 潘 勇

中南大学湘雅医学院附属株洲医院超声科,湖南株洲 412007

子宫内膜癌是女性生殖系统发病率最高的恶性肿瘤之一,占女性生殖系统肿瘤的20%~30%,其发病率逐年升高,在我国位居女性生殖系统肿瘤的第二位[1-2]。目前对于子宫内膜癌的病因尚不清楚,其主要治疗手段是外科手术切除[3-4],尽管在子宫内膜癌早期检测方面取得进展,但是,仍有很多子宫内膜癌患者晚期才被确诊,失去手术机会,导致预后不良。因此对于子宫内膜癌生物标志物的研究一直是研究热点,前期也有一些学者研究发现一些分子和基因是子宫内膜癌预后的影响因素,但在临床应用中存在特异性差,缺乏敏感性等缺点[5-6]。所以,寻求子宫内膜癌诊断及预后的有效生物标志物具有十分重要的临床意义。

随着计算机科学和分子生物学的飞速发展,近些年发展成了一门新的学科——生物信息学,并且已广泛应用于肿瘤的基因学研究,揭示了大量肿瘤发生发展的生物学机制。目前全球最大的肿瘤基因芯片数据库为TCGA 和Oncomine 数据库,收藏了全球大量的样本和丰富临床数据。本研究通过下载TCGA 和Oncomine数据库中子宫内膜癌相关基因芯片和临床数据进行系统的生物信息学分析,获取子宫内膜癌差异表达基因,进一步通过生物信息学技术获取其关键基因。有望挖掘子宫内膜癌诊断及治疗的潜在生物标志物。

1 材料与方法

1.1 材料

子宫内膜癌转录组数据从TCGA 数据库(https://cancergenome.nih.gov/)中下载,数据检索时间:建库至2020 年12 月30 日,其中包括35 个癌旁正常组织样本和552 个子宫内膜癌组织样本。

1.2 研究方法

1.2.1 获取差异基因 使用R 软件中的“limma”包识别子宫内膜癌和正常样本之间的差异表达基因,以|log FC|>2.0 且FDR<0.05 为条件获取显著差异的差异表达基因。差异表达基因的热图和火山图分别由R 软件中的“heatmap”包和“ggplot2”包生成。

1.2.2 差异表达基因的功能富集分析 使用DAVID 数据库(http://david.ncifcrf.gov)对差异表达基因进行功能富集分析,包括:分子功能(molecular function,MF)、细胞成分(cell composition,CC)、生物学过程(biological process,BP)和KEGG 通路,以P <0.05 进行筛选。

1.2.3 差异表达基因的蛋白质-蛋白质(proteinprotein interactions,PPI)网络分析 使用在线生物信息数据库STRING 构建差异表达基因之间PPI 的相互作用网络[7]。应用Cytoscape 软件(version 3.6)重建PPI 网络中的数据,并获取的前10 位Hub基因。

1.2.4 Oncomine 数据库提取子宫内膜癌中Hub 基因表达数据进行meta 分析 使用Oncomine 数据库对子宫内膜癌的Hub 基因进行meta 分析,分析条件:①基因:Hub 基因名称;②分析类型:Cancer vs.Normal Analysis;③癌症类型:子宫内膜癌;④Threshold by:Fold Change>2,p-value<0.0001,GeneRank=top 10%。以P <0.05 为差异有统计学意义。

2 结果

2.1 子宫内膜癌差异表达基因筛选

从TCGA 数据库下载子宫内膜癌转录组数据,采用R 软件对转录组数据进行整理,最终得到587 个表达谱样本和18 628 个基因。采用“limma”进行差异表达分析,以|logFC|>2.0 和FDR<0.05 共筛选出1897 个子宫内膜癌差异表达基因,其中包括上调基因1085 个,下调基因812 个。并绘制火山图(图1)和前50 个基因的热图(图2)。

图1 子宫内膜癌及癌旁正常组织火山图

图2 子宫内膜癌及癌旁正常组织差异表达最显著的前50 个基因热图

2.2 差异表达基因的功能富集分析结果

差异表达基因功能富集分析结果显示,其中在GO 富集分析中的BP 中富集于神经肽信号通路和细胞间信号传导,在CC 中富集于细胞外间隙和细胞外基质,在MF 中富集于转录激活因子活性、结构分子活性和钙离子结合,在KEGG 通路中富集于神经活性配体-受体相互作用和钙信号通路。见表1~2、图3。

图3 CO 富集和KEGG 通路富集可视化

表1 子宫内膜癌差异表达基因GO 富集分析结果

表2 子宫内膜癌差异表达基因KEGG 通路富集分析结果

2.3 差异表达基因的PPI 网络分析结果

使用在线生物信息学库构建PPI 网络,进一步采用Cytoscape 软件筛选Hub 基因。其中前10 位Hub基因分别是CDC20、CCNB1、BUB1、CCNB2、DLGAP5、TPX2、NCAPG、NCAPH、CENPF 和CDCA8。见图4。

图4 子宫内膜癌前10 位Hub 基因

2.4 Oncomine 数据库中子宫内膜癌Hub 基因meta分析结果

在Oncomine 数据库中提取子宫内膜癌hub 基因相关数据进行meta 分析。以P <0.05 获得5 个关键基因分别为BUB1、TPX2、NCAPH、CENPF 和CDCA8。见图5。

图5 5 个Hub 基因在子宫内膜癌中的表达

3 讨论

子宫内膜癌是女性生殖系统常见的恶性肿瘤之一,占女性生殖系统肿瘤的20%~30%,约占女性全身恶性肿瘤的7%,并且近年来,子宫内膜癌的发病率逐年升高[2]。目前子宫内膜癌发生发展机制尚未十分清楚,并且其症状呈现非特异性,主要治疗方式是手术切除,但术后复发率较高[8-9]。因而,寻找子宫内膜癌早期诊断及预后的生物标志物对于临床治疗具有重要的指导意义。

2006 年美国联合发起癌症基因组测序项目,通过基因测序技术构建起多维的癌症基因组图谱,极大地提高了研究水平,以及对肿瘤发生、诊断和治疗的认识[10]。生物信息学作为一门新兴学科,可以对大量基因同时进行分析研究,克服了传统实验只能同时对少数几个基因研究的缺陷,采用生物信息学技术对TCGA 数据库的挖掘,揭开大量生物信息所蕴含的奥秘[9,11-12]。

本研究使用生物信息学技术对子宫内膜癌转录组数据进行分析,共挖掘差异表达基因1897 个,包括上调基因1085 个,下调基因812 个。进一步对差异表达基因进行功能富集分析,并通过STRING 数据库对差异表达基因构建PPI 网络,并筛选前10 位Hub基因为CDC20、CCNB1、BUB1、CCNB2、DLGAP5、TPX2、NCAPG、NCAPH、CENPF 和CDCA8。进一步在Oncomine 数据库挖掘并进行meta 分析,发现子宫内膜癌发生发展的5 关键基因为BUB1、TPX2、NCAPH、CENPF 和CDCA8。进一步深入进行文献挖掘,发现这些基因在肿瘤中均有研究。

BUB1 是纺锤体关卡的重要组成部分,在细胞有丝分裂中发挥重要作用,调整有丝分裂的有序进行[13]。BUB1 表达缺失或异常可导致有丝分裂过程中染色体分配发生错误,造成染色体不稳定性[14]。在子宫内膜癌中研究证实BUB1 呈现低表达,在子宫内膜癌的发生发展中发挥重要作用,可作为子宫内膜癌生存预后的标志物[15]。TPX2 蛋白为纺锤体成分的一种微管相关蛋白,同时也是一种细胞周期调控蛋白,对细胞周期中纺锤体形成起着重要的调控作用[16-17]。并且有研究结果证实在子宫内膜癌TPX2 中出现异常高表达,同时研究发现TPX2 促进子宫内膜癌的发生发展[18],国外文献也研究证实miR-29a-5p 通过靶向TPX2 抑制子宫内膜癌的增殖和侵袭并诱导其凋亡[19]。NCAPH为非染色体结构维持蛋白凝缩蛋白复合体Ⅰ亚单位H,研究显示NCAPH 在宫颈癌中出现高表达,可显著促进宫颈癌细胞的增殖和侵袭[20-21]。CENPF 是调控着丝粒运动的基因,CENPF 的表达随着细胞周期的变化而改变,在细胞有丝分裂和细胞周期的调控中发挥着作用,同时基因芯片数据的生物信息学分析也证实CENPF 与子宫内膜癌生存预后显著相关[22]。CDCA8在细胞周期中发挥着十分重要的调控作用。同样研究也证实CDCA8 与子宫内膜癌预后密切相关[23-25]。本研究也通过Oncomine 数据库中进行meta 分析显示BUB1、TPX2、NCAPH、CENPF 和CDCA8 这5 个基因在子宫内膜癌中出现显著的差异表达。但目前其在子宫内膜癌中机制尚未阐明,我们相信在子宫内膜癌中对这5 个关键基因进行进一步研究,将会有更多发现。

本研究致力于发现影响子宫内膜癌发生发展的关键基因。共挖掘子宫内膜癌差异表达基因1897 个,进一步分析发现5 个关键基因在子宫内膜癌出现差异表达,可能参与调控子宫内膜癌的发生发展。然而,其具体的生物学功能仍需要进一步研究来阐明。

猜你喜欢

信息学内膜数据库
鸡NRF1基因启动子区生物信息学分析
初论博物馆信息学的形成
数据库
数据库
数据库
数据库
子宫内膜癌组织URG4表达及其临床意义
miRNA-148a在膀胱癌组织中的表达及生物信息学分析
猪子宫内膜炎的防治
2014年信息学与计算国际会议