APP下载

基于关键致病基因筛选的肝癌临床预后及中药靶向治疗的生物信息学研究

2022-09-13吴嫚婷仇婧玥曾梅艳宋厚盼

天然产物研究与开发 2022年8期
关键词:关键肝癌显著性

吴 佳,吴嫚婷,龙 荣,仇婧玥,喻 昶,熊 萌,曾梅艳,宋厚盼*

1湖南中医药大学中医诊断学湖南省重点实验室;2湖南中医药大学医学院;3湖南中医药大学中医学院,长沙 410208

原发性肝癌是全球癌症致死的第三大原因[1],肝细胞癌(hepatocellular carcinoma,HCC)是原发性肝癌最主要的类型,其危险因素主要有乙型肝炎病毒(HBV)/丙型肝炎病毒(HCV)感染、长期过度饮酒、食用过多黄曲霉菌污染的食品、多种原因导致的肝硬化及肝细胞癌家族史[2]。肝细胞癌的早期诊断常借助于生物标志物,在临床上被广泛运用的生物标志物主要来源于血清、血浆、组织的microRNA、突变的基因、蛋白等[3]。很多确诊为肝癌的患者通常处于晚期不可切除阶段,采用姑息治疗后,中位生存期仅为6~12个月,5年存活率仅为10%[4]。因此,筛选肝癌关键致病基因对肝癌患者进行早期诊断及分析肝癌预后情况具有重要的临床意义。

高通量测序技术的迅速发展改变了生物医学的研究模式[5]。基因测序为肿瘤发病机制等肿瘤生物学问题提供了全新的认识,并且对肿瘤的诊断、预后和治疗的选择具有重要的参考价值[6]。生物信息学算法对于处理高通量组学数据至关重要[7]。本研究以高通量基因芯片数据挖掘为切入点,引入生物信息学算法知识,从GEO数据库获取肝癌相关数据集,分析肝癌组织与正常肝组织的差异表达基因。进一步从差异表达基因中筛选出肝癌关键致病基因,探讨关键基因的生物学功能及其涉及的信号通路、突变情况、免疫浸润和对临床预后的影响,并进一步筛选潜在的治疗肝癌的中药,旨在为肝癌的临床诊断、治疗及预后判断提供理论参考和科学依据。

1 材料与方法

1.1 数据获取与处理

使用美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)基因表达数据库(gene expression omnibus database,GEO)(https://www.ncbi.nlm.nih.gov/gds/),检索HCC相关数据集,下载得到GSE19665 mRNA表达芯片数据[8]。该数据集共有样本20例,其中正常样本10例,分别为GSM490987、GSM490989、GSM490991、GSM490993、GSM490995、GSM490997、GSM490999、GSM491001、GSM491003、GSM491005;肝癌样本10例,分别为GSM490988、GSM490990、GSM490992、GSM490994、GSM490996、GSM490998、GSM491000、GSM491002、GSM491004、GSM491006。20例样本均由GPL570平台检测提交,运用R软件中的affy程序包对下载的数据进行背景矫正、均一化处理。

1.2 肝癌与正常组织差异表达基因筛选

使用在线分析工具GEO 2R设置分组,即正常样本组和肝癌样本组,对基因表达谱芯片GSE19665进行分析,保存分析结果。导出数据至Excel中进行两次筛选,初次筛选条件为-log10P>1.4,|log2FC|≥1,绘制火山图;再次筛选条件为P<0.01,|log2FC|≥2,绘制层次聚类热图,得到肝癌和正常组织显著性DEGs。

1.3 肝癌与正常组织DEGs GO富集分析和GSEA分析

使用富集分析工具Metascape(https://metascape.org/),选择物种为“homo sapiens”,对筛选得到的显著性差异表达的mRNA进行基因本体论(gene ontology,GO)功能富集分析;使用OmicShare平台GSEA动态工具对差异表达基因进行KEGG通路富集分析,设置筛选条件为|NES|≥1,P<0.05,依次对富集分析后的数据进行可视化处理。

1.4 肝癌与正常组织显著性DEGs蛋白互作网络构建与关键基因筛选

在蛋白数据库STRING(the searcher tool for the retrieval of interacting genes)(http://String-db.org/)检索框中输入筛选得到的显著性差异表达基因,将最低要求相互作用分设置为中等置信度(0.04),构建蛋白质相互作用网络(protein-protein interaction,PPI),导出tsv格式数据文件。通过Cytoscape对导出的数据进行可视化处理,借助Cytohubba插件中的MCC、MNC、DMNC算法,分析出网络中度值(degree)排名前10位的差异表达基因,即为肝癌致病的关键基因。

1.5 肝癌致病关键基因生存分析

利用生存分析数据库Kaplan-Meier plotter(http://kmplot.com/analysis/)中肝癌相关的mRNA芯片数据,将筛选后的关键基因依次导入数据库。根据肝癌组织中关键基因表达的中位数进行分组,选择“自动选择最佳截止”(auto select best cutoff)分析关键基因表达的高低对肝癌患者总生存率(overall survival,OS)的影响,并以P<0.05为筛选条件,绘制Kaplan-Meier生存曲线。

1.6 肝癌关键致病基因表达验证

使用癌症组学数据库UALCAN(http://ualcan.path.uab.edu/)中TCGA(the cancer genome atlas)分析模块,输入关键致病基因,TCGA dataset设置为liver hepatocellular carcinoma,选择Expression表达分析模块,进一步分析关键基因在不同的(sample types)组织样本和(individual cancer stages)肿瘤分期中的表达情况。运用人类蛋白图谱数据库(Human Protein Atlas,HPA)(http://www.Proteinatlas.org),输入关键基因,分别选择Tissue(组织)和Pathology(病理),在Tissue模块中选择Liver,在Pathology模块中选择Liver cancer,根据Staining(染色强度)、Intensity(染色密度)、Quantity(定量)、Location(定位)分析关键基因的蛋白质表达情况。

1.7 肝癌关键致病基因的突变及其相关性分析

使用多维癌症基因组数据平台cBioPortal(http://www.cbioportal.org),选择癌症类型为liver hepatocellular carcinoma,数据类型为TCGA、Firehose Lagacy,输入关键基因,设置样本类型为Samples with mRNA data,采用Z-评分法,分析肝癌关键致病基因的突变与预后情况。运用R软件读取标准化后的关键基因数据,通过corrplot程序包对关键基因进行相关性分析,并将分析结果进一步可视化。

1.8 肝癌关键致病基因免疫细胞浸润分析

利用癌症免疫浸润数据库TIMER(http://cistrome.dfci.harvard.edu/TIMER)中的Gene(基因)板块,在Gene Symbol中输入关键基因,Cancer Types设置为LIHC(liver hepatocellular carcinoma)。分析肝癌组织中关键致病基因的表达与6种免疫细胞浸润程度的关系,具体包括B细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞、树突状细胞。

1.9 治疗肝癌药物的筛选方法

Coremine Medical(https://coremine.com/medical/)数据库是一个开放的生物医学数据分析平台,记录了大量生物医学术语间的关系。在Coremine Medical数据库中导入肝癌关键致病基因,下载traditional Chinese medicine模块中的数据,设置筛选条件P<0.05,筛选可用于肝癌治疗的中药。比较毒物基因学数据库(comparative toxicogenomics database,CTD)(http://ctdbase.org/)综合整理了来自各个物种的毒理学数据,具有分析化学-基因/蛋白相互作用、化学-疾病、基因-疾病的功能。在CTD中导入核心基因,筛选具有潜在治疗HCC作用的中药活性成分,通过cytoscape软件绘制潜在治疗中药-核心基因-中药活性成分相互作用的网络图。

2 结果

2.1 芯片数据处理

通过R语言affy包对GSE19665数据集进行均一化处理,并绘制小提琴图,结果如图1所示。小提琴图中的横坐标表示芯片数据中的样本编号,包括10例正常样本和10例肝癌样本,纵坐标表示芯片数据中样本的表达值。小提琴图中央白色条形的范围即下四分位点到上四分位点,中心的实点表示中位数值,可见各样本中位数基本位于同一水平(1.42左右),说明该芯片数据的样本结果可靠,可用于下一步分析。

图1 各样本标准化处理后小提琴图

2.2 肝癌致病基因筛选

利用GEO 2R在线分析工具对GSE19665数据集进行DEGs分析,共纳入54 638个基因,初次筛选后得到差异表达基因4 000个,绘制火山图如图2所示,其中与肝癌发病相关的上调基因874个,下调基因3 126个。通过比较|log2FC|值进行再次筛选,分别选取上调基因中排名前100的基因、下调基因中排名前100的基因,剔除重复值后,绘制聚类热图。图3结果显示,其中与肝癌发病相关的显著性上调基因81个,显著性下调基因80个。

图2 肝癌与正常肝组织差异表达基因分布火山图

图3 肝癌与正常肝组织显著性差异表达基因聚类热图

2.3 肝癌与正常肝组织显著性DEGs GO功能富集分析

表1结果显示,肝癌与正常肝组织显著性DEGs生物学过程(biological process,BP)主要涉及免疫反应、炎症反应、细胞粘附、细胞趋化作用、适应性免疫应答等;细胞组分(cell component,CC)主要含细胞外区域、细胞外间隙、蛋白质性细胞外基质、质膜组成部分、细胞外基质等;分子功能(molecular function,MF)主要涉及肝素结合、受体活性、丝氨酸型内肽酶活性、糖结合、血红素结合等。

表1 肝癌与正常肝组织显著性DEGs GO功能富集分析

2.4 基于GSEA的肝癌与正常肝组织显著性DEGs KEGG富集分析

图4结果显示,GSEA分析筛选出肝癌与正常肝组织显著性DEGs相关的KEGG通路92条,根据P值大小排序,最具统计学意义的信号通路主要涉及细胞因子-细胞因子受体相互作用通路、p53信号通路、细胞色素P450相关通路、mTOR信号通路、ErbB信号通路、肿瘤相关通路、JAK-STAT信号通路、MAPK信号通路、Wnt信号通路、Toll样受体信号通路等。提示这些信号通路异常表达与肝癌的发病密切相关。

图4 基于GSEA的肝癌与正常肝组织显著性DEGs KEGG富集分析

2.5 肝癌与正常肝组织显著性DEGs PPI网络构建及关键基因筛选

将肝癌与正常肝组织显著性DEGs导入STRING数据库,得到由111个蛋白节点和1 284条蛋白相互作用边所构成的网络,如图5A肝癌与正常肝组织显著性DEGs PPI网络所示。借助cytohubba插件对该网络进行筛选,选择前度值排名前10的基因,结果如图5B肝癌致病关键基因所示。10个关键基因分别为细胞分裂周期蛋白20(cell division cycle 20,CDC20)、胞周期蛋白B2(cyclin B2,CCNB2)、细胞周期蛋白B1(cyclin B1,CCNB1)、有丝分裂关卡基因(budding uninhibited by benzimidazoles 1,BUB1)、杆状病毒凋亡抑制蛋白5(baculoviral inhibitor of apoptosis repeat-containing protein 5,BIRC5)、极光激酶A(Aurora-A kinase,AURKA)、拓扑异构酶Ⅱα(topoisomerase IIα,TOP2A)、染色体非结构维持凝聚素I复合亚单位H(Non-structural maintenance of chromosomes condensin I complex subunit H,NCAPH)、Discs大同源物关联蛋白5(Discs large-associated protein 5,DLGAP5)、细胞周期蛋白激酶1(cyclin-dependent kinase 1,CDK1)。

2.6 肝癌致病关键基因对肝癌预后的影响

将关键基因分别导入在线工具Kaplan Meier-Plotter。图6结果显示,与肝癌发病密切相关的10个关键基因高表达组的肝癌患者的总生存期(overall survival,OS)均低于低表达组。CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1对应P值分别为0.000 000 51、0.001 3、0.000 034、0.000 058、0.000 000 74、0.001 1、0.000 12、0.000 28、0.000 02、0.000 011,差异均具有统计学意义。

2.7 肝癌致病关键基因表达验证

使用在线分析工具UALCAN比较10个关键基因的表达水平,结果表明,10个关键基因在肝癌组织的表达水平显著高于正常组织,差异均具有统计学意义(P<0.05),结果如图7所示。10个关键基因在1、2、3、4期肝癌组织中的表达的水平均高于正常组织,且在第3期表达水平最高,结果如图8所示。运用蛋白表达数据库HPA对10个关键基因进行分析,结果发现,肝癌组织中CDC20、CCNB1、TOP2A、NCAPH的蛋白表达量均高于正常组织,结果如图9所示,4个关键基因的蛋白染色情况见表2。

表2 核心基因在正常组织和肝癌中的蛋白染色情况

图7 正常组织和肝癌组织中关键基因的表达情况

图8 关键基因在肝癌病理分期中的表达情况

图9 肝癌致病关键基因在正常组织和肝癌组织中的免疫组化图

2.8 肝癌致病关键基因突变及预后分析

利用基因组学在线分析工具cBioPortal数据库对来源于TCGA的373例肝癌样本中CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1等10个关键致病基因进行分析。结果发现共有34.17%的样本(126例)中上述基因发生改变,其中有2.22%的样本(8例)发生突变,4.17%的样本(15例)发生多种改变,6.67%的样本(24例)发生扩增,1.39%的样本(5例)发生重度缺失,19.72%的样本(71例)mRNA表达上调,结果如图10A、10B所示。关键基因的生存分析结果显示,34.17%的样本(126例)关键基因发生改变,为基因改变组,且关键基因改变组的总生存期(overall survival)和无病生存期(disease free survival)均显著低于未改变组(P<0.05),结果如图10C~10D所示。

图10 关键致病基因在肝癌组织中的突变及其生存预后情况

2.9 肝癌致病关键基因间的相关性分析

运用R软件的corrplot包对与肝癌发病及预后密切相关的10个关键基因进行相关性分析,结果表明,关键基因之间的表达呈正相关关系,如图11所示,且表达的相关性具有统计学意义(P<0.01),统计学检验结果见表3。以上结果提示,关键致病基因相互影响,共同诱导和促进肝癌的发生、发展。

图11 肝癌致病关键基因表达相关性示意图

表3 肝癌致病关键基因间相关性的统计学分析结果

2.10 肝癌致病关键基因免疫浸润结果

运用免疫浸润数据库TIMER对10个关键基因进行分析,结果发现,CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、CDK1的表达与肝癌细胞纯度呈正相关关系,差异均具有统计学意义(P<0.05)。CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、DLGAP5、CDK1的表达与B细胞、CD8+T细胞、CD4+T细胞、巨噬细胞、中性粒细胞、树突状细胞浸润程度呈正相关关系,差异具有统计学意义(P<0.05),结果见表4。

表4 肝癌关键致病基因与免疫细胞浸润相关性的统计学分析

2.11 潜在的可用于肝癌治疗的药物筛选结果

借助Coremine Medical数据库、药物遗传学(CTD)数据库对10个关键基因进行分析,筛选潜在的可用于肝癌治疗的中药、天然活性成分,共得到中药36种、天然治疗成分105种。利用cytoscape软件绘制潜在治疗中药-核心基因-天然活性成分的相互作用网络,如图12所示,靶向作用于关键基因两次及以上的中药有8种,分别为青蒿、高良姜、冬凌草、雷丸、野马追、鹅不食草、蟾酥、九香虫,以P<0.01为筛选条件,共获得潜在治疗肝癌的中药36种,结果见表5。靶向作用于6个以上关键基因的天然活性成分有白藜芦醇、金雀异黄素、槲皮素、医用棕榈树、鱼藤酮、金复康、紫杉醇、姜黄素、长春新碱、表没食子儿茶素没食子酸酯,共10种。

图12 潜在治疗中药-核心基因-天然治疗成分的作用关系网络

表5 靶向作用于肝癌致病关键基因的中药信息

3 讨论与结论

肝癌是全球范围内最常见的癌症之一,每年罹患肝癌的人数约为84万,而每年因肝癌死亡的人数至少为78万[9]。中国是一个肝炎大国,肝炎发病率的上升增加了肝癌患者的数量,世界上约有50%的肝癌患者来自中国[10]。目前,早期肝癌的治疗主要采取手术切除、射频消融和肝脏移植,中期通常采用手术、射频消融、靶向治疗、免疫治疗以及化疗等多种方式结合的手段;而晚期大多采取支持治疗[11]。肝癌是一种复发率极高的恶性肿瘤,采取手术切除等根治性治疗手段,其5年内的复发率仍高达77%[12],故临床可考虑采用中西医结合治疗、中医药治疗的方法。中医对肝癌并无具体的称谓,依据其症候表征,多将其归属为“癥瘕”“肝积”“黄疸”“臌胀”等疾病范畴。中医药治疗肝癌包括中药复方治疗、单位中药/中成药治疗以及针灸、穴位敷贴等外治法;中西医结合治疗主要是中医联合手术治疗、中医联合射频消融、中医联合靶向治疗、中医联合化疗等,以达到减少并发症、减轻副作用、延缓肿瘤复发转移的目的[13,14]。本文通过采用生物信息学相关知识,从分子机制层面对肝癌的芯片数据集进行分析,挖掘其致病关键基因,并分析关键基因在肝癌预后中的意义,进一步通过关键基因筛选潜在治疗肝癌的中药。本研究旨在为肝癌的鉴别诊断、预后和治疗提供科学依据和参考。

GO功能和KEGG通路富集分析发现,差异表达基因主要参与免疫反应、炎症反应和细胞粘附等生物学过程,涉及的信号通路包括p53、mTOR、ErbB等。研究表明,肿瘤睾丸抗原和Sal样蛋白4与特异性T细胞的反应在控制早期肝癌中可能发挥着重要作用[15];肝脏中核苷酸去结合寡聚化结构域2的缺失可通过炎症反应、DNA损伤和基因组不稳定性来诱导肝癌的发生[16];NK细胞来源的干扰素-γ通过HBV转基因小鼠上皮细胞黏附分子-上皮间充质转换过程,可促进肝癌的发生[17];此外,有研究显示miR-621可通过激活p53信号通路提高肝癌细胞的放射敏感性[18];高表达水平的蛋白酶体活性亚单位4通过mTOR信号通路可促进肝癌细胞的增殖[19];上皮V样抗原1能够上调ErbB3-PI3K信号通路进而促进肝癌的进展和转移[20]。

蛋白相互作用分析得到10个在肝癌组织中高表达的关键基因,分别为CDC20、CCNB2、CCNB1、BUB1、BIRC5、AURKA、TOP2A、NCAPH、CDK1。对此10个关键基因进行预后分析发现,关键基因高表达组肝癌患者总生存期明显降低,这些关键基因与肝癌的病理分析结果存在一定的正相关关系。研究表明,CDC20在肝癌组织中的表达高于正常组织(P<0.05),且高表达CDC20的肝癌患者总体的生存率较低[21];研究显示,高CCNB2水平的肝癌患者5年总生存期和无病生存期均短于低CCNB2水平者[22];另有研究表明,在肝癌组织中可检测到较高水平的BUB1B,BUB1B过表达与不良的临床病理表现呈正相关[23]。

进一步对10个关键基因进行表达验证和突变分析发现,关键基因在肝癌组织中高表达,其中CDC20、CCNB1、TOP2A、NCAPH在肝癌组织中的蛋白表达量有不同程度的增加;此外,关键基因在肝癌组织中存在一定程度的突变,携带此突变关键基因的肝癌患者有较差的预后。关键基因的免疫细胞浸润分析发现,关键基因的表达与B细胞、CD8+T细胞、CD4+T细胞、巨噬细胞、中性粒细胞、树突状细胞的浸润程度呈正相关关系。Yang Gang等采用免疫组织化学法检测肝癌组织中CDC20的蛋白表达水平,结果显示在59.2%的肝细胞癌样本中观察到CDC20高表达[24]。Rong Min-Hua等研究发现CCNB1的mRNA和蛋白在肝细胞癌组织中过度表达,且CCNB1可能通过调节DNA复制参与HCC的细胞周期[25]。这些结果提示本文预测结果具有较好的可信性与准确性。

潜在治疗药物的筛选结果发现,CCNB1、BIRC5、CDK1、CDC20筛选出的中药数目多,CDK1、CCNB1、BIRC5、TOP2A所结合的潜在天然治疗成分数量多,CDK1、CCNB1、BIRC5可能为药物治疗的通用靶点。青蒿、高良姜、冬凌草等可作用于2~3个关键基因,为潜在治疗肝癌的中药。研究表明,青蒿的有效成分为青蒿素,其可通过EGFR等多种途径调节肝癌细胞的增殖、凋亡、血管生成[26];高良姜的有效成分为高良姜素,其可通过内质网应激和线粒体依赖性凋亡来预防肝细胞癌[27];冬凌草可通过靶向AKT通路来增强肝癌对索拉非尼抗癌作用的敏感性[28]。中医理论认为,肝细胞癌的主要病机为“瘀”“毒”“虚”,中药在分子水平发挥扶正祛邪、攻毒抗癌的功效,可达到机体阴阳平衡的状态[29]。相较于传统的西医治疗,中医药在治疗肝细胞癌中具有潜在的优势,具体体现在中药副作用小,不良反应发生率低,肿瘤生长减缓,复发转移减少,患者生存质量提升,生存周期延长[30]。

综上所述,本文研究发现肝癌的发生发展具有多基因、多通路、多功能的特点,共筛选获得10个肝癌致病关键基因;这些基因及其蛋白产物在肝癌患者中的表达水平均有升高,且与肝癌的不良预后、免疫细胞浸润程度密切相关;进一步挖掘得到青蒿、高良姜、冬凌草等36味潜在的肝癌靶向治疗中药和105个天然活性成分。本文研究结果可为肝癌的临床诊断、预后判断及相关治疗提供科学依据。

猜你喜欢

关键肝癌显著性
对统计结果解释和表达的要求
硝酸甘油,用对是关键
一种结合多尺度特征融合与像素损失加权的显著性目标检测方法
高考考好是关键
XB130在肝癌组织中的表达及其对细胞侵袭、迁移的影响
隐源性肝癌与病毒性肝癌临床特征比较
基于区域特征聚类的RGBD显著性物体检测
基于显著性权重融合的图像拼接算法
microRNA在肝癌诊断、治疗和预后中的作用研究进展
TACE术联合手术治疗中晚期肝癌患者65例临床观察