APP下载

基于生物信息学方法分析GABRD基因在结肠癌中的表达及预后情况

2023-07-31林芳蕊申俊敏侯森森刘莉

科学技术与工程 2023年20期
关键词:共表达枢纽结肠癌

林芳蕊,申俊敏,侯森森,刘莉

(河北大学基础医学院,保定 071000)

根据国际癌症研究中心2020年的数据显示,结直肠癌发病率居全球第三位,死亡率居全球第二位[1],严重威胁人类健康。据报道,虽然结肠癌的5年生存率约为60%,但50岁以下的患者在增加,且年轻患者的结肠癌往往更具侵袭性[2]。由此可见,全球结肠癌的整体形势仍然较为严峻,确定可靠的生物标志物来识别高低风险患者及肿瘤进展尤为重要。

研究显示,肿瘤微环境在肿瘤进展中起关键作用,神经浸润肿瘤微环境,并通过神经递质启动信号通路刺激肿瘤细胞生长和转移,肿瘤微环境中的神经递质可影响免疫细胞、内皮细胞和基质细胞,通过与相应的神经递质受体结合来促进肿瘤进展[3-4]。γ-氨基丁酸(γ-Aminobutyric acid,GABA)是神经系统中重要的抑制性神经递质,GABA受体在多种肿瘤组织中表达,对肿瘤细胞增殖和迁移发挥调节作用[4]。一般而言,GABA通过GABAA受体刺激肿瘤细胞增殖和迁移,其在乳腺癌、胰腺癌、前列腺癌和肝癌中表达增强[3]。

γ-氨基丁酸A型受体δ亚单位(GABRD)是γ-氨基丁酸A受体的亚单位之一,与肿瘤的发生发展密切相关。在泛癌研究中发现,GABRD在多种肿瘤组织中表达异常。研究显示,GABRD在肝细胞癌组织中显著上调[5]。然而,在低级别胶质瘤中,GABRD高表达患者的预后优于低表达患者,GABRD低表达的患者往往预后不良[6]。另外,有报道证实结肠癌组织中存在GABRDmRNA过度表达,GABRDmRNA表达可能是结肠癌患者的一个潜在预后指标[2]。可见,GABRD在癌症中的作用机制还需要在特定的癌症类型上进行研究。目前,GABRD在结肠癌中的研究仍然缺乏,且现有研究对其在结肠癌患者治疗中的潜在作用尚未得到彻底和系统的确定。基于此,现采用生物信息学的方法分析GABRD在结肠癌中的表达情况,分析其参与的生物学过程及信号通路,探讨其在结肠癌中可能的作用机制,并验证其对生存的影响,进一步明确GABRD与结肠癌发生发展的关系。值得注意的是,在验证GABRD对结肠癌患者生存影响的同时,进一步探讨了GABRD的表达与患者年龄和性别的关系,明确了其在不同性别和年龄段对生存的影响。通过构建PPI网络,筛选并验证出了2个具有生存及临床诊断价值枢纽基因,这些基因可能与GABRD一起参与结肠癌进展,可为结肠癌筛选具有临床诊断价值的潜在生物标志物提供理论依据,以期为结肠癌的诊断和治疗提供新的靶点。

1 材料与方法

1.1 基因表达分析

通过UCSC XENA(https://xenabrowser.net/)从TCGA数据库和GTEx数据库中下载33种肿瘤类型和正常组织的RNA序列数据和相关临床数据。使用R软件3.6.3进行统计分析,分析GABRD基因在泛癌中的表达情况,并分析其在结肠癌配对样本和非配对样本中的表达,使用ggplot2程序包进行可视化。

1.2 筛选共表达基因,进行富集分析

在R软件中筛选GABRD的共表达基因,设置参数P<0.05,|log2fold change|>1和|log2fold change|>2。筛选完成后,选取P<0.05,|log2fold change|>2的共表达基因绘制热图,并使用Cluster profiler程序包对共表达基因进行GO和KEGG富集分析。

1.3 ROC曲线、生存曲线绘制

通过R软件pROC程序包分析GABRD基因的受试者工作特征曲线(receiver operating characteristic curve,ROC),评估其临床诊断价值,使用ggplot2包进行可视化;使用survival程序包绘制Kaplan-Meier图,用于评估GABRD表达与总体生存期(overall survival,OS)、无进展时间间隔(progress free interval,PFI)和疾病特异性生存期(disease specific survival,DSS)之间的关系。此外,进一步研究了GABRD表达与年龄和性别之间的关系,绘制生存亚组曲线。

1.4 单、多变量Cox回归分析

在R软件中使用survival程序包对GABRD的临床特征进行单、多变量的Cox回归分析,并根据分析结果构建Nomogram图及校准曲线,研究不同因素对结肠癌患者生存预后的影响。

1.5 构建蛋白互作网络,筛选关键模块和枢纽基因

通过STRING数据库(https://cn.string-db.org/)构建GABRD基因的蛋白质互作(protein-protein interaction,PPI)网络[7],选定基因数为不超过50,物种为人。通过Cytoscape 3.9.0软件进行PPI网络的可视化分析,并通过MCODE和Cytohubba插件筛选网络中的关键模块和枢纽基因。

1.6 枢纽基因生存曲线和临床诊断价值分析

通过GEPIA数据库(http://gepia.cancer-pku.cn/)验证枢纽基因的生存曲线;通过R软件绘制枢纽基因的ROC曲线,验证其临床诊断价值。ROC曲线下的值一般需介于0.5~1。曲线下面积(area under curve,AUC)为0.5~0.7时具有低准确度,为0.7~0.9时有一定准确度,为0.9以上时则具有高准确度[8]。

2 结果

2.1 GABRD基因在泛癌和结肠癌样本中高表达

如图1所示,GABRD基因在结肠癌、乳腺浸润癌、肝细胞癌、肾透明细胞癌及胆管癌等17种癌症样本中高表达(P<0.001)。如图2所示,进一步分析GABRD基因在结肠癌样本中的表达,发现其在配对和非配对样本中均呈高表达趋势(P<0.001)。

***表示P<0.001;**表示P<0.01;*表示P<0.05;ns表示非统计显著性;TPM(transcripts per million)表示每100 000个RNA reads有多少个来自某基因的转录本图1 GABRD基因在泛癌中的表达Fig.1 Expression of GABRD gene in pan-carcinoma

***表示P<0.001;**表示P<0.01;*表示P<0.05;TPM(transcripts per million)表示每100 000个RNA数据有多少个来自某基因的转录本图2 GABRD在结肠癌配对样本及非配对样本中的表达Fig.2 Expression of GABRD in paired and unpaired colon cancer samples

2.2 共表达基因的筛选

66如图3所示,根据设定的阈值,筛选出P<0.05,|log2foldchange|>1的共表达基因369个,其中包括76个下调基因和293个上调基因。筛选出P<0.05,|log2foldchange|>2的共表达基因29个,其中包括12个下调基因和17个上调基因。如图4所示,选取P<0.05,|log2foldchange|>2的共表达基因,绘制共表达热图。

log2 fold change表示两样品组间表达量的比值,对其取以2为底的对数之后即为log2FC图3 共表达基因火山图Fig.3 Volcano map of co-expressed genes

***表示P<0.001;**表示P<0.01;*表示P<0.05;FPKM(fragments per kilobase of exon model per million mapped fragments)表示每千个碱基的转录每百万映射读取的片段图4 共表达基因热图Fig.4 Heat map of co-expressed gene

2.3 GO及KEGG富集分析

如图5所示,GABRD共表达基因的生物学过程方面主要富集在受体配体活动、G蛋白偶联肽受体活性、肽激素结合及肌肉收缩等方面。如图6所示,共表达基因富集的信号通路主要包括AMPK、PPAR、非酒精性脂肪肝及脂肪细胞分子信号通路。

图5 共表达基因GO功能注释结果Fig.5 GO functional annotation results of co-expressed genes

图6 共表达基因KEGG通路富集分析结果Fig.6 KEGG pathway enrichment analysis results of co-expressed genes

2.4 GABRD与结肠癌中不同临床特征的相关性

如表1所示,进一步研究GABRD与结肠癌不同临床特征之间的关系,发现GABRD表达与结肠癌患者的年龄、M、N、病理分期及生存(OS、DSS)显著相关,结果具有统计学意义。

表1 GABRD与结肠癌中不同临床特征的相关性Table 1 Correlation between GABRD and different clinical features in colon cancer

2.5 ROC曲线、生存曲线绘制

如图7所示,采用ROC曲线评估GABRD基因在结肠癌中的诊断价值,GABRD在预测中具有高准确性(AUC>0.9)。如图8所示,绘制1、3、5年时间依赖性ROC曲线,AUC值均>0.6,预测结果具有一定的准确性。

CI为置信区间图7 GABRD基因ROC曲线Fig.7 ROC curve of GABRD gene

CI为置信区间图8 GABRD基因时间依赖性ROC曲线Fig.8 Time-dependent ROC curve of GABRD gene

如图9所示,在R软件内绘制Kaplan-Meier图,评估GABRD表达与癌症预后(OS、DSS和PFI)之间的关系。结果发现GABRD基因高表达患者的OS、DFS、和PFI显著低于低表达患者,并在第20个月,GABRD高表达患者的OS、DFS和PFI骤降。

HR为风险值图9 GABRD基因KM生存曲线Fig.9 KM survival curve of GABRD gene

如图10所示,进一步研究结肠癌样本中GABRD的表达与患者年龄和性别的关系。发现年龄>65岁的结肠癌患者OS显著低于年龄≤65岁的患者。如图11所示,发现男性结肠癌患者OS低于女性患者,尤其在第50个月,男性结肠癌患者的生存率骤降。

图10 GABRD基因年龄亚组KM生存曲线Fig.10 KM survival curve of GABRD gene age subgroup

图11 GABRD基因性别亚组KM生存曲线Fig.11 KM survival curve of GABRD gene gender subgroup

2.6 单、多变量Cox回归分析

如表2所示,单因素回归分析结果显示,T3和T4期、N1和N2期、M1期、Stage III和IV期、病患年龄>65岁和OS显著相关。多因素回归分析结果显示,N1期、M1期、Stage III期、病患年龄>65岁和OS显著相关,结果具有统计学意义。根据Cox回归分析结果构建出Nomogram图(C-index:0.783,P<0.001)及校准曲线,可研究性别、TNM分期及年龄等因素对患者生存率的影响,为临床诊治提供指导依据,如图12、图13所示。

表2 单、多变量Cox回归分析Table 2 Univariate and multivariate Cox regression analysis

图12 Nomogram图Fig.12 Nomogram figure

图13 校准曲线Fig.13 Calibration curve

2.7 构建蛋白互作网络,筛选关键模块和枢纽基因

如图14所示,使用STRING数据库筛选出50个GABRD的靶向结合蛋白,并由Cytoscape软件构建出由51个节点和523个连接组成的PPI网络。使用MCODE插件,筛选出前3个模块,评分分别为22.880、6.667和4.000,如图15所示。通过Cytohubba插件,综合筛选出5个关键枢纽基因,分别为SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2。

图14 GABRD基因构建的PPI网络图Fig.14 PPI network diagram constructed by GABRD gene

图15 PPI网络中筛选得到的前3个模块图Fig.15 The first three modules screened in PPI network

2.8 枢纽基因的生存曲线及临床诊断价值分析

如图16所示,通过GEPIA数据库验证枢纽基因的生存曲线,发现SLC6A1和SCN2A高表达患者的OS显著低于低表达患者。

logrank P为log rank法检验后的P值图16 通过GEPIA数据库验证SLC6A1和SCN2A生存曲线Fig.16 Survival curves of SLC6A1 and SCN2A verified by GEPIA database

如图17所示,枢纽基因的ROC曲线显示,SCN2A的AUC值在0.5~0.7,SLC6A1、TTYH2、CLCN2的AUC值在0.7~0.9,具有一定的准确度,TRAK2的AUC值在0.9~1,具有高准确度。

图17 枢纽基因ROC曲线Fig.17 ROC curve of hub genes

在生存分析中,每隔一段时间对病人进行一次随访,记录(log)病人的数据,根据时间顺序将该数据排列(rank),比较两种治疗方法是否有差异,通过检验两种治疗方法的随访资料的生存函数(survival function,SF)是否显著不同,这种检验方法即为时序检验(logrank test)。

3 讨论

GABRD属配体门控型氯离子通道,是脑内主要抑制性神经递质γ-氨基丁酸A异源五聚体受体的组成部分,其被证实与癫痫、惊厥等疾病有关[9]。在癌症方面,目前的研究显示GABRD在肝癌、结肠癌、低级别胶质瘤及肾透明细胞癌[10]中异常表达,其参与肿瘤发生发展的生物过程,并影响患者预后。

近年来生物信息学的蓬勃发展为蛋白质功能的研究打开新的大门[11]。通过生物信息学的方法,探讨GABRD基因在结肠癌中的表达及预后情况。首先,采用R软件分析GABRD基因在泛癌和结肠癌中的表达,结果显示GABRD高表达。使用R软件筛选得到共表达基因369个,发现其在生物学过程方面主要富集在受体配体活动、G蛋白偶联肽受体活性、肽激素结合及肌肉收缩等方面。G蛋白偶联受体广泛表达于不同的细胞类型,参与众多细胞生物学功能的调控,其激活和失活与恶性肿瘤等多种疾病有关[12]。研究表明,黏附型G蛋白偶联受体,影响肿瘤细胞增殖、黏附、迁移、侵袭和血管形成等生物学行为[13],这与所探讨的结肠癌密切相关,提示GABRD基因可能通过G蛋白偶联受体参与结肠癌的发生发展。根据KEGG富集分析的结果显示,共表达基因主要参与AMPK、PPAR及非酒精性脂肪肝等信号通路。AMPK是一种丝氨酸/苏氨酸激酶,其激活可调节细胞生长、代谢、自噬和癌症进展[14]。据研究显示,AMPK可调节雷帕霉素靶蛋白(mTOR)活性,在控制细胞生长、增殖和自噬中起着核心作用[15],激活AMPK信号通路,负调节mTOR活性,可影响结肠癌HCT116细胞增殖,并抑制细胞迁移[16];通过调节AMPK/mTOR/ULK1途径可促进结肠癌DLD-1细胞的自噬和凋亡[17];通过ROS-ATP-AMPK信号通路可诱导线粒体功能障碍和细胞毒性自噬,从而影响CT26细胞的增殖活性[18]。结果表明,GABRD或可通过AMPK信号通路抑制结肠癌的发展。PPAR存在3种亚型,分别为PPAR-α、PPAR-δ、PPAR-γ。研究证实,PPAR-δ的激活或异常表达可诱导结直肠癌的转移进展和癌变[19]。AMPK可诱导PPAR-δ S50磷酸化,降低PPAR-δ转录活性,减少葡萄糖和谷氨酰胺的摄取,从而降低结肠癌细胞的增殖和肿瘤的生长[19]。研究显示,PPAR-γ在结肠癌中下调,而且在许多哺乳动物活细胞中,PPAR-γ和经典的Wnt/β-连环蛋白途径以相反的方式表现,而经典Wnt/β-连环蛋白途径在结肠癌中上调[20]。同样,结肠癌的发展与PPAR-γ信号通路传导的失调密切相关,在结肠癌中激活PPAR-γ/RXRα信号通路,可抑制细胞生长、降低肿瘤侵袭性和减少促炎细胞因子的产生[21]。此外,在人类结直肠肿瘤中,PPAR-α mRNA和蛋白质水平均低于非肿瘤组织,肠道PPAR-α通过调节DNA甲基转移酶1(DNMT1)和蛋白质精氨酸甲基转移酶6(PRMT6)可防止结肠癌发生,故激活PPAR-α的药物可能会被开发用于结肠癌的化学预防或治疗[22]。这些研究结果提示GABRD或可通过PPAR信号通路抑制结肠癌的发展。此外,还有研究显示,一些G蛋白偶联受体及相关信号通路参与肝脏与肾脏的生理病理过程,并与非酒精性脂肪肝等肝脏疾病及肾脏疾病相关[12,23],这可能与KEGG富集到的非酒精性脂肪肝途径相关。进一步研究GABRD与结肠癌不同临床特征之间的关系,发现GABRD表达与结肠癌患者的年龄、M、N、病理分期及生存(OS、DSS)显著相关。绘制GABRD在结肠癌中的ROC曲线,发现其AUC面积>0.9,在预测中具有高准确性,具有一定的临床诊断价值。此外,发现GABRD与结肠癌患者的OS、DFS、和PFI密切相关,其高表达均会不同程度的降低患者生存率。此外,还发现GABRD影响生存与患者年龄和性别之间存在关联,发现年龄>65岁的结肠癌患者OS显著低于年龄≤65岁的患者,男性结肠癌患者OS低于女性患者,尤其在第50个月,男性结肠癌患者的生存率骤降,推测GABRD基因可能是影响患者生存的不良因素。

通过STRING数据库筛选出50个GABRD的靶向结合蛋白,结合Cytoscape软件构建出51个节点和523个连接组成的PPI网络,并筛选出5个枢纽基因,分别是SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2。通过GEPIA数据库验证枢纽基因的生存曲线,发现SLC6A1和SCN2A与结肠癌患者生存显著相关。SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2的ROC曲线表明,这些基因的AUC值均>0.6,其中TRAK2的AUC值在0.9~1,具有高准确度。通过对枢纽基因的分析,发现SLC6A1和SCN2A基因影响结肠癌患者的生存,并具有临床诊断价值。SLC6A1是GABA能系统的重要组成部分,其异常表达可能是各种病理条件下GABA能功能障碍的原因[24]。研究表明,SLC6A1是胃癌诊断和治疗的潜在标志物,其敲除还可抑制卵巢癌细胞的增殖,过度表达也被证实与前列腺癌的耐药性和不良预后显著相关[24-25]。在结直肠癌中,SLC6A1的表达以及年龄和临床分期可以被视为结直肠癌预后的独立预测因素,其KEGG富集分析结果显示,SLC6A1可能通过调节TGFβ和PI3K-Akt信号通路影响临床进展[26],这为研究提供了理论支持。TTYH2表达的增加也被证明与肾癌和结肠癌有关,其表达上调对人骨肉瘤细胞系的侵袭和迁移也至关重要[27]。虽然TTYH2在影响结肠癌生存中没有统计学意义,但其HR>1,是影响结肠癌发生发展的危险因素。在以往的报道中,SCN2A可引起多种不同严重程度的神经精神综合征,包括早发的自限性癫痫、早发或迟发的发育性癫痫脑病和智力残疾[28],CLCN2和TRAK2基因分别与醛固酮增多症和脂质调节等有关[29-30],其在结肠癌中的作用机制有待进一步探究。

综上所述,基于生物信息学方法发现,GABRD基因在结肠癌组织中高表达,这会降低结肠癌患者生存率并影响患者预后,可能是结肠癌发生发展过程中的关键基因。此外,通过构建PPI网络,筛选枢纽基因,发现SLC6A1和SCN2A影响结肠癌患者生存,并具有临床诊断价值,有望成为结肠癌筛查及治疗的靶点。

4 结论

通过生物信息学的方法,确定了GABRD基因在结肠癌中的表达及预后情况,并通过构建PPI网络筛选出具有生存及临床诊断价值的枢纽基因,这些基因可能与GABRD共同参与结肠癌的发生发展,可以作为结肠癌的治疗靶标和预后标志,为临床上结肠癌的预防、诊断及治疗提供新的选择。

猜你喜欢

共表达枢纽结肠癌
侵袭性垂体腺瘤中lncRNA-mRNA的共表达网络
枢纽的力量
淮安的高铁枢纽梦
枢纽经济的“三维构建”
膀胱癌相关lncRNA及其共表达mRNA的初步筛选与功能预测
MicroRNA-381的表达下降促进结肠癌的增殖与侵袭
中国流行株HIV-1gag-gp120与IL-2/IL-6共表达核酸疫苗质粒的构建和实验免疫研究
结肠癌切除术术后护理
胃癌患者癌组织HIF-1α、TGF-β共表达及其临床意义
中西医结合治疗晚期结肠癌78例临床观察