APP下载

基于GEO数据库分析支气管肺发育不良发生的关键基因及通路

2022-03-28颉相君张博吕莹宁尚伟曲书强

江苏大学学报(医学版) 2022年2期
关键词:通路因子信号

颉相君,张博,吕莹,宁尚伟,曲书强

(1. 哈尔滨医科大学附属第二医院儿内科,黑龙江 哈尔滨 150086; 2. 哈尔滨医科大学生物信息科学与技术学院,黑龙江 哈尔滨 150081)

随着围生医学的不断进步和发展,产前类固醇给药、产后肺表面活性剂使用、更安全的呼吸机应用措施等使极早早产儿在新生儿重症监护病房的占比越来越高[1]。支气管肺发育不良(bronchopulmonary dysplasia,BPD)是极早早产儿最常见的严重并发症之一,欧洲23~31周龄出生的胎儿中有10%~25%会发展为BPD[2]。BPD主要由生理性肺发育障碍引起,发病机制复杂且未完全阐明,除高气道压力和氧损伤外,近年来产前和围产期因素受到更多重视,主要包括遗传易感性、表面活性剂稳态不成熟、宫内和围产期感染、胎盘功能不全等[3]。

基因表达综合数据库(GEO)是一个国际公共存储库,存档和免费分发高通量基因表达和其他功能基因组学数据集[4]。本研究旨在通过GEO数据挖掘,研究BPD与非BPD极早早产儿的差异表达基因及信号通路,为精准识别高危患儿提供理论依据,更好地为BPD的防治提供服务。

1 材料和方法

1.1 数据集来源

以“bronchopulmonary dysplasia”为关键词在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)查询,限定研究物种为“Homo sapiens”进一步查看筛选后的数据集。下载基因表达数据集GSE8586,该数据集所用平台为GPL570,芯片为Affymetrix Human Genome U133 Plus 2.0 Array,包括54例极早早产儿,其中20例患有BPD,34例未患BPD,分离脐带组织得到RNA表达谱[5]。GEO数据库是公开使用的资源,故并未提及道德认可。

1.2 筛选差异表达基因

使用GEO2R在线分析工具进行数据处理[6],以|log2FC|≥0.5(FC为差异倍数)以及P<0.05作为差异表达基因的筛选标准,勾选自动数据标准化选项,得到BPD组与对照组的差异表达基因。选取排名前40的差异表达基因,使用TBtools绘制热图[7]。使用GraphPad Prism 9.0绘制差异表达基因的火山图。

1.3 差异表达基因的富集分析

在基因功能注释的在线工具DAVID2021中(https://david.ncifcrf.gov),根据基因本体(gene ontology,GO) 数据库和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG) 通路数据库对差异表达显著的基因进行生物学富集分析[8-9],以P<0.01、基因条目≥10为差异有统计学意义。

1.4 PPI网络构建及关键基因筛选

通过交互基因检索工具STRING (https://cn.string-db.org)对差异表达显著的基因构建蛋白质-蛋白质相互作用(protein-protein interaction, PPI)网络[10],以结合分数≥0.4为阈值条件,隐藏网络中离散的点,其余参数为默认。在Cytoscape3.8.2软件(https://cytoscape.org)中对PPI网络进行可视化处理。使用CytoHubba网络分析插件计算蛋白之间的连接程度,度值越大,说明相互作用的蛋白节点越多,对网络的影响也越大[11],筛选出PPI网络的核心基因。

2 结果

2.1 差异表达基因的筛选

GEO2R分析设定条件为|log2FC|≥0.5且P<0.05,得到符合标准的765个差异表达基因,其中表达上调的基因有375个,表达下调的基因有390个。按照|log2FC|呈降序排列,选取排在前40的差异表达基因,用TBtools绘制热图(图1),使用GraphPad Prism 9.0绘制差异表达基因火山图(图2)。

图1 BPD与对照组差异表达基因热图

图2 BPD与对照组差异表达基因火山图

2.2 差异表达基因的富集分析结果

对筛选得到的差异表达基因进行GO注释及KEGG富集分析(表1)。结果表明,生物学过程条目主要集中在细胞对钙离子的反应、RNA聚合酶Ⅱ启动子转录正调控、RNA聚合酶Ⅱ启动子转录调控、心脏发育;细胞组分条目主要集中在染色质、RNA聚合酶Ⅱ转录因子复合物、大分子复合物、转录因子复合物、细胞皮层、细胞核;分子功能条目主要集中在DNA结合转录因子活性、转录激活因子活性、RNA聚合酶Ⅱ转录调控区序列特异性结合、序列特异性双链DNA结合、转录调控区序列特异性DNA结合、RNA聚合酶Ⅱ核心启动子近端区域序列特异性DNA结合、RNA聚合酶Ⅱ转录因子活性、序列特异性DNA结合。KEGG富集分析结果表明差异表达基因主要在胰高血糖素信号通路和乳腺癌信号通路中富集。

表1 差异表达基因的GO注释及KEGG富集分析

2.3 PPI网络分析及关键基因

通过STRING在线工具和Cytoscape软件,绘制差异表达基因的PPI网络(图3)。在PPI网络中,有361个节点,777条边。并用Cytoscape软件的CytoHubba插件计算度值最高的前10个基因(图4),Jun原癌基因(JUN)、Fos原癌基因(FOS)、SWI/SNF染色体重塑复合体亚基4(SMARCA4)、激活转录因子3(ATF3)、早期生长反应蛋白1(EGR1)、Erb-b2受体酪氨酸激酶(ERBB2)、过氧化物酶体增殖物激活受体(PPARA)、FosB原癌基因(FOSB)、核受体亚家族4A组成员1(NR4A1)、胰岛素样生长因子1(IGF1),在BPD中全部为下调基因。

红色代表上调基因,绿色代表下调基因

红色越深表示基因得分越高,生物学意义越显著

3 讨论

BPD是一种多因素导致的疾病,存活患儿频繁发生呼吸系统疾病,生活质量和预期寿命下降,显著影响卫生服务质量[1]。目前治疗效果欠佳,以预防为主,现被认为是新生儿重症监护病房最棘手的问题之一。Jobe[12]认为导致发生BPD的损伤可能始于婴儿分娩前肺部发育改变,可在出生时复苏,然后因出生后暴露(氧气、机械通气、感染)而扩大。胎盘和脐带组织可以反映宫内环境,从脐带组织着手或可以解决新生儿采血困难问题。

本文采用生物信息学方法,下载GES8586芯片基因,差异分析筛选出差异表达基因,共鉴定出375个上调差异表达基因,390个下调差异表达基因。构建了PPI网络来研究差异表达基因之间的相互关系,得到以JUN、FOS、SMARCA4、ATF3、EGR1为代表的核心基因,可能在BPD发生发展中起关键作用,证实了遗传因素对BPD易感性的影响。

JUN家族主要由c-Jun, JunD和JunB等组成,FOS家族主要由c-Fos, Fra1, Fra2和FosB组成[13]。Jun和Fos蛋白家族成员结合可形成激活蛋白1(activator protein-1,AP-1)[14]。c-Jun、c-Fos表达主要定位于间质成纤维细胞、气道上皮细胞、肺泡巨噬细胞和肺泡上皮细胞。c-Jun、c-Fos的表达在BPD急性期达到峰值,二者参与基质金属蛋白酶-2(MMP-2)表达调控[15]。Kompass等[16]研究报道FOS是机械通气肺中的一个早期反应基因,可被多种机械刺激和氧化应激诱导,并在肺泡的免疫激活中发挥显著作用。ATF3是一种应激诱导的转录因子,在调节代谢、免疫中发挥重要作用。ATF3与多种细胞外信号有关,如内质网应激、细胞因子、趋化因子和脂多糖, 另外还被认为可防止氧化损伤,通过抑制巨噬细胞释放CCl4来减轻炎症反应[17]。ATF3的亮氨酸拉链(bZIP)域与其他含有bZIP结构域的蛋白形成同源二聚体或异源二聚体,如AP-1[17]。EGR-1是一种可诱导的锌指转录因子, 与缺氧、炎症诱导的肺重塑,急性呼吸窘迫综合征等发病机制有关[18-19]。有研究指出,EGR-1可能是牵张性肺部炎症的早期启动因子,并可在新生儿通气过程中升高[20]。

富集分析结果表明,差异表达基因主要与细胞对钙离子的反应、RNA聚合酶Ⅱ启动子转录调控、心脏发育、细胞皮层、细胞核、DNA结合转录因子活性、胰高血糖素信号通路等有关。胰高血糖素信号可诱导细胞凋亡,但机制尚不清楚[21]。Peng等[22]研究表明胰高血糖素样肽-1除参与血糖调节外,在抗凋亡、抗炎、缓解氧化应激损伤等方面也起作用,另外还能调节丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)信号转导。已有多项研究表明到BPD的发生发展与MAPK信号通路有关[23-24],此外,AP-1受MAPK信号通路调控[25]。Sokolova等[26]报道AP-1位点在基质金属蛋白酶启动子的转录激活中起主导作用,这与我们的结果相互印证。以上提示BPD可能与血糖有某种关联。

综上所述,本研究通过生物信息学筛选出BPD的差异表达基因,通过富集分析得到其信号通路,对后续研究BPD发病机制提供一定的参考。

猜你喜欢

通路因子信号
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
基于改进TF-IDF算法的基因通路富集方法
AngⅡ激活P38MAPK信号通路在大鼠NSAID相关小肠损伤中的机制研究
完形填空二则
山药被称“长寿因子”
直径不超过2的无爪图的2—因子
巧解难题二则
信号
扮靓爱车拒绝潜伏危险因子
高处信号强