APP下载

基于生物信息学筛选女性肺腺癌核心基因及其特征分析

2022-08-13王梅芳唐以军

武汉大学学报(医学版) 2022年3期
关键词:腺癌肺癌蛋白

李 琦 王梅芳 唐以军

十堰市太和医院(湖北医药学院附属医院)呼吸与危重症医学科 湖北 十堰 442000

肺癌是我国恶性肿瘤的首要死亡原因,非小细胞肺癌(non⁃small cell lung cancer,NSCLC)是最常见的肿瘤,其中腺癌是肺癌最常见病理组织类型。吸烟曾认为是导致肺腺癌的主要病因,近年来,女性肺腺癌的发病率和死亡率不断增加,与男性相比,女性更容易发生非吸烟相关的肺腺癌,因此,性别也是肺腺癌一个独立的预后因素。一项研究报告指出女性从肺癌免疫治疗中比男性受益更多[1]。因此探寻女性肺腺癌的发病机制,明确女性肺腺癌发生发展相关的关键基因和通路,有助于为临床寻找更多的诊断和治疗靶点。

近年来随着微阵列和高通量测序技术的快速发展,其与生物信息学分析相结合,在临床研究中的应用越来越有价值,为阐明肿瘤发生过程中关键基因的改变提供了一种有效的方法,可以为癌症的诊断、治疗和预后发现有前景的生物标志物。本研究运用生物信息学方法,分析GEO 数据库中肺腺癌数据集,并对差异基因进行富集分析,找出关键基因,并对关键基因进行多数据库验证,以期找到女性肺腺癌发生、发展的关键靶点。

1 资料与方法

1.1 芯片数据的获取从GEO 数据库下载7个肺腺癌数据集(GSE19804、GSE40791、GSE31210、GSE7670、GSE10072、GSE32863、GSE75037),其中GSE19804、GSE40791、GSE31210 数据集都是基于GPL570 芯片平台,GSE7670、GSE10072 数据集来源于GPL96 芯片平台,GSE32863、GSE75037 数据集来源于GPL6884 芯片平台。GSE19804 包含60例女性肺腺癌组织及其配对癌旁组织,GSE40791 包含42例正常女性肺组织和41例女性肺腺癌组织,GSE31210 包含9例正常女性肺组织和121例女性肺腺癌组织,GSE7670 包含21例女性肺腺癌组织及配对癌旁组织,GSE10072 包含15例正常女性肺组织和23例女性肺腺癌组织,GSE32863包含45例女性肺腺癌组织及配对癌旁组织,GSE75037 包含59例女性肺腺癌组织及其配对癌旁组织。

1.2 筛选差异基因利用GEO 数据库在线软件GEO2R 以调整后的P值(adj.P)<0.05、log2FC>1(FC 为fold change,差异倍数)为筛选条件,分别对5个数据集进行差异表达基因(DEGs)筛选。然后筛选出在5 个数据集中均上调或者均下调的基因。

1.3 GO 和KEGG 分 析DAVID(https://david.ncifcrf. gov/)数据库是一个注释、可视化和集成发现的生物信息数据库,目前主要用于差异基因的功能和通路富集分析。利用DAVID 数据库进行基因本体论(GO)和京都基因与基因百科全书(KEGG)富集分析,以P<0.05 为差异有统计学意义。

1.4 蛋白互作网络构建及筛选核心基因在STRING(https://string⁃db. org/cgi/)数据库中输入DEGs,种属限定为“Homo sapiens”,最小连接评分(Combined score)值为0.4,再导出相应结果文件。将所得文件导入Cytoscape 3.7.1 软件,利用CytoHubba 插件中每一个基因的最大团中心性(maximal clique centrality,MCC)分数,将得分前10的基因作为枢纽基因(Hub 基因)。

1.5 核心基因验证在Oncomine(www. onco⁃mine.org)数据库中将筛选条件限定为“肿瘤与正常组织、非小细胞肺癌、人口统计学特征限定为女性、数据类型限定为mRNA”,将Hub 基因分别输入逐一检索,P<0.01 认为有统计学意义。然后利用UALCAN 数 据 库(http://ualcan. path. uab. edu/)将10 个Hub 基因输入,验证在该数据库中Hub 基因在肺癌组织和正常组织中的表达差异。

1.6 核心基因生存分析利用Kaplan⁃Meier plot⁃ter(http://kmplot. com/analysis/)数 据 库 分 析1.4得到的10 个Hub 基因对女性肺腺癌总体生存期(OS)的影响。打开Kaplan⁃Meier plotter 数据库,选择肺癌数据库,将限定条件设定为“女性,腺癌”,分别将10 个Hub 基因输入,根据基因的中位表达值以判定高表达、低表达与OS 的关系,log⁃rankP<0.05认为有统计学意义。

2 结果

2.1 筛选差异基因以log2FC>1,adj.P<0.05为筛选条件,从GSE19804 数据集中筛选出1 404 个DEGS,其中455 个上调,949 个下调;从GSE40791数据集中筛选出4 166 个DEGs,其中1 801 个上调,2 365 个下调;从GSE31210 数据集中从筛选出2 493 个DEGs,其中1 141 个上调,1 352 个下调;从GSE7670 数据集中从筛选出1 578 个DEGs,其 中707 个上调,871个下调;从GSE1007 数据集中筛选出673 个DEGs,其 中204 个 上调,469 个下调;从GSE32863 数据集中筛选出1 307 个DEGs,其 中548 个 上 调,759 个 下 调;从GSE75037 数据集中筛选出3 517 个DEGs,其中1 623 个 上 调,1 894 个下调;利用Vene 进一步筛选,得到在7 个数据集中均上调的69 个DEGs 和207 个均下调的DEGs。

2.2 GO 和KEGG 富集分析对276 个DEGs 进行GO 富集分析,GO 富集分析由生物过程(biologi⁃cal process,BP)、分子功能(molecular function,MF)、细胞组成(cellular component,CC)三个部分组成。根据P值排序,保留每个模块前5 条结果(见表1)。KEGG 富集分析显示DEGs 主要富集在疟疾、ECM 受体相互作用、白细胞经内皮移动、PI3K⁃Akt 信号通路、紧密连接等13 条信号通路。具体结果见图1。

表1 差异表达基因GO 富集分析结果

图1 差异表达基因KEGG 富集分析结果

2.3 构建PPI 网络筛选Hub 基因基于STRING数据库和Cytoscape 软件对276 个DEGs 经行可视化分析,然后在利用Cytoscape 软件中的CytoHubba插件筛选出网络中MCC 最高的10 个基因分别为细胞分裂周期蛋白20(CDC20)、着丝粒蛋白F(CEN⁃PF)、人源全长重组蛋白(KIAA0101)、蛋白拓扑异构酶Ⅱα(TOP2A)、人类异常纺锤体样小头畸形相关蛋白(ASPM)、胸苷酸合成酶(TYMS)、微小染色体维持蛋白4(MCM4)、核仁纺锤体相关蛋白1(NUSAP1)、母体胚胎亮氨酸拉链激酶(MELK)、泛素结合酶E2C(UBE2C),即为Hub 基因。结果见图2。

图2 Cytoscape中cytoHubba插件筛选出的10个Hub基因

2.4 Hub 基因的验证在oncomine 数据库中显示10 个Hub 基因在女性肺腺癌组织中较正常肺组织表达均增高(见图3)。UALCAN 数据库也进一步证实10 个Hub 基因在女性肺腺癌组织中表达增高(见图4)。

图3 Oncomine 数据库中10 个Hub 基因的表达

图4 UALCAN 数据库中10 个Hub 基因的表达

2.5 生存分析利用Kaplan⁃Meier plotter 对10 个Hub 基因进行生存分析,结果显示除ASPM 外,其余9 个Hub 基因高表达与低表达对女性肺腺癌的OS 均存在统计学差异,高表达组OS 显著低于低表达组(见图5)。

图5 Kaplan⁃Meier plotter 数据库中10 个Hub 基因的生存分析

3 讨论

本文通过对7 个GEO 数据集中女性肺腺癌肿瘤组织及正常肺组织的RNA 测序数据进行分析,共获得276 个DEGs,其中69 个 上调,207 个下调。然后对276 个DEGs 进行GO 和KEGG 富集分析,结果显示DEGs 主要参与细胞黏附、血管生成等生物学过程;主要富集在细胞外外泌体、细胞外隙等细胞组分中;主要涉及钙离子结合、肝素结合等分子功能。KEGG 富集分析显示DEGs 主要富集在疟疾、ECM 受体相互作用、白细胞经内皮移动、PI3K⁃Akt 信号通路、紧密连接等信号通路。接着利用STRING 数据库构建PPI 网络,然后使用Cytoscape软件筛选出CDC20 等10 个Hub 基因,利用onco⁃mine、UALCAN 两 个 数 据 库 对10 个Hub 基 因 对 进行验证,它们在女性肺腺癌中均表达增高。最后利用Kaplan 数据库进行生存分析,结果发现10 个Hub基因中除ASPM 外,其余9 个基因高表达患者的OS均明显低于低表达组。由此推测这9 个Hub 基因高表达可能与女性肺腺癌不良预后密切相关。

CDC20 是重要的细胞周期因子,在调节细胞染色体组装检验点和有丝分裂G2/M 期过程中发挥重要作用。有研究表明其在多种恶性肿瘤中表达增高,在肿瘤的发生发展中起重要作用[2,3]。Kato 等[3]研究发现在肺腺癌患者中CDC20 高表达者5年生存期明显低于低表达患者。Shi 等[4]进一步研究表明CDC20 在肺腺癌中与原发肿瘤大小相关,肺腺癌细胞中CDC20 表达增高,抑制CDC20 表达,可以明显抑制肺腺癌细胞的增殖。

UBE2C 也称为UBCH10,是泛素结合酶家族成员,是泛素⁃蛋白酶体介导蛋白质降解途径的关键介质。研究表明UbcH10 在各种恶性肿瘤中异常过表达,UbcH10 的过度表达与肿瘤的病理分级和不良预后显著相关。既往研究表明UbcH10 在低分化NSCLC 组织中高表达,UbcH10 高表达与NSCLC患者术后生存时间短相关,是影响NSCLC 患者术后生存时间的独立危险因素,抑制UbcH10 的表达导致肺癌细胞增殖和迁移能力显著降低[5⁃7]。Guo等[8]进一步研究表明UBE2C 通过抑制自噬促进NSCLC 细胞增殖、迁移和侵袭性生长。

CENPF 是着丝粒复合体的重要组成部分,在有丝分裂过程中调控染色体分离。有研究表明,CENPF 在多种肺腺癌细胞中表达增高[9]。Li 等[10]的研究发现CENPF 在非小细胞肺癌中表达增高,其表达与肿瘤大小、生命状态和总生存率有显著相关性,可能是NSCLC 患者预后潜在的独立因素。

KIAA0101 是一种增殖细胞核抗原结合因子,与DNA 修复、凋亡、细胞周期、细胞增殖密切相关。李华等[11]研究发现在肺癌细胞在抑制KIAA0101 表达,可以抑制肺癌细胞的生长活性。Kato 等[12]进一步研究发现在女性非小细胞肺癌患者中,KIAA0101 高表达与肿瘤进展、淋巴结转移及预后不良相关。

TOP2A 位于17 号染色体上,其编码的DNA 拓扑异构酶Ⅱ蛋白,通过调节DNA 超螺旋结构,进而调控DNA 复制、染色体分离、基因表达等多种生物学过程。TOP2A 是蒽环类药物和依托泊苷抗癌药物的靶点,在多种肿瘤中均表达增高。研究发现在非小细胞肺癌组织和细胞中TOP2A 表达增高,敲除NCSLC 细胞中TOP2A 后,细胞早期凋亡率增加,增殖速率和侵袭能力明显降低[13,14]。

MCM4 是微小染色体维持蛋白家族(MCMs)成员之一,位于8q11.2 染色体区域,是启动真核基因组DNA 复制的必需蛋白。Kikuchi 等[15]的研究表明在非小细胞肺癌中MCM4 表达增高,抑制MCM4 可以抑制非小细胞肺癌的增殖。

TYMS 是一种叶酸依赖酶,是嘧啶核苷酸合成的限速酶,参与细胞的DNA 合成、修复和复制,是部分抗肿瘤药物的有效靶点。对于NSCLC 患者,TYMS 的表达已经被研究用来预测可切除的非小细胞肺癌患者的生存,进一步研究表明TYMS 可能是晚期非小细胞肺癌患者对培美曲塞化疗敏感性的潜在预测因子[16]。

ASPM 位于染色体1q31.3 上,是一种与微管相关的中心体蛋白,定位于纺锤体和中心体,参与纺锤体运动和胞质分裂的功能调节。ASPM 在多种肿瘤组织中广泛表达,并参与几种肿瘤的发生和发展。有研究发现ASPM 在肺腺癌组织中表达增高,其表达水平与肺腺癌不良预后呈正相关[17,18]。进一步研究发现在肺鳞状细胞癌中,ASPM 敲除显著抑制了LSCC 细胞的增殖,ASPM 消融明显抑制了体内肿瘤的生长[19]。

MELK 是蔗糖非发酵⁃1/AMP 活化蛋白激酶(Snf1/AMPK)家族成员,在细胞周期、细胞增殖、凋亡、剪接体组装、基因表达、胚胎发育、造血和肿瘤形成等过程发挥重要作用。有研究显示,MELK 在小细胞肺癌细胞及组织中表达增高,MELK 敲除或MELK 抑制剂均能抑制小细胞肺癌细胞生长[20]。Zang 等[21]研究进一步表明MELK 的表达量与肺腺癌患者的预后呈负相关,MELK 可能成为NSCLC新的治疗靶点。

NUSAP1 是一种微管结合蛋白,在增殖细胞中特异性表达,能够交联和稳定微管,是细胞有丝分裂过程中的关键调控因子。有研究发现,在非小细胞肺癌组织中NUSAP1 蛋白及mRNA 表达增高,NUSAP1 高表达与肿瘤大小、淋巴结转移、TNM 分期相关[22,23]。Xu 等[24]进 一步 研究 发现NUSAP1 在肺癌细胞中表达增高,敲除NUSAP1 可以促进NSCLC 细胞凋亡,抑制细胞增殖、迁移和侵袭。于哲等[25]的研究发现在肺癌细胞中敲除NUSAP1 通过抑制AKT/mTOR 信号通路抑制肺癌细胞的增殖、迁移和侵袭,促进肿瘤细胞凋亡,进而发挥抑制肺癌的作用。

综上所述,本文利用生物信息学方法对女性肺腺癌芯片数据集进行挖掘,发现并探讨了CDC20、CENPF、KIAA0101、TOP2A、TYMS、MCM4、NU⁃SAP1、MELK、UBE2C 这些基因高表达可能与女性肺腺癌不良预后密切相关,但以上数据集原始数据大多来源于西方国家,由于种族差异,仍然需要采集中国女性肺腺癌组织样本及患者临床资料进一步验证,并结合分子生物学实验验证其在女性肺腺癌中的具体机制。

猜你喜欢

腺癌肺癌蛋白
miRNA在肺腺癌中的作用及机制研究进展
RNA结合蛋白与恶性肿瘤发生发展关系的研究进展
管状腺癌伴有黏液腺癌分化结直肠癌临床病理与免疫组织化学特征
培美曲塞联合顺铂一线化疗在老年晚期肺腺癌治疗中的效果探究
氩氦刀冷冻治疗肺癌80例的临床观察
细砂糖对法式蛋白糖的质量影响研究
我国科学家揭示肺腺癌分子全景
中国每年78万人确诊肺癌医生忠告,预防肺癌,晚上请坚持四不要
近亲得肺癌自己早预防
水通道蛋白的发现