基于生物信息学方法识别肺腺癌预后相关基因及预后风险模型的构建①

2022-01-06刘少博

中国免疫学杂志 2021年23期

刘少博黄波

（锦州医科大学附属第一医院胸外科，锦州 121000）

肺癌是全球范围内发病率和病死率最高的恶性肿瘤，在我国，肺癌在所有男性恶性肿瘤中发病率和病死率均位列第一，在所有女性恶性肿瘤中发病率位列第二，仅次于乳腺，病死率则位列第一［1］。肺腺癌（lung adenocarcinoma，LUAD）是目前肺癌最常见的病理类型，目前肺腺癌的发生率逐年增加，呈现出年轻化的趋势，疾病初期症状少，发病迅速，病死率高且预后差，多数患者被诊断时已经处于晚期［2-3］。当今精准医学的发展使基因层面的治疗更加精准，通过对肺腺癌患者进行基因检测，已发现最常见的肺癌驱动基因有EGFR、ALK、ROS1 和BRAF［4］。在患小细胞肺癌的亚洲人中，EGFR 突变率可达35%～40%，基于此，近年来基因靶向治疗药物如吉非替尼、厄洛替尼和克唑替尼等广泛用于临床治疗，免疫治疗如免疫检查点抑制剂PD-1/PD-L1也可通过对免疫检查点的抑制来治疗癌症，对患者的生存时间及生存质量有一定的提高［5］。不幸的是，肺腺癌的预后仍然很差，因此探索新的生物标志物和预后基因成为精密医学时代的研究趋势。

目前，医疗技术和分子生物学技术都有了很大的发展，随着基因组微阵列和高通量测序技术的进步以及结合生物信息学分析为研究肿瘤的发生发展提供了有效方法，基因芯片和RNA 测序的广泛应用也极大丰富了肿瘤的相关数据。一些基于大规模、全基因组相关联的数据库也促进了新生标志物的发现，最常见的当属GEO和TCGA数据库，高通量基因表达数据库（gene expression omnibus，GEO）由美国国立生物技术信息中心（NCBI）于2000 年创建并维护的基因表达数据（http：www.ncbi.nlm.nih.gov/geo），收录全世界高通量基因组数据。人类癌症基因组图谱（The Cancer Genome Atlas，TCGA）（http：//cancergenome.nih.gov/），包括33 种肿瘤的临床随访数据和基因组学数据，因为不同公共数据库的内容或多或少存在一定异质性，综合多个数据库进行生物信息学分析便可以减少样本的异质性和平台差异性，将多个平台的不同微阵列数据进行联合分析也可以获得更加丰富的临床数据。本研究通过一定筛选条件从GEO 数据库下载3 个数据集，结合TCGA 肺腺癌数据集进行差异基因的筛选，并对差异基因进行加权基因共表达网络分析、富集分析、表达差异分析、生存分析等，为探讨肺腺癌预后相关基因的筛选提供理论依据。

1 材料与方法

1.1 芯片数据获取在GEO 数据库的检索框里输入关键词“lung cancer”“lung adenocarcinoma”，条件为“homo sapiens”“expression profiling by array”。筛选标准：①标本为LUAD 组织和对应的癌旁组织；②每个芯片数据集都包含MRNA 且数量不少于25 对，从其中选出3 组符合标准的基因表达谱数据（GSE43458、GSE27262、GSE10072）［6］。另外在TCGA数据库中，选择数据类别为转录组数据（transcriptome profiling）和原始数据（raw counts），包括535 个原发性肺腺癌样本和59 个正常样本（表1），然后从TCGA下载533例包括性别、年龄、生存时间、生存状态、病理分期等与之对应的临床信息用于后续分析。

表1 基因芯片基本信息Tab.1 Basic information of gene chip

1.2 数据预处理和差异表达基因的筛选对TCGA及GEO 的数据集均使用R 软件进行处理，如果多个探针对应同一个基因，则表达的平均值被认为是该基因的表达水平，采用Benjamini-Hochberg 方法调整P值，以控制错误发现率（FDR）。首先对GEO 数据集进行预处理，采用Perl 语言对3 组原始数据集（GSE43458、GSE27263、GSE10072）进行矩阵的合并，接下来对合并后的原始数据采用R 语言中Bioconductor 的R 包“Affy”中鲁棒多芯片平均算法（RMA）（robust multichip average algorithm）进行背景矫正、标准化和以2 为底的对数转换，然后利用R 软件包SVA 的combat 函数进行批次矫正，对去除批次效应前后的数据表达分别进行箱线图的绘制［7］。从TCGA 数据库中下载的原始数据去除重复基因及其表达量之后，利用R 软件edgeR 包的CPM 函数进行数据的矫正及标准化处理［8］，删除CPM（每百万碱基中每个转录本count 值）均值＜1 的样本，并进行以2为底数的转换。然后对以上预处理过的两组数据集分别使用R 软件包Limma 筛选差异基因［9］，筛选标准为：|log2（fold-change）|＞1 以及矫正后P值（false discovery rate，FDR）＜0.05，对TCGA 和GEO 筛选出的差异基因分别利用R 语言“gplots”程序包中的“heatmap.2”函数对正常肺组织样本和肿瘤样本绘制聚类热图。利用火山图来观察FDR 和差异变化倍数之间的关系，并对求出的GEO和TCGA数据库的差异基因通过在线网页工具绘制韦恩图（http：//bioinformatics.psb.ugent.be/webtools/Venn），获取两者共同表达的上调和下调的差异基因。

1.3 差异基因的富集分析为了探索肺腺癌发生发展的机制，利用基因功能分析（基因本体论，gene ontology，GO）与通路分析（京都基因与基因组百科全书Kyoto encyclopedia of genes and genomes，KEGG）对基因产物功能进行详细的生物学注释和描述。GO涵盖了分子生物学功能（molecular function，MF）、细胞学组分（cellular components，CC）和生物学过程（biological process，BP），通过富集分析的形式全面概括了给定基因的功能信息［10］。KEGG 是整合基因组、化学和系统功能信息并从基因和分子网络方面系统性分析基因功能的一个数据库，通常用于识别功能和代谢途径［11］。DAVID 在线分析平台（https：//david.ncifcrf.gov/）是一个生物信息数据库，为大规模的基因或蛋白列表提供系统综合的生物功能注释，用于从多个基因和蛋白质集合中提取比较有意义的生物信息，使用DAVID 分别分析了上调和下调的基因在GO中的注释并利用KEGG进行通路分析，设定P＜0.05为显著性基因富集。

1.4 蛋白互作网络的构建与分析 String 数据库（http：//string-db.org/）是一个搜索已知蛋白质之间和预测蛋白质之间相互作用的数据库［12］，在STRING 在线数据库中对TCGA 和GEO 数据库共有的DEGS 进行了蛋白质-蛋白质相互作用（proteinprotein interaction，PPI）网络分析，并将置信分数＞0.9 设置为截止标准，然后将PPI 网络的信息导入Cytoscape 3.6.0（http：//www.cytoscape.org/）中使其可视化。Cytoscape 作为生物信息分析的开源软件工具之一，用于可视化探索由蛋白质、基因和其他类型相互作用组成的生物互助网络，是生物信息学研究的重要工具之一［13］。使用Cytoscape 的插件Cytohubba 其中的5 种方法从DEGS 的PPI 网络中筛选中枢基因，包括EPC（边缘渗透成分）、MCC（最大团中心性）、MNC（最大邻域成分）、Degree（节点连接度）和Closeness（节点连接紧密度），挑选在5种计算指标得分均出现的基因作为中枢基因。另外通过插件MCODE（molecular complex detection）发掘肺腺癌PPI网络中不同功能的基因模块，筛选标准设定为：Degree Cutoff=2、Node Score Cutoff=0.2、K-Core=2、Max Depth=100。筛选出其中最显著的模块，MCODE是通过蛋白质复合物聚类找到紧密连接的部分，从而筛选出差异基因的基因功能模块［14］，随后运用DAVID 对最显著模块中的基因进行GO 和KEGG分析。

1.5 TCGA 数据集DEGS 的WGCNA 分析及关键基因的确定加权基因共表达网络分析（WGCNA）是从全基因组表达中理解基因功能和基因关联的一种重要方法，可用于检测高度相关基因的共表达模块（module-membership，MM）以及与临床特征相关的模块（gene-significance，GS），为预测共表达基因的功能和发现在人类疾病中起关键作用的基因提供了很好的见解［15-17］。此外，转录组学中另一个强大的分析是差异基因表达分析，它为研究基因组调控的分子机制和发现实验组与对照组之间表达水平的定量变化提供了方法，这种基因表达的差异可以发现特定疾病的潜在生物标志物［18］。因此，采用两种方法，将WGCNA 和差异基因表达分析的结果结合起来，可以高度提高相关基因的识别能力。使用R 软件WGCNA 包［19］对TCGA 数据集的差异基因构建共表达网络，首先计算差异基因各个基因之间的Pearson 系数使其转化为相似矩阵，通过WGCNA包的pick soft threshold 函数自动进行网络拓扑分析选择软阈值β，β 可以强调基因之间强弱相关性。确定β 后相似矩阵转化为邻接矩阵，再将邻接矩阵转换为拓扑重叠矩阵（TOM），设置模块最小基因数为50，剪切高度为0.25，通过层次聚类使表达相近的基因置于同一基因模块，并将阈值设置为20 000以消除异常值，利用动态混合切割方法，将表达模式类似的基因分到不同的模块中。得到这些数据后，计算基因模块和表型（癌组织和正常样本）的Pearson 相关系数，选择与肿瘤发生密切相关的基因模块，用GO和KEGG分析挖掘目标模块所参与的生物学功能，然后利用基因和模块的相关性和基因与临床性状的相关性进行显著模块核心基因的挖掘。如果模块中一个基因同时具有较大的MM和GS，则该基因被认为是模块中的核心基因，将MM＞0.7 和GS＞0.35 定义为候选的核心基因，然后利用Cytohubba 筛选的中枢基因与模块筛选的核心基因取交集，并将交集中的基因定义为最终的关键基因。

1.6 关键基因的生存分析及差异分析的表达Kaplan-Meier plotter 是基于EGA、TCGA 和GEO 数据库评估大量基因对生存影响的常用网站工具，利用Kaplan-Meier plotter 验证9 个关键基因与肺癌患者预后总生存率的关系。GEPIA（http：//gepia.cancer-pku.cn/）是一个在线的基因表达谱动态数据分析数据库，可用于分析癌症和正常组织之间的表达差异以及总生存率，进一步验证关键基因的mRNA表达水平［20］。HPA（https：//www.proteinatlas.org/）提供了大量人类蛋白质的表达谱，呈现为大多数人类组织的免疫组织化学（IHC）等实验数据的蛋白质表达谱数据库［21］。用免疫组化法（IHC）从人蛋白图谱数据库（HPA）中检测肺腺癌与正常组织之间生存相关基因的蛋白表达。

1.7 预后模型的构建和验证 Cox 回归模型是一种以生存时间和生存结局为变量，可同时分析多种因素对生存期影响的半参数回归模型，将从TCGA网站下载的患者临床数据，去除总生存率缺少的数据后将表达和生存数据合并，然后将数据集随机平均分为训练集和验证集，使用训练集建立模型并在验证集进行验证，将筛选的GEO 样本和TCGA 样本均存在差异的479 个基因，利用训练集中的生存数据使用R 软件“survival”生存分析软件包进行单变量Cox比例风险回归分析得到与预后显著相关的基因（P＜0.01）［22］，然后通过glmnet 程序包以生存状态为应变量，筛选出的基因表达值作为反应变量进行1 000 次Lasso 回归分析对基因个数进行降维处理，从而降低模型的误差获得广义的线性模型［23］，而后进行多因素Cox 比例风险回归分析，获得风险基因并构建风险预后模型［24］。该模型使用疾病风险评分作为预后状态的预测因子，疾病风险评分由多变量Cox 比例风险回归分析的参数β 和样本中每个基因的表达量确定［25］。利用预后模型分别对验证集和训练集进行风险评分的计算，依据风险指数的中位数分别将验证集和训练集分为高、低风险组，结合生存信息绘制生存曲线得出高、低风险表达生存状况，评价模型预测效果是否显著（P＜0.05），在这个过程中使用的统计方法是对数秩检验。使用R软件“survival ROC”包计算时间依赖的受试者工作曲线（ROC 曲线）评估回归模型在1 年、3 年、5 年生存期的预测能力［26］，AUC＞0.5时而且越接近1，预后越好。利用生存时间和基因风险模型分别绘制散点图和高低风险热图，并通过验证集验证回归模型在预测肺腺癌患者生存预后的价值和稳定性，以此来证明得到的风险评分是合理的。此外，为了使模型更有效地应用于临床过程，将临床信息（性别、年龄、分期）纳入预后模型，剔除临床资料缺失的样本，共获得480份样本，利用这些样本风险评分和临床信息进行列线图的绘制。

2 结果

2.1 筛选差异表达基因经过对3 组GEO 基因芯片进行合并及数据标准化之后共有104个正常肺样本和163 个肺腺癌样本，进行批次矫正用以消除GSE43458、GSE27262 和GSE10072 的批次效应（图1A），然后在合并后的GEO 微阵列数据集中得到337 个显著下调基因和154 个显著上调基因（图1B、C），从包含59 个正常样本和535 个肺腺癌样本的TCGA 数据集中得到2 101 个下调基因1 481 个上调基因（图1E、F）。将两个数据集取交集得到148 个上调基因和331个下调基因（图1D）。

图1 差异表达基因热图及火山图Fig.1 Heatmap and volcano map of DEGs

2.2 差异基因的GO 及KEGG 分析将筛选出的479 个差异基因通过DAVID 进行功能和途径的富集，利用GO 分析，将所有差异基因同时富集到BP、CC、MF 这3 种生物学关系中，结果表明：148 个上调的差异基因主要参与核分裂、有丝分裂姐妹染色单体分离、核仁染色体分离以及细胞外基质组织等生物过程，其产物主要参与有丝分裂的纺锤体、胶原三聚体复合体、中间体、染色体上的着丝粒等细胞组分，发挥丝氨酸内肽酶活性、血小板衍生生长因子结合、蛋白酶结合、金属内肽酶活性、糖胺聚糖结合、丝氨酸水解酶及肽酶活性等生物学分子功能（图2A）。涉及的信号通路主要包括：细胞周期、蛋白质的消化吸收、ECM-受体相互作用、P53 信号通路、卵母细胞的减数分裂、孕酮介导的卵母细胞成熟、IL-17 和松弛素信号通路等（图2B）。331 个下调的DEGs 涉及的生物学过程主要包括：血管系统发育生成的调节、阿米巴样细胞迁移、细胞-基质黏附、组织和上皮细胞的迁移、负调控生长以及对糖皮质激素的反应；涉及的细胞学组分主要包括：含胶原蛋白的细胞外基质、细胞-细胞连接、膜筏、质膜的外侧、黏着斑、细胞-底物连接、血小板α 颗粒等；参与的分子生物学功能主要包括：酰胺结合、肽结合、糖胺聚糖结合、细胞因子结合、生长因子结合、跨膜受体蛋白激酶活性、淀粉样蛋白-β 结合、转化生长因子-β 结合、跨膜受体蛋白丝氨酸/苏氨酸激酶活性（图2C）。KEGG 信号通路主要包括细胞因子-细胞因子受体相互作用、细胞黏附分子、血管平滑肌收缩、补体和凝血级联、cAMP信号通路等（图2D）。

图2 差异基因的GO和KEGG富集分析Fig.2 Enrichment analysis of differentially expressed genes by GO and KEGG

2.3 蛋白互助网络的构建及中枢基因鉴定基于String 数据库利用Cytoscape 软件对差异表达基因进行PPI网络的构建（图3A），包括478个节点和816个边缘，首先使用5 种方法分析前30 位基因，取共有的基因为LUAD 的中枢基因，得到的19 个中枢基因分别为：ASPM、AURKA、CENPF、CEP55、DLGAP5、KIF4A、MELK、NCAPG、NDC80、NEK2、NUSAP1、PBK、PRC1、PTTG1、RRM2、TOP2A、TTK、KIF20A 和TPX2（表2）。利用Cytoscape 的插件MCODE 获得最显著的模块（图3B），可见中枢基因都位于最显著模块而且都为上调基因。GO 富集分析表明，在生物过程中，该模块的基因主要在细胞分裂和有丝分裂核分裂以及染色体分离中富集；细胞组分分析表明，基因在纺锤体、染色体、中间体中明显富集；分子功能分析表明，这些基因主要参与ATP 和部分蛋白质的结合（图3C）。KEGG 分析表明这些基因主要参与细胞周期和卵母细胞减数分裂（图3D）。

表2 多种CytoHubba方法中枢基因的排序Tab.2 Sequencing of central genes by various cytohubba methods

图3 蛋白互助网络的可视化及最显著模块的分析Fig.3 Visualization of PPI network and analysis of most significant modules

2.4 关键基因的筛选利用TCGA 数据集中提取的3 582个差异基因表达谱，选取软阈值β=3建立基因调控网络（图4D），结果显示绿松石色模块与正常样本表型相关系数最大为0.82，蓝色模块与肺腺癌样本表型相关系数最大为0.54（图4A），另外根据各模块间的Pearson 相关系数也发现蓝色和绿松石色一致性最大，因此选择蓝色模块为目的模块，模块中MM＞0.7 和GS＞0.35 的基因定义为核心基因，绿松石色和蓝色基因分布如图4B、C。另外，经过cytoscape筛选的19个中枢基因均位于蓝色模块，GO（图4E）和KEGG（图4F）分析结果表明，蓝色模块与有丝分裂、染色体分离、细胞周期、DNA 的转录复制、p53 信号通路以及卵母细胞的减数分裂等关系更为密切，可能与癌细胞过度增殖有关，其模块内的基因可能对药物开发有重要的作用。核心基因和PPI网络中识别的中枢基因共有的基因作为最终的关键基因，分别为ASPM、CEP55、DLGAP5、KIF4A、MELK、NEK2、RRM2、TOP2A、TPX2。

图4 WGCNA分析与最显著模块基因富集分析Fig.4 WGCNA analysis and most significant module gene enrichment analysis

2.5 关键基因的预后分析及表达差异在PPI 网络和WGCNA 共同筛选获得了9 个关键基因，这些基因可能在肺腺癌的发生发展进程中起关键作用，利用Kaplan-Meier 曲线分析得出这9 个关键基因对患者的总生存时间有着显著影响（P＜0.01，图5），为了进一步验证，利用人类蛋白图谱数据库获得癌症和正常组织中9种基因蛋白水平的免疫组织化学染色图像，结果表明除ASPM 无相关数据之外，其余基因在LUAD 中均有显著上调（图6A），另外通过GEPIA 数据库分析上述基因在基因水平上肺腺癌与癌旁样本之间均存在显著差异且均在肺腺癌组织中呈现高表达状态（图6B），进一步说明这些基因在肺腺癌的发生发展中有一定作用，提示这些基因可能成为预后的分子标志物和治疗靶点。

图5 9个hub基因的总生存率（OS）分析Fig.5 Overall survival（OS）analysis of 9 hub genes

图6 验证核心基因表达水平Fig.6 Validate expression level of critical genes

2.6 预后模型的构建将表达和生存数据合并后的494 个TCGA 数据集样本分为训练集和验证集，为保证能预测出有效的预后模型，首先使用训练集的生存数据对479 个差异基因进行单因素Cox 比例风险回归分析，共鉴定出34个对预后有显著影响的基因（P＜0.01），然后通过Lasso 回归分析，可以得到19 个基因进行后续分析，进一步使用多变量Cox 比例风险回归分析，共获得12 个风险基因（图7A），分别为CA4、ENO1、FBLN5、FZD4、INAVA、NEK2、RRAS、SEMA5A、TIMP1、TMPRSS11E、EFNB2、AKAP12，进行风险预后模型的构建，即Risk score=（0.001×ENO1）-（0.208×CA4）+（0.006×FBLN5）+（0.041×FZD4）+（0.055×INAVA）+（0.075×NEK2）+（0.006×RRAS）+（0.083×SEMA5A）+（0.001×TIMP1）+（0.013×TMPRSS11E）+（0.018×EFNB2）+（0.006×AKAP12），通过风险得分算出高低风险组，分别在训练集和验证集进行生存分析，得出低风险组的患者生存状况明显优于高风险组（图7B、C）。使用ROC 曲线对模型的预测性能进行评估，结果可见：训练集中使用ROC 曲线对风险模型的预测AUC 分别为0.785、0.748、0.771（图7D～F），验证集中得出AUC 分别为0.736、0.706、0.621（图7G～I），另外可从生存时间和风险评分绘制的散点图中看出，随着风险得分的增加，死亡的患者也增加，存活时间相对减少，由此可见模型有相对较好的预测能力（图8）。

图7 基因风险模型的构建Fig.7 Construction of gene risk model

图8 风险模型得分与生存时间、临床信息的关系Fig.8 Relationship between risk model score and survival time and clinical information

3 讨论

肿瘤的发生发展涉及多个环节、因素和阶段，而细胞周期的改变是驱使细胞向恶性转化的关键一步，只有突破细胞周期的调控才可以抑制肿瘤的发生发展。随着高通量测序技术和基因微阵列的高速发展，可以检测到一些基因的改变与疾病的关系，为疾病的诊断及预后提供一定的理论帮助，由于不同平台或者数据集中小样本会存在局限性，本文通过多个数据集进行整合，分别通过PPI 网络和WGCNA 共表达分析进行关键基因的挖掘，PPI 网络是基于互助的蛋白质网络，WGCNA 是基于基因之间的相关性构造的网络，两者相结合为新的预后基因的筛选提供了巨大潜能，首先对3 组GEO 数据集和TCGA 数据集进行标准化处理，之后将3 组GEO数据集进行合并和批次矫正。通过生物信息学分析，共得到479 个差异基因（上调148 个、下调331 个），GO 分析表明主要与细胞分裂增殖、周期调控、减数分裂和有丝分裂核分裂以及染色体分离等生物过程相关，主要参与组成纺锤体、染色体、中间体等细胞组分并参与ATP 和部分蛋白质的结合；KEGG 分析表明这些基因主要参与细胞周期和卵母细胞减数分裂。最终确定了9 个与LUAD 患者预后明显相关的关键基因，分别为ASPM、CEP55、DLGAP5、KIF4A、MELK、NEK2、RRM2、TOP2A、TPX2。

细胞增殖是癌症的特征，而恶性表型特征不受控制的基础就是细胞周期的去调控，癌症遗传学已经表明，生长信号网络中的过度激活突变，加上肿瘤抑制蛋白功能的丧失，推动了癌基因的增殖，细胞周期引擎位于复杂的致癌信号网络的汇合点下游，是肿瘤诊断和治疗的重要靶点，它的失控是所有癌症细胞异常增殖的核心［27］。9 个关键基因多通过纺锤体和中心体形成来参与影响细胞周期的进程，在人类多种恶性肿瘤中发现了异常表达水平，有可能成为抗癌治疗的靶点。人类异常纺锤体样小头畸形相关蛋白ASPM 产物多位于纺锤体和中心体，主要使细胞有丝分裂时纺锤体向两极运动，并且维持细胞质的均等分裂［28］，在多种癌症中高表达。相关研究显示ASPM 在胶质母细胞瘤、前列腺癌中的表达水平与肿瘤的病理分级及临床分期密切相关［29］。最新研究显示ASPM 在肺腺癌中高表达，并与生存率、临床分期及预后相关［30］。中心体相关蛋白CEP55 主要功能为锚定微管聚合相关蛋白和参与纺锤体形成，并与中心体相偶联，磷酸化后发挥调控细胞周期的作用，达到对细胞增殖的调控［31-32］，研究表明CEP55 的高表达可以促进癌症的增殖、迁移和侵袭，例如乳腺癌，前列腺癌，肾癌等［33-37］。JING等［38］发现CEP55在非小细胞肺癌组织中的表达显著增加，并且其过度表达与患者的不良预后相关。DLGAP5 是一种有丝分裂纺锤体蛋白，促进微管蛋白聚合物的形成，在纺锤体组配中起重要作用，可作为信号分子具有重要的生物学功能［39-40］。BRANCHI 等［41］研究显示，DLGAP5 的下调导致结直肠癌的侵袭和迁移潜能显著降低。染色体相关驱动蛋白KIF4A 是一种基于微管的运动蛋白，是染色体浓缩和分离机制的重要组成部分，在有丝分裂的多个步骤中发挥作用，并对调节后期纺锤体、胞质分裂、中间带形成和胞质分离期间染色体的完整性发挥重要作用，肿瘤中高表达可增强肝细胞癌、口腔癌和乳腺癌的增殖和侵袭［42-46］。相关研究显示KIF4A 可作为肺癌的预后生物标志物和治疗靶点［47］。

MELK 是一种细胞周期依赖性的丝/苏氨酸蛋白激酶，在有丝分裂期间参与细胞周期、胞质分裂、mRNA 剪接和细胞凋亡，是治疗多种癌症的理想治疗靶点，在癌细胞存活中起着不可或缺的作用［48-49］。其高表达与人类星形细胞瘤和前列腺癌的恶性程度相关并且与乳腺癌患者的不良预后相关［50-51］。目前研究表明MELK是小细胞肺癌一个有前途的治疗靶点，其抑制剂OTS167 可作为一类新的抗SCLC 药物进行临床评估［52］。NEK2 是位于中心体的丝氨酸/苏氨酸激酶，通过参与有丝分裂中心体的复制和纺锤体的装配对细胞的分裂增殖进行调节［53-54］。表达失调会造成染色体不稳定（CIN）和非整倍体，这也是许多肿瘤的标志性变化［55-56］。据报道，NEK2表达增加与肿瘤进展有关，在多种肿瘤中显著表达并对预后产生不良影响，如胰腺导管腺癌、前列腺癌，结肠癌［57-59］。ZHONG 等［60］研究表明NEK2 可能是非小细胞肺癌患者预后不良的更有效的肿瘤增殖标志物。RRM2 是DNA 合成和修复的限速酶，是细胞凋亡的重要调控基因，已被报道是胶质瘤中具有功能意义的潜在预后生物标志物［61］，在非小细胞肺癌和细胞系中异常上调预示着预后不良，有研究显示敲除RRM2通过内在途径导致头颈鳞状细胞癌和非小细胞肺癌细胞系的凋亡［62］。拓扑异构酶IiαTOP2A 是在转录过程中控制和改变DNA 拓扑状态的酶，参与了多种恶性肿瘤细胞的有丝分裂过程［63］。miR-144-3p 通过靶向TOP2A 抑制胶质瘤细胞的生长并促进其凋亡［64］。在乳腺癌中与erbb2 同时缺失或扩增，很可能是预测蒽环类药物受益患者亚群的有用标志物［65］。TOP2A 的高表达与非小细胞肺癌中癌细胞的增殖和侵袭以及干扰密切相关［66］。已被广泛用作NSCLC 的独立预后因子，其高表达与NSCLC 患者的不良预后相关［67］。靶向非洲爪蟾驱动蛋白样蛋白2TPX2 是一种微管相关蛋白，参与纺锤体的组装并维持其结构稳定，调节有丝分裂的关键点，在多种人类癌症中过度表达，并促进癌症发展。有报道显示在前列腺癌中敲除TPX2 能诱导细胞周期静止和凋亡并且降低细胞的侵袭能力和抑制细胞的增殖。TPX2 沉默通过调节PI3K/AKT 信号抑制肺腺癌和肝细胞癌增殖［68-69］。其高表达与非小细胞肺癌的不良预后有关，可能为预后相关基因［70］。

本研究建立了一个用于预测患者生存率的预后模型，该模型包含12 个关键基因，分别为CA4、ENO1、FBLN5、FZD4、INAVA、NEK2、RRAS、SEMA5A、TIMP1、TMPRSS11E、EFNB2、AKAP12，碳酸酐酶ⅳ（CA4）是人类12 种活性同工酶的一种，其低表达可以促进癌细胞的增殖，据报道CA4 是一种新的结直肠癌肿瘤抑制因子，可以作为结直肠癌复发的独立生物标志物［71-73］。在模型中系数最大，说明CA4 是LUAD 中一个非常重要的预后因素，对判断患者预后具有重要的参考价值。烯醇酶1（ENO1）作为一种糖酵解酶，在葡萄糖代谢中起着关键作用，并导致许多癌症的肿瘤进展，新的研究证明通过PI3K/AKT 途径促进非小细胞肺癌的糖酵解、增殖、迁移和侵袭［74-75］。FBLN5 是Fibulin 蛋白家族成员之一，其表达水平与肺癌等多种肿瘤的发生相关，并能够影响肿瘤的增殖侵袭及预后进展，因此有可能成为肿瘤诊断新的分子标志物。研究发现FBLN5 能够通过特殊机制调控肿瘤微环境从而调控肿瘤的发生［76］。FZD4是卷曲基因家族的成员，据报道，肿瘤抑制剂miR-493通过抑制FZD4的表达来抑制癌细胞的生长和迁移能力［77］，而且已证实FZD4的敲除导致膀胱癌细胞迁移和侵袭显著减少［78］。先天免疫激活因子INAVA，是一种已知为克罗恩病风险基因的蛋白质编码基因［79］，通过对肺腺癌患者染色体基因的整体分析，发现INAVA 在肺腺癌的发展和进展中发挥重要作用［28］。已被证实，INAVA 通过上调基质金属蛋白酶9的表达促进甲状腺乳头状癌和肝癌侵袭性［80］。RRAS 基因的研究较少，功能、机制尚未被充分了解。SEMA5A是存在于无脊椎动物和脊椎动物中的跨膜蛋白，在多种癌症中高表达并且与预后有关［81-82］。已被证明在试管内能促进胃癌细胞系的迁移和侵袭［83］。癌组织中SEMA5A 在转录和翻译水平的下调与非吸烟女性非小细胞肺癌患者的低存活率有关［84］。TIMP1是基质金属蛋白酶的抑制酶，其功能与基质金属蛋白酶（MMPs）相反，有研究表明TIMP1 与大多数实体癌的侵袭和转移潜能密切相关，并且在肺癌中表达异常并可作为其侵袭转移的潜在的分子标志［85］。TMEM185A 可通过下调EGFR/AKT 信号通路，使细胞在凋亡刺激下对凋亡敏感，从而抑制食管鳞状细胞癌的发展［86］，但最近发现在膀胱癌患者中又显著上调，与膀胱癌患者的整体存活率显著相关［87］。EFNB2 是一种膜锚定配体，属于受体酪氨酸激酶，能促进胶质瘤和黑色素瘤的细胞迁移、侵袭和血管生成，也是卵巢癌和食管鳞状细胞癌的不良预后指标［88-91］。EFNB2 基因的敲除抑制结肠直肠癌细胞的生长，逆转了恶性表型并削弱了耐药性［92］。α-激酶锚蛋白12（AKP12）是一种细胞支架蛋白，其表达在多种恶性肿瘤中被抑制，是一种潜在的抑癌基因，不仅能够抑制肿瘤发生，而且能够抑制肿瘤转移。研究证明AKAP12 基因与肿瘤患者的预后呈正相关［93-94］；在肺腺癌肿瘤组织中表达显著低于正常肺组织，在癌组织中有淋巴结转移的低于不伴有淋巴结转移的，而且肺癌临床分级越高，AKAP12 的表达量越低［95］。

综上所述，本研究利用GEO 数据库的微阵列数据与来自TCGA 的RNA 测序数据进行整合，以确定中枢基因和更重要的关键基因。最后确定了9个与LUAD 发病机制和进展相关的关键基因。这些基因在肺癌的细胞周期及其异常行为中都起着重要作用，表明这些基因在LUAD 治疗以及预后中具有巨大的潜力。此外，我们进行了生存分析，并建立了一个Cox 比例风险模型来识别预后的生物标志物。构建了一个由12 个基因组成的预测总生存率的基因标志。这些结果将为进一步研究LUAD 的发病机制和药物治疗提供参考。然而，我们的研究所有数据为公共数据库的数据分析并使用其他数据库和临床数据进行了验证，但缺乏实验验证仍然是本研究的局限性，需要进一步的实验研究来证实从生物信息学分析得到的预测。