APP下载

通过生物信息学分析确定结直肠癌肝转移的枢纽基因

2020-04-20刘义朱亚珍韦成江冯雁林源

世界最新医学信息文摘 2020年24期
关键词:共表达原发灶补体

刘义,朱亚珍,韦成江,冯雁,林源★

(1.广西医科大学附属肿瘤医院胃肠外科,广西 南宁;2.广西医科大学附属肿瘤医院实验研究部,广西 南宁)

0 引言

结直肠癌(CRC)是全球最常见的恶性肿瘤之一[1]。尽管在过去的几十年中诊断方法和综合治疗得到不断改善,但CRC 的死亡率在中国癌症死亡率仍然排名第五[2]。CRC 的肝脏转移是最常见的转移部位。据估计,在初次诊断时就已发现有15 - 25%的结直肠癌患者同时存在肝转移。结直肠癌肝转移提示癌症患者预后不良。肝转移CRC 患者的5 年总体生存率只有25 40%,明显低于无肝转移的患者(69.5-95.7%)[3]。因此,确定其转移发生的分子学机制对结直肠癌肝转移的诊疗策略具有重要的临床意义。

加权共表达网络分析(WGCNA)可以作为数据挖掘工具或基因筛选方法来发现高度相关基因的簇(模块)。它被广泛用于在各种癌症中寻找中枢基因。例如,Colin 等人使用WGCNA 和UBE2S 从大规模乳腺癌数据中识别了11 个基因共表达簇,这可能表明乳腺癌预后较差[4]。

本研究了使用该算法来识别与肝转移特征相关的网络枢纽基因(hubgene),挖掘结直肠癌肝转移过程中的关键基因及调控网络。

1 材料和方法

1.1 纳入芯片

通过检索GEO(https://www.ncbi.nlm.nih.gov/geo/)数据库,关键词设置为“colorectalcancer,gene expression,microarray”,选取了编号GSE41258 的芯片数据集。该芯片基于GPL96 平台,包含结直肠癌原发灶、转移灶和正常结肠组织共390 例样本。根据我们的研究目的,挑选其中47 例结直肠癌肝转移灶和186 例原发灶的原始芯片数据。使用R 软件的Affy 包读取数据并使用RMA算法对表达数据进行预处理,得到标准化以后的基因表达矩阵。

1.2 共表达网络的构建

使用R 软件的WGCNA 包,选取方差位于前25%的基因构建共表达网络。然后对基因进行Pearson 相关矩阵分析,并计算确定β 值,建立无尺度网络,再将邻接转化为拓扑重叠矩阵(TOM),通过层次聚类,将相关性较高的至少30 个基因分成不同模块。计算模块特征基因的差异性,并合并了相关性高的模块。最后计算基因显著性(GS)、基因模块身份(MM)以识别临床特征和基因的相关性,筛选出重要的模块和基因。

1.3 枢纽基因筛选及(protein-protein interaction)PPI 分析

选取候选模块中相关性高的基因,即连接度排在前10%的基因且满足必须满足|MM|>0.80 和|GS|>0.20,两者取交集,即为关键候选枢纽基因上传至String(https://string-db.org/)网站构建PPI 网络,并使用Cytoscape 软件进行可视化筛选。

1.4 枢纽基因在原发灶和肝转移灶中的表达差异分析

提取GSE41258 中的枢纽基因表达量和组织类型数据,用t 检验探索枢纽基因在两种组织中的表达差异。并绘制ROC 曲线,通过ROC 曲线下面积(AUC)识别枢纽基因对两种组织的诊断能力,AUC>0.7 认为有较高的准确性,提示潜在的诊断价值。

1.5 模块基因功能富集

将相关性最高的模块内基因上传至David(https://david.ncifcrf.gov/)进行在线GO 和KEGG 富集分析,P<0.05 并且FDR<0.05 认为是显著富集。

2 结果

2.1 共表达网络的构建

图1 软阈值β 确定、基因模块及目的模块选取

首先通过对GSE41258 研究中47 例结直肠癌肝转移灶和186例原发灶的表达谱芯片数据进行分析,取方差位于前25%的3137个基因纳入了共表达网络分析,定义无尺度网络拓扑拟合指数为0.9,得到最佳软阈值β=5 时的邻接矩阵,见图1-A。基因按照相关性被分成了13 个模块,经模块间相关性分析后合并后得到12个模块,见图1-B。其中与临床性状(是否为肝转移灶)相关性最高(cor=0.59)的为红色模块(MEred)(共243 个基因),用于枢纽基因的筛选,见图1-C。

2.2 枢纽基因的筛选

首先提取红色模块中|GS|>0.2 并且|MM|>0.8 的基因104 个,见图2-A。再计算并提取模块内连接度前10%的基因23 个,两者取交集后得到23 个枢纽基因,见图2-B。

用23 个枢纽基因构建PPI 网络,网络包含18 个节点,86 条边。将PPI 网络导入到Cytoscape 软件进行可视化,见图2-C。取得Degree 值排名前十的基因(HRG、GC、SERPINC1、AHSG、F2、CPB2、AMBP、C8A、F9、KNG1)确定为与肝转移发生最关键的枢纽基因进行下一步研究,见表1。

表1 红色模块枢纽基因

2.3 枢纽基因在原发灶和肝转移灶中的表达差异

绘制散点图可见枢纽基因在肝转移灶的表达量明显高于原发灶(P<0.001),见图3。使用R 软件绘制ROC 曲线,ROC曲线分析显示所有枢纽基因对两种组织都有很好的鉴别能力(AUC>0.8),尤其是AHSG、AMBP、GC 的AUC 均大于0.9,见图4。

图2 枢纽基因的筛选

图3 枢纽基因在原发灶与肝转移灶中的表达差异,红色为原发灶,绿色为转移灶。(GSE41258,n=233)

图4 通过ROC 曲线分析枢纽基因对结直肠癌原发灶和肝转移的区分能力

2.4 模块功能富集分析

为探索红色模块中基因参与的潜在生物学过程和功能,我们进行了GO 和KEGG 的功能富集分析。GO 富集结果显示该模块基因主要参与凝血系统、免疫调节和脂肪代谢的生物学过程,KEGG 主要富集在补体、凝血级联通路和代谢相关通路,见图5。

3 讨论

结直肠癌肝转移是肠癌患者死亡的重要危险因素,然而其发生机制尚未明确。本研究通过WGCNA 的数据挖掘方法,筛选与结直肠癌肝转移临床性状最相关的基因模块,并通过对共表达网络和PPI 网络中共有的23 个候选基因进行进一步筛选,确定了10 个与结直肠癌肝转移密切相关的枢纽基因,并且发现这些基因参与了补体、凝血和代谢通路的调控。

图5 模块基因功能富集

我们研究中共发现了10 个枢纽基因。其中HRG 是一种75 kDa 的单链肝素结合血浆蛋白,由肝脏产生并且mRNA 表达仅限于肝脏,血浆中含量高(100-200 ug/mL)。该糖蛋白具有抗肿瘤和促进肿瘤进展的双重作用[5],但是与肝转移瘤的发生发展尚未见报道。GC 即维生素D 结合蛋白,是一种糖基化的a-球蛋白,是维生素D 及其代谢产物的主要转运体。它参与肌动蛋白和脂肪酸结合、中性粒细胞趋化和巨噬细胞活化[6]。研究发现维生素D 结合蛋白通过调节胰岛素样生长因子-1/Akt 通路和维生素D受体转录,促进上皮性卵巢癌的进展[7]。但是该基因在癌症中的作用还存在争议[6,8-10],功能有待进一步研究。SERPINC1 也被称为抗凝血酶III (ATIII),位于染色体1q23-25.1[11],ATIII 通过抑制凝血因子调节凝血,对上皮细胞具有抗炎作用[12]。研究发现肾癌患者血清和膀胱癌患者肿瘤组织中ATIII 水平的升高,敲除SERPINC1 可以抑制鼻咽癌细胞的生长[13],同时也是调控结直肠癌肝转移的关键基因[14]。AHSG 是一种阴性的人急性期蛋白,主要由肝脏产生。越来越多的证据表明,它是一种多功能蛋白质,能够调节糖尿病和其他代谢疾病的病因[15]并和促进肿瘤细胞的侵袭[16]。CPB2 基因表达受基因多态性和白细胞介素10 等细胞因子的影响,与炎性乳癌患者IL10 mRNA 表达、CD14+细胞发生率及淋巴血管浸润呈正相关[17]。AMBP 在结直肠癌中尚未见报道,但文献报道胃癌患者中AMBP 过表达,晚期胃癌患者血清中AMBP 高表达与紫杉醇卡培他滨化疗反应差有关[18]。据报道,C8A 存在于肝癌细胞株HEP3B 的分泌体中,是膜攻击复合体(MAC)补体系统的末端之一[19],并且有望成为新的肝癌血液循环标志物[20]。KNG1 可以利用选择性剪接产生两种不同的蛋白质-高分子量激肽原(HMWK)和低分子量激肽原(LMWK)。HMWK对于血液凝固和胰舒血管素系统的组装至关重要,Makondi 的研究表明其高表达与结直肠癌转移密切相关,并且发现miR-576-5p 可以靶向F9 调控结直肠癌的转移[21]。

对red 模块的功能富集分析,结果显示模块中的基因主要富集在凝血系统、补体系统和代谢相关的生物学过程。肿瘤引起炎症在肿瘤的发生和发展中起着重要作用。补体系统作为肿瘤促炎的重要组成部分,其激活促进了癌细胞的增殖、去分化和迁移,补体活化调节适应性免疫反应,可能在调节T 细胞对肿瘤的反应中发挥作用[22]。众所周知,脂肪酸代谢途径的改善不仅与癌症的发生发展密切相关,并且与癌症的远处转移息息相关[23,24]。我们的关键模块也富集了补体和凝血级联的通路以及相关代谢通路。同时我们注意到枢纽基因在肝转移灶中明显高表达,并且AUC 面积都大于0.8,对于临床诊断有潜在的应用价值。

总而言之,我们研究通过加权共表达网络识别了10 个结直肠癌肝转移相关的枢纽基因。这些基因可能通过调控凝血系统、补体系统和代谢相关的生物学过程来影响结直肠癌的肝转移,并初步探讨了其潜在的临床诊断价值,这些发现对揭示结直肠癌肝转移的研究进展具有重要意义。

猜你喜欢

共表达原发灶补体
IL-17、IL-35联合补体C3、C4在CHB患者外周血中的表达及与肝纤维化程度的关系研究
SO2引起巨峰葡萄采后落粒的共表达网络和转录调控分析
腹腔镜下原发灶切除术在转移性结直肠癌中的应用
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
戊型肝炎病毒感染对补体系统表达的影响
初始不可切除同时性结直肠癌肝转移的治疗策略
补体因子H与心血管疾病的研究进展
高世代回交玉米矮秆种质的转录组分析
抗dsDNA抗体、补体C3及其他实验室指标对于诊断系统性红斑狼疮肾损伤的临床意义
18F-FDG PET/CT 检测淋巴结转移性鳞癌原发灶的价值