APP下载

基于癌症基因组图谱的结肠癌预后相关突变基因群的挖掘与分析

2019-11-07康争春鄂继福徐晓东王颢于恩达

中华结直肠疾病电子杂志 2019年5期
关键词:突变型核苷酸基因突变

康争春 鄂继福 徐晓东 王颢 于恩达

结肠癌(colon cancer)是我国最常见的消化道恶性肿瘤之一,并随着环境、人们生活方式、饮食习惯的改变发病率不断上升,严重威胁我国人民生命健康[1]。手术根治性切除仍然是结肠癌最有效的治疗方式,早期诊断可以很大程度上提高手术效果,提高术后生存率[2]。术后肿瘤的分子检测对结肠癌进行危险度分层,针对高危患者针对性治疗也能极大提高术后生存率,随着高通量测序时代的到来,大量的结肠癌肿瘤标志物应运而生[3-5]。单核苷酸多态性(single nucleotide polymorphism,SNP)作为最典型的第三代基因遗传标记,具有普遍性、广泛性、多样性的特点,是研究结肠癌生物标志物的理想手段[6]。本研究通过生物信息学手段,对癌症基因组图谱(The Cancer Genome Atlas,TCGA)中单核苷酸突变数据进行挖掘,筛选突变后显著影响基因表达进而显著影响结肠癌患者预后的基因突变,以期为结肠癌预后提供新的肿瘤标志物。现报道如下。

资料与方法

一、患者和组织样本数据的下载及预处理

首先,从癌症基因组图谱官方网站(TCGA,https://cancergenome.nih.gov/)下载结肠腺癌组织样本单核苷酸突变数据(数据类型为Masked Somatic Mutation)、表达谱数据、临床病理数据。选择TCGA.COAD.varscan文件进行数据整理。单核苷酸突变数据利用Perl 5.26.2软件,对TCGA.COAD.varscan中的组织样本ID、检测基因、是否突变等信息进行抽提。表达谱数据利用Perl 5.26.2软件,将原始数据转化为gene id表达矩阵,并将gene id改写成gene symbol,对表达谱信息进行编码蛋白的信使RNA(messenger RNA,mRNA)的抽提。

二、计算并统计结肠癌组织样本检测基因突变数目并对突变数目前10位的基因进行可视化

利用Perl 5.28.2软件对上述抽提信息所得文件进行计算并统计,在R 3.5.0环境下,加载GenVisR程序包,对突变数目前10位的基因进行瀑布图可视化,瀑布图显示内容包括:突变数目前10位的基因的组织样本数目和百分比、突变类型、突变与TNM分期和性别对应关系、突变效应等统计。

三、筛选突变后表达水平有显著性差异合并生存率有显著差异的基因

首先筛选突变后表达水平有差异的基因,将表达谱数据所检测基因和单核苷酸突变数据所检测基因取交集,将包含两类数据的基因整合到一个文件,在R 3.5.0环境下,利用wilcoxon秩和检验进行具有显著表达差异的基因筛选,取P<0.05为差异具有统计学意义。将单核苷酸突变数据和临床预后信息的组织样本信息取交集,将包含两类数据的组织样本整合到一个文件,去除生存时间小于30天的组织样本,在R 3.5.0环境下,利用survival程序包进行具有显著生存差异的基因筛选,取P<0.05为差异具有统计学意义。最后取两者交集,为突变后表达水平有显著性差异合并生存率有显著差异的基因。

四、计算并统计突变后表达水平有显著性差异合并生存率有显著差异的基因突变数目并进行可视化

利用Perl 5.28.2软件对上述步骤中结果中突变数目前10位的基因进行计算并统计基因突变位点数目,对突变数目前10位的基因进行瀑布图可视化,瀑布图显示内容包括:突变数目前10位的基因的组织样本数目和百分比、突变类型、突变与TNM分期和性别对应关系、突变效应等统计。

结 果

一、组织样本的一般情况

共有396个检测单核苷酸突变数据的结肠癌组织样本纳入研究,共有521个检测表达谱数据的结肠癌组织样本纳入研究。

二、结肠癌组织样本检测基因突变一般情况及可视化

共发现19 640个基因突变,突变数量前10位的基因分别为:APC,TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,FAT4,RYR2。突变数量前10位突变基因的数量及每个突变基因的突变位点数量如表1所示。这10个突变率最高的基因分布在385个组织样本中,占到了总样本数的97.2%。APC突变的主要类型为无义突变、框架移位插入突变和框架移位删失突变;TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,FAT4,RYR2突变的主要类型为错义突变;备受关注的KRAS一共有173个突变组织样本,其中170个突变类型为错义突变,3个为3′非翻译区突变;PIK3CA的突变也较为特殊,一共有114个组织样本突变,其中110个突变为错义突变,3个框内删失突变,1个3′非翻译区突变。其中突变大部分为非同义突变,改变了所编码氨基酸。各基因突变类型和TNM分期、性别未在图中发现明显相关性差异。如图1所示。

三、筛选突变后表达水平有显著性差异合并生存率有显著差异的基因结果

共筛选出了42个基因突变,分别为EIF3J,GAS2L1,DBI,ZNF407,ZC3H18,USP7,METTL17,USP40,BCR,H2AFJ,MBD6,C8orf46,CD226,DYNC1I1,HLA-DQA1,ATIC,OR51I2,ZWILCH,ANXA2,EDIL3,TMEM256-PLSCR3,ZNF385A,HMG20A,LGALS9B,FDCSP,KCNH2,RNF148,SNTN,ZDHHC9,MED9,NOLC1,C11orf63,ACO1,OR5M11,CDA,SEMA4C,ASAH1,TRIM46,METTL23,WDR45,LST1,HES2。其中突变数量前10位基因突变一般情况如表2所示。突变数目最多的是MBD6,为31个,占到了总样本数量的7.8%;其次是BCR,为28个,占到了总样本数量的7.1%。二者的突变型和野生型表达差异和生存差异如图2(图2A、图2B)、图3(图2A、图2B)所示,并且在MBD6的rs762648935位点也发现突变后的显著差异表达,见图4。

表1 突变数量前10位基因基本信息

图1 突变数量前10位基因瀑布图

表2 突变型和野生型显著差异表达及生存曲线有显著差异的突变数量前10位基因基本信息

图2 MBD6突变与mRNA表达、患者预后的相关性示意图。图2A:MBD6的野生型、突变型与mRNA表达水平的相关性,MBD6突变后其表达水平显著降低,P=0.002;图2B:MBD6野生型、突变型患者的总生存期生存曲线图,突变型患者生存期显著缩短,P=0.017

图3 BCR突变与mRNA表达、患者预后的相关性示意图。图3A:BCR的野生型、突变型与mRNA表达水平的相关性,BCR突变后其表达水平显著升高,P=0.001;图3B:BCR野生型、突变型患者的总生存期生存曲线图,突变型患者生存期显著缩短,P=0.028

四、突变后表达水平有显著性差异合并生存率有显著差异的基因突变可视化结果

图4 MBD6(rs762648935位点)表达情况

突变后表达水平有显著性差异合并生存率有显著差异的基因突变共42个。这42个突变率最高的基因分布在136个组织样本中,占到了总样本数的34.3%。MBD6突变的主要类型为框架移位删失突变和错义突变;BCR、ZNF407突变的主要类型为错义突变和沉默突变;值得注意的METTL17主要突变类型为内含子突变,H2AFJ主要突变类型为3’端突变,EIF3J主要类型为框架移位插入突变;大多数其他基因突变以错义突变为主,限于篇幅,不赘述。其中突变大部分为非同义突变,改变了所编码氨基酸。MBD6突变主要发生于Ⅰ期、Ⅱ期和女性患者,BCR突变主要发生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期极少见。有趣的是,ZC3H18突变主要集中于男性患者组织样本。见图5。

讨 论

结肠癌作为我国最常见的消化道恶性肿瘤之一,其高发病率和病死率严重威胁我国人民生命健康,对其基础机制研究对于结肠癌的防治有着十分重要的意义。目前针对结肠癌治疗的难点依然在于没有灵敏度和特异度均高的生物标志物,不能进行及时有效且经济的早期诊断和术后危险分层针对性治疗。SNP由于其数量巨大、分布广泛、易检测等独特优势,是目前研究最多,也是最有潜力的第3代分子标记,是研究结肠癌生物标志物的理想手段[6]。

图5 突变型和野生型显著差异表达及生存曲线有显著差异的突变基因瀑布图

目前有许多SNP作为结肠癌的发生、发展、预后标志物的报道。Hahn-Strömberg等[7]发现CLDN1和CLDN7 CLDN1(c.369C>T)与结肠癌风险增加有关,CLDN7(c.590C>T)与肿瘤分化和结肠癌淋巴结受累有关。Dai等[8]通过研究证明,XRCC1和ERCC1多态性可能影响CRC患者的易感性,化疗反应和存活率。Zaanan等[9]则通过实验证实ERCC1和XRCC1基因多态性的相关性可能影响FOLFOX辅助化疗治疗的Ⅲ期结肠癌患者的预后。Slattery等[10]也有相关发现,他证明了FLT1中的4个SNP与结肠癌存活相关,而KDR中的3个SNP与直肠癌诊断后的存活相关。然而,上述研究多局限于一个或两个孤立的SNP及其位点,结肠癌是多基因、多因素、多过程的疾病,其进展受到了多基因的共同作用及调控,每个SNP在疾病进展中发挥的作用都相对较小,因此需要将SNP看成一个整体和组合来研究其作用机制,单独研究几个SNP存在其不足及局限。

本研究主要借助TCGA公共数据库,对TCGA数据库收集的结直肠癌患者组织样本单核苷酸突变测序数据进行分析研究,筛选出了如 MBD6,BCR,ZNF407,ZC3H18,USP7,C11orf63,TRIM46,USP40,DYNC1I1,ATIC 等42个突变后显著影响基因表达进而显著影响患者预后的突变基因。对其进行瀑布图可视化发现,突变样本占到了总样本数的34.3%,主要以错义突变为主。作为突变数量最多的基因MBD6突变主要发生于Ⅰ期、Ⅱ期,推断其在结肠癌发生、发展的早期阶段起到了十分重要的作用,其主要突变发生于女性患者,这也提示我们女性患者要重点关注其突变情况。BCR突变主要发生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期极少见,提示我们晚期结肠癌患者检测BCR的突变实用性不高,也可能是在晚期结肠癌分子调控中,BCR很少发挥重要作用。ZC3H18突变主要集中于男性患者组织样本,我们则需要在男性患者中关注其突变情况,更好地对男性结肠癌患者危险分层,针对性治疗。

经查阅文献,挖掘的42个突变基因在结肠癌的发生、发展、预后中发挥的重要作用已经得到肿瘤科研工作者的实验证实,如MBD6[11]在编码序列中具有单核苷酸重复(外显子7中的C7和外显子9中的G8),可能是具有微卫星不稳定性的结直肠癌中的突变靶标;PI3K/AKT介导的WDR5上调通过直接靶向ZNF407[12]促进结直肠癌转移;STAT3-USP7-P53分子网络控制结肠癌的发展[13]。也有一些突变基因在其他恶性肿瘤中发现重要作用,但未在结肠癌中报道,如EDIL3发现在乳腺癌[14]、胰腺癌[15]、肝细胞癌[16]中均对肿瘤的发生、发展起到重要调控作用,提示了一个很好的结肠癌研究思路。但大部分突变基因并未发现相关研究。显示了本研究的可靠性、科学性及对今后结肠癌基础机制研究以及生物标志物研究的参考价值。

综上所述,我们利用TCGA数据库挖掘结肠癌显著差异表达合并生存率显著差异的突变基因并进行相关生物信息学和临床病理信息的分析,这些发现有助于帮助我们深入理解结肠癌发生、发展过程中的关键基因突变群,从整体上把控基因突变群对结肠癌发生、发展、转归的影响,并为将来的调控机制研究提供参考,有可能作为结肠癌预后标志物和治疗靶点应用于临床。

猜你喜欢

突变型核苷酸基因突变
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
EPHX2 rs751141变异位点对肾脏微炎症的影响及其分子机制研究
H3K27M突变型与野生型儿童弥漫内生型脑桥胶质瘤的MRI鉴别诊断
Acknowledgment to reviewers—November 2018 to September 2019
基因突变的“新物种”
“基因突变和基因重组”复习导航
BRCA1/2突变型乳腺癌的治疗策略△
先天性巨细胞病毒感染致connexin26基因突变新生儿听力随访及干预
肾脏肿瘤中突变型p53和CD44v6基因产物的表达分析