APP下载

利用TCGA公共数据库挖掘乳腺癌预后相关长链非编码RNA生物标志物*

2020-08-04喻冬柯

关键词:共表达生存率乳腺癌

熊 萱, 李 一, 喻冬柯, 张 远△

四川省医学科学院·四川省人民医院 1个体化药物治疗四川省重点实验室,药学部 2乳腺外科,成都 610072

乳腺癌占全球女性恶性肿瘤发病总数的25%,近几十年来,发展中国家的乳腺癌发病率也在持续上升[1]。乳腺癌中又以导管癌和小叶癌较为常见。生物标志物(biomarker)有助于疾病诊断、判断疾病分期或用来评价新药及新疗法在目标人群中的安全性和有效性[2]。随着高通量测序技术的普及和表观遗传学的深入研究,长链非编码RNA(long non-coding RNA,lncRNA)在疾病发生、发展中的作用得到越来越多的关注,被认为对疾病的早期诊断和预后评估有着极高的应用价值[3]。本研究利用公共数据库癌症基因组图谱(The Cancer Genome Atlas,TCGA),下载女性乳腺癌转录组测序数据,利用生物信息学方法筛选差异表达的lncRNAs,并对其与乳腺癌预后的相关性和其可能的生物学功能进行分析。

1 材料与方法

1.1 数据获取

数据来源于TCGA数据库(https://portal.gdc.cancer.gov/),筛选路径如下:“Files”中“Data Category”选择“Transcriptome Profiling”,“Data Type”选择“Gene Expression Quantification”,“Workflow Type”选择“HTSeq-Counts”,“Cases”中“Primary Site”选择“Breast”,“Project”选择“TCGA-BRCA”,“Disease Type”选择“Ductal and Lobular Neoplasms”,“Gender”选择“Female”,为保证数据准确性同时减少计算机运算负荷,在“Race”中选择“Black or African American”。共获取5例癌旁组织(正常对照)和150例癌组织的数据集。其中导管癌126例,小叶癌15例,导管癌混合其他类型癌9例。患者平均年龄(57±14)岁,肿瘤分期为Ⅰ期有9例,Ⅰa期16例,Ⅰb期2例,Ⅱ期2例,Ⅱa期49例,Ⅱb期32例,Ⅲa期20例,Ⅲb期3例,Ⅲc期7例,Ⅳ期4例,4例分期不清(stage x),2例未报告。患者平均生存时间为(3.58±3.61)年。

1.2 数据处理

利用Perl脚本对下载的数据进行合并和ID转换,得到155个样本的基因表达矩阵。随后利用R软件的edger包进行数据标准化并计算差异表达的基因,设定表达水平倍数变化(fold change,FC)的log2绝对值(|log2FC|)大于1,将癌组织基因表达量与正常对照的中位数进行比较,取校正后P(Benjamini和Hochberg提出FDR)<0.05作为筛选标准。

1.3 数据分析

得到基因差异表达的矩阵后,提取其中的lncRNA,再与样本的临床数据(生存时间)相结合,利用R软件的survival包进行单因素Cox回归分析,鉴定其中与生存期显著相关(P<0.05)的lncRNA,再将有显著相关的lncRNA进行多因素Cox回归分析,得到独立风险因素。利用R软件的survcomp包和survival ROC包进行一致性指数(C-index)的计算和ROC曲线下面积的绘制。根据多因素Cox分析得到的风险值(risk score)中位数将患者分为高、低风险组,使用Kaplan-Meier方法对高、低风险组的生存期进行比较,统计方法选用Log-rank。根据高、低风险,绘制生存曲线。

采用在线生存分析的方法验证Cox回归得到的独立风险因素。网站选用lnCAR,lnCAR是专门针对lncRNA的综合数据库,数据源主要来源于GEO(Gene Expression Omnibus)[4]。将基因的名字分别输入lnCAR网站(https://lncar.renlab.org/#1 st-screen),点选生存分析即可。

lncRNA与其潜在的调控靶基因可能有相同的表达模式,本研究利用共表达方式探寻lncRNA的靶基因,采用R软件的limma包对标准化后的基因表达矩阵进行共表达基因的筛选。设定皮尔森相关系数(Pearson correlation coefficient)的绝对值>0.4和P<0.01为显著相关。得到的基因名称映射至在线网站metascape(http://metascape.org/gp/index.html#/main/step1)中,进行基因本体(Gene Oncology,GO)/京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)/Reactome Gene Sets通路分析。与参考数据集比较,P<0.05的条目富集程度具有显著性意义。

2 结果

2.1 差异表达lncRNAs

通过对基因表达矩阵的计算和提取,一共得到168个差异表达lncRNA。与正常组织比较,乳腺癌组织表达增加的差异表达基因有75个,表达降低的差异表达基因有93个。表1列出了差异表达前10的lncRNAs。

表1 150名非裔美国女性导管癌和小叶癌患者转录本表达数据中显著性差异表达排名前10的lncRNAsTable 1 Top 10 up- and down-regulated lncRNAs in 150 African-American women with ductal and lobular cancer

2.2 单因素Cox分析

对所有差异表达的lncRNA进行预后价值分析:通过与临床生存时间相结合做单因素Cox回归,筛选其中有显著性的lncRNA共9个用于进一步的多因素回归分析(表2)。

表2 单因素Cox回归中与非裔美国女性乳腺导管癌和小叶癌患者生存率显著相关的lncRNAsTable 2 LncRNAs with significant impact on survival of African-American women with ductal and lobular breast cancers by univariate Cox regression

2.3 多因素Cox比例风险回归分析

将单因素Cox分析筛选得到的与患者生存率显著相关的lncRNA纳入到多因素Cox比例风险回归分析中,得到的模型包括4个lncRNA:LINC00640(lnc00640)、LINC00506(lnc00506)、PCAT6(prostate cancer associated transcript 6)、HAGLROS(HAGLR opposite strand LncRNA)(图1),其中lnc00640、lnc00506、PCAT6的P<0.05,是独立风险因素。

图1 Cox多因素回归分析lnc00640、PCAT6、HAGLROS、lnc00506在非裔美国女性导管癌和小叶癌患者中的风险比值比森林图Fig.1 Cox multivariate regression analysis of risk ratio of lnc00640、PCAT6、HAGLROS、Lnc00506 in African-American women with duct and lobular breast cancer

将这4个lncRNA(lnc00640、lnc00506、PCAT6、HAGLROS)输入到lnCAR网站中,显示PCAT6和HAGLROS与乳腺癌患者的总生存率显著相关(Log-rank检验P<0.05,验证样本数分别为263和104,均为高加索人),而lnc00506未显示有显著相关(P=0.889,验证样本数为42,高加索人),该网站中未能找到lnc00640与乳腺癌生存期相关的数据。见表3。

表3 lnCAR在线分析lnc00506、PCAT6、HAGLROS对乳腺癌患者总生存期影响Table 3 On-line survival analysis for lnc00506/PCAT6/HAGLROS using lnCAR

采用R软件的survcomp包计算一致性指数(C-index)对该模型进行评价,其值为0.77(95%CI:0.67~0.87),说明有较高的预测准确率。

绘制多因素Cox比例风险回归分析得到模型的ROC曲线,计算得到ROC曲线下面积(AUC)=0.82,表示模型准确率较高(图2)。

图2 ROC曲线下面积Fig.2 Area under the receiver operating characteristic(ROC)curve

根据Cox多因素回归中计算得到的风险值将患者分为高、低风险组,利用Kaplan-Meier进行生存分析并进行Log-rank检验,发现高、低风险组患者的生存率存在显著差异(P=4.269×10-4)。见图3。

图3 高低风险患者的生存率曲线Fig.3 Survival curves for high and low risk patients

2.4 共表达方式预测lncRNA功能

通过lncRNA与其共表达的mRNA来预测lncRNA的功能。经过筛选,找到与lnc00640相关的共表达基因46个,与PCAT6相关的共表达基因2232个,与HAGLROS相关的共表达基因18个,与lnc00506相关的共表达基因1043个。将这些基因映射到metascape网站进行功能富集,发现lnc00640的功能主要富集在化学趋向性(GO:0006935,chemotaxis)、细胞之间的粘附(GO:0098742,cell-cell adhesion via plasma-membrane adhesion molecules)、蛋白定位(GO:0035418,protein localization to synapse)等方面(图4);PCAT6的功能主要富集在RNA的代谢(R-HSA-8953854,metabolism of RNA)和RNA的各项功能调节(R-HSA-72766,translation;R-HSA-72312,rRNA processing;GO:0006397,mRNA processing;R-HSA-6790901,rRNA modification in the nucleus and cytosol;GO:0090501,RNA phosphodiester bond hydrolysis;GO:0009451,RNA modification)等方面(图5);lnc00506的功能主要富集在细胞迁移(GO:0040017,positive regulation of locomotion)、白细胞分化(GO:002521,leukocyte differentiation)、免疫系统调节(GO:0002683,negative regulation of immune system process)、肿瘤坏死因子信号通路(hsa04668,TNF signaling pathway)、磷脂酰肌醇3激酶/蛋白激酶B信号通路(hsa04151,PI3K-Akt signaling pathway)等方面(图6)。通过该方式未能找到HAGLROS相关的功能富集通路,可能与筛选到的共表达基因数量较少有关。

图6 Lnc00506共表达基因在metascape的功能富集柱状图Fig.6 Functional enrichment histogram of Lnc00506’s co-expressed genes in metascape

图5 PCAT6共表达基因在metascape的功能富集柱状图Fig.5 Functional enrichment histogram of PCAT6’s co-expressed genes in metascape

图4 lnc00640共表达基因在metascape的功能富集柱状图Fig.4 Functional enrichment histogram of lnc00640’s co-expressed genes in metascape

3 讨论

lncRNA长度在200~100000个核苷酸之间,不编码蛋白却参与细胞内多种调控。lncRNA目前还处于研究初级阶段,其种类、数量、功能都不明确,属于基因组中人类知之甚少的“暗物质”[3]。

lncRNA在肿瘤的发生、发展过程中起促进肿瘤或抑制肿瘤抑制因子的作用,参与细胞凋亡、肿瘤浸润和转移过程。寻找正常组织和肿瘤组织之间的lncRNA差异表达可作为疾病预防、治疗和预后的生物标志物[8]。Sun等[9]最新的研究发现,SNHG7(long non-coding RNA small nucleolar RNA host gene 7)可通过吸附微小RNA-34a(miRNA-34a)调控上皮细胞间质转型(epithelial-mesenchymal transitions,EMT)和NOTCH-1信号通路,从而影响乳腺癌癌细胞的增殖和浸润。Gupta等[10]研究发现HOTAIR(HOX transcript antisense RNA),一种可以与多硫蛋白抑制体2(plolycomb repressive complex2,PRC2)和组蛋白去甲基化酶复合体相结合从而调控基因表达的lncRNA,与乳腺癌的转移和预后密切相关,高表达预示着高转移风险和不良预后。HOTAIR在血清中的高表达也被发现具有潜在的诊断乳腺癌的价值[11]。lncRNA还与乳腺癌的治疗相关:有研究报道lncRNA ARA和ATB分别与乳腺癌治疗用药阿霉素和曲妥珠单抗的耐药相关[12-13]。

乳腺癌是常见的癌症,是全世界女性癌症死亡的第二大原因。目前,乳腺癌的治疗手段包括外科手术、放疗、化疗、激素治疗和免疫治疗,在不断进步的治疗方法下,其5年生存率有了较大改善。但是,仍然有不少乳腺癌对现有的治疗方式不敏感,出现转移和复发,最终导致患者死亡[14],这类现象的原因还未阐明。通过研究lncRNA这一类新兴的表观遗传调控分子,可对乳腺癌的调控机制有更深入的了解。本研究利用公共数据库进行数据挖掘得到了4个跟乳腺癌预后显著相关的lncRNA——lnc00640、PCAT6、HAGLROS和lnc00506。对这4个lncRNA相关文献进行检索,发现对它们进行的功能研究均很少。其中,PCAT6被发现通过Wnt/β-catenin通路调节细胞生长和肿瘤转移,也可以通过以miR-204为靶标介导结肠癌细胞对5-氟尿嘧啶的耐药[15-16]。虽然未能查询到HAGLROS的功能富集通路,但有文献显示其表达高低与骨癌患者的预后相关[17]。体外实验证明HAGLROS可以通过调节凋亡和自噬影响癌细胞[18-19]。目前尚未找到关于lnc00640和lnc00506的任何文献报道。这4个lncRNA是否能成为新的乳腺癌预后标志物或者是疾病新靶标,尚需在临床样本中进一步验证。

随着大数据时代的到来、信息资源共享水平不断提升、数据获取与处理技术不断突破,让科学家们能够通过公共资源短时间内获取自己关注疾病与非编码RNA的关系,这无疑大大加快了科学家们对这一新兴领域的探索,是一种值得推荐的高效的研究方式。

猜你喜欢

共表达生存率乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
SO2引起巨峰葡萄采后落粒的共表达网络和转录调控分析
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
高世代回交玉米矮秆种质的转录组分析
“五年生存率”不等于只能活五年
影响胃癌术后5 年生存率的因素分析
人工智能助力卵巢癌生存率预测
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
日本首次公布本国居民癌症三年生存率