APP下载

ATP6V1H内含子区域SNPs的生物信息学分析

2022-11-28侯宇转杨少青阮文彦张燕丽张恒伟黄永清段小红

实用口腔医学杂志 2022年6期
关键词:染色质内含子位点

侯宇转 杨少青 阮文彦 张燕丽 张恒伟 黄永清 段小红

V-ATP酶(Vacuolar-type H+-ATPase,V-ATPase)是一种高度保守的酶,它将ATP水解成质子在胞内或质膜间运输,起着质子泵的作用,在维持细胞内细胞器的酸性环境中起着重要作用[1], 酸性细胞内环境是膜运输、蛋白质降解、骨吸收和精子成熟所必需的[2]。V-ATP酶在多种细胞类型中广泛表达,被认为是所有真核细胞中必需的“管家”酶;然而,V-ATP酶的具体功能因细胞而异[3]。在破骨细胞中,V-ATP酶位于细胞的质膜中,控制破骨细胞的细胞外酸化,使骨和破骨细胞之间形成吸收陷窝[4],最终影响骨吸收和骨重塑。哺乳动物的V-ATP酶由外围的V1结构域(包含A、B、C、D、E、F、G、H共8 个亚基)和跨膜的V0结构域(包含a、b、c、d、e共5 个亚基)组成,ATP6V1H是连接V1和V0结构域的一个小亚基,它的缺失将会使破骨细胞和成骨细胞的分化及功能受到影响[5-6],同时有助于脂肪细胞的诱导及分化[1]。对1 625 例汉族人基因组与骨密度的GWAS分析和以及1 个意大利家系的遗传分析发现ATP6V1H功能的部分丧失导致骨质疏松/骨质减少[2,7],在281 533 个单核苷酸多态性(single nucleotide polymorphism,SNP)位点[8-9]中选择了16 个针对ATP6V1H基因内含子区域的SNPs,统计学分析表明,有4 个SNPs(rs2376011,rs4738884,rs10435587,rs41321146)和骨密度存在关联(P<0.05)[7]。本研究旨在对这4 个目标SNP进行生物信息学分析,以探讨4 个位点对ATP6V1H表达或功能的影响。

1 资料与方法

1.1 目标SNPs的频率信息分析

运用3DSNP数据库(http://cbportal.org/3dsnp/)分析目标SNPs的基本信息,主要包括位点的频率信息、三维互作的基因、染色质状态以及SNP位点上下10 bp区域的保守性得分。

1.2 筛选与SNPs相关的lncRNA位点信息

LncSNP 2.0数据库(http://bio-bigdata. hrbmu. edu.cn/lincsnp2.0/index.html)专门用于存储和注释人类长链非编码RNA(lncRNAs)及其转录因子结合位点(transcription factor binding site,TFBSs)中用GWAS筛选与疾病相关的SNPs。运用LncSNP 2.0数据库来专门寻找与目标SNPs相关的lncRNA。

1.3 相关lncRNA的结构及功能分析

运用LNCipedia version 5.2(https://lncipedia.org/submit)查找相关lncRNA的序列,通过NCBI(https://www.ncbi.nlm.nih.gov/protein/NP_057025.2?report=fasta)查找ATP6V1H的蛋白序列,运用RPIseq数据库(http://pridb.gdcb.iastate.edu/RPISeq/index.html)对lncRNA的序列和蛋白序列的交互作用进行分析。

2 结 果

2.1 目标SNPs频率信息分析结果

2.1.1 目标SNPs频率信息分析总结 次要等位基因频率(minor allele frequency,MAF)广泛应用于复杂疾病的全基因组关联研究,本课题筛选出4 个SNPs的MAF在0.14~0.25范围内,且SNPs的等位基因频率在亚洲人群中最高,均大于0.3,高于其他各州人群的平均MAF(表 1 )。

表 1 4 个SNP位点频率信息总结

2.1.2 SNP位点三维相互作用的基因 三维相互作用基因指在不同细胞类型中,通过3D染色质环在空间上相互作用的基因。本研究通过在3DSNP数据库中预测发现,在LNCaP细胞系中发现4 个目标SNP的三维互作基因均为神经肽B/W受体1(neuropeptide B/W receptor-1,NPBWR1),位于染色质环的锚点起始处,SNP位于染色质环终止点处,两者之间线性距离约为800 kb(图 1)。

图 1 染色质环空间结构模型

2.1.3 染色质状态 rs4738884、rs10435587和rs41321146均呈现ChromHMM模型识别的染色质状态,ChromHMM是基于染色质免疫沉淀测序(chromatin immunoprecipitation followed by high-throughput DNA sequencing,ChIP-seq)组蛋白数据检测染色质状态的工具。根据现有的数据发现,rs4738884所在的DNA区域在多种细胞类型中具有增强子活性,包括多能干细胞和神经细胞;rs10435587和rs41321146所在的DNA区域在胃黏膜细胞中具有增强子活性,rs41321146所在的DNA区域还在左心室中具有增强子活性(表 2)。

表 2 3 个SNP位点的染色质状态

2.1.4 SNP位点的保守性得分 SNP位点在46 种脊椎动物和33 种哺乳动物的PhyloP保守性评分, rs2376011为-0.363和-0.415,rs4738884为-0.848和-0.866,rs10435587和rs41321146的保守性得分为正数,rs10435587为0.608和0.603, rs41321146为0.065和0.064(图 2)。

图 2 SNP位点在46 种脊椎动物和33 种哺乳动物中的PhyloP得分

2.2 SNP相关lncRNA位点的筛选

通过LncSNP2.0数据库筛选出了rs4738884和rs10435587的5个lncRNA位点(表 3),且这两个SNP筛选出的lncRNA完全一致。其中LSLNC023334与LSLNC023336相关基因为NONHSAG050234,LSLNC-237460与LSLNC237461相关基因lnc-TCEA1-3;NONHSAG050234和lnc-TCEA1-3均为长链非编码RNA基因,NONHSAG050234在各种数据库及文献中尚未有相关报道;lnc-TCEA1-3位于8 号染色体的内含子区域,有4 个不同的转录本。根据数据库中Linc-Score功能可以统计出与这两个位点有较强相关性的疾病分别是自闭症和冠状动脉疾病。

表 3 SNPs相关lncRNA的信息

2.3 相关lncRNA的结构及功能分析结果

通过LNCipedia version 5.2对表 3中的转录本进行分析,找到lnc-TCEA1-3:1和lnc-TCEA1-3:2 2 个转录本的序列及其他相关信息,lnc-TCEA1-3:1位于chr8:53743587-53801868,长度为469 bp;lnc-TCEA1-3:2位于chr8:53715673-53795761,长度为467 bp。

RNA与蛋白质相互作用的预测,通过NCBI下载ATP6V1H的蛋白序列,在RPIseq数据库中输入ATP6V1H的蛋白序列和lnc-TCEA1-3的转录本序列,其中lnc-TCEA1-3:1利用RF(random forest)分类器和SVM(support vector machine)分类器得到的交互概率分别为0.75和0.89,lnc-TCEA1-3:2利用RF分类器和SVM分类器得到的交互概率分别为0.95和0.87。RPISeq产生的交互作用概率从0到1。在性能评估实验中,概率为>0.5的预测被认为是“阳性的”,即相应的RNA与蛋白质可能相互作用。

3 讨 论

本课题组前期对1 625 例汉族人的样本进行了GWAS分析,本研究从分析得出的15 个ATP6V1H上的SNPs位点中挑选了4 个位于内含子区域的SNPs进行了生物信息学分析,涉及SNPs的频率信息、三维互助基因、染色质状态及保守性,并对SNPs的相关lncRNA信息进行了查找及分析。

基因组范围内SNPs数量巨大,筛选有意义的SNPs进行针对性研究十分重要[10]。 MAF可以作为筛选目标SNPs的一个重要指标,国际人类基因组单体型图计划(the international HapMap project,HapMap)将MAF>0.05的SNP位点作为首要研究目标[11],MAF>0.1的SNP位点可作为遗传标记用于疾病遗传易感性的研究[12]。Titmarsh等[13]利用HapMap数据,比较了爱尔兰和其他欧洲地区人口之间常见骨髓增殖性肿瘤突变的MAF,其差异可以解释欧洲人群之间发病率的不同,从而更好地理解疾病的遗传倾向。本研究中4 个SNP的MAF值均大于0.1,且在东亚人群的MAF值高于其他人群,具有反映该类人群遗传易感性的特征。

在4 个SNPs位点中, rs2376011和rs4738884的PhyloP保守性评分为负数,表明这两个位点不保守,rs10435587和rs41321146的评分为正数且大于0.5,表明这两个位点高度保守。保守的非编码DNA元件在进化过程中不易丢失,可能具有重要功能。

本研究发现4 个目标SNP的三维交互基因均为NPBWR1。三维交互基因可以通过染色质环在空间上进行相互作用。研究表明染色质可形成环状结构,使线性距离较远的基因座可以在空间上密切接近[14-15],而这种空间上的连接是由CCCTC-结合因子(CCCTC-binding factor,CTCF)蛋白与黏连蛋白共同作用实现的。研究人员曾使用Hi-C技术在9 个细胞系中构建了千碱基级别分辨率的染色质相互作用图谱,发现染色质环中有相当大一部分为“启动子-增强子”环[16-17]。本研究发现的三维交互基因NPBWR1是神经肽B/W受体,可能与应激反应和情绪调控有关[18-19],Nagata-Kuroiwa等[20]研究表明NPBWR-/-小鼠对物理应激的自主反应和神经内分泌性反应增强,提示NPBWR1损伤导致应激脆弱性。染色质状态分析也表明rs4738884在多种细胞类型,特别是脑和神经球中发挥增强子作用,与上述结果相吻合。

目前大量的研究表明,非编码RNA对基因的转录,翻译等过程具有重要的调控作用[21],SNPs的变化会引起相关lncRNA的改变,从而对蛋白编码产生影响。rs4738884和rs10435587的相关lncRNA位点可以在LncSNP 2.0数据库中查找到,结果显示其相关lncRNA与自闭症和冠状动脉疾病相关,但是暂未有相关的文献报道。此外,其相关的lncRNA的转录本与ATP6V1H蛋白相互作用的概率较高,因此可以预测rs4738884在4 个SNP位点中的重要性更高,更有研究价值。

本研究通过对ATP6V1H内含子区域SNP位点的分析发现rs4738884更具有研究价值,可利用CHIP实验或其他方法进行观遗传分表析,如甲基化、乙酰化、染色质可接近性等上述方法进一步探讨其对于细胞的生物学功能及信号通路的影响。

猜你喜欢

染色质内含子位点
染色质开放性与动物胚胎发育关系的研究进展
哺乳动物合子基因组激活过程中的染色质重塑
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
染色质可接近性在前列腺癌研究中的作用
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
“哺乳动物卵母细胞生发泡染色质构型的研究进展”一文附图
二项式通项公式在遗传学计算中的运用*
更 正