APP下载

马鹿mtDNACytb基因的生物信息学分析

2023-06-13田新民宋雅祺

关键词:马鹿生物信息学

田新民 宋雅祺

摘  要:基于NCBI数据库获取马鹿(Cervus elaphus)Cyt b基因序列,应用生物信息学方法对马鹿Cyt b基因编码的蛋白质进行理化性质、结构和相关功能的预测分析,了解马鹿mtDNA Cyt b基因的结构、功能和表達特性.结果表明:马鹿Cyt b编码的蛋白质为疏水性蛋白质,推测相互作用的蛋白质包括LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4H和CYC,功能与电子运输、耦合质子运输以及泛醌-细胞色素c还原酶活性有关;二级结构主要为无规则卷曲,有2个潜在的N-糖基化位点和34个磷酸化位点,9个跨膜螺旋结构域,定位于内质网和细胞质膜;马鹿与梅花鹿(Cervus nippon)的亲缘关系较近.这对于马鹿种质鉴定分子标记的筛选及其与梅花鹿的渐渗杂交具有理论意义.

关键词:马鹿;mtDNA Cyt b基因;生物信息学

[   中图分类号    ]Q332 [    文献标志码   ]  A

Bioinformatic Analysis of the mtDNA Cyt b Genes in Red Deer

TIAN Xinmin, SONG Yaqi

(College of Life Science and Technology, Mudanjiang Normal University, Mudanjiang 157011, China)

Abstract: Based on the NCBI database, the Cyt b gene sequence of red deer(Cervus elaphus) was obtained, and the physical and chemical properties, structure and related functions of the protein encoded by the Cyt b gene of red deer were predicted and analyzed using bioinformatics methods to understand the structure, function and expression characteristics of mtDNA Cyt b gene of red deer . The results showed that the proteins encoded by Cyt b in wapiti were hydrophobic proteins. It was speculated that the interacting proteins included LOC100524873, UQCRC1, UQCRQ, ND1, MT-ND2, COX1, COX2, COX3, ND4H and CYC. Their functions were related to electron transport, coupled proton transport and ubiquinone cytochrome c reductase activity; The secondary structure is mainly irregular curly, with 2 potential N-glycosylation sites, 34 phosphorylation sites, 9 transmembrane helical domains, located in the endoplasmic reticulum and the plasma membrane; Red deer and sika deer (Cervus nippon) are closely related. This is of theoretical significance for the screening of molecular markers for wapiti germplasm identification and its introgressive hybridization with sika deer.

Key words:Cervus elaphus; mtDNA Cyt b gene; bioinformatics

马鹿(Cervus elaphus)属于偶蹄目(Cetartiodactyla)、鹿科(Ceridae)、鹿属(Cervus),在我国有8个亚种,主要分布于东北、西北、华北和西南等地区,为国家II级重点保护野生动物.[1]近年来,人类活动的干扰使马鹿栖息地破碎化加剧,种群数量下降,加剧了该物种的濒危程度.[2-5]mtDNA中的Cyt b基因进化速度比较适中,较小的基因片段包含很多遗传进化信息,保守区域和突变区域的存在使得Cyt b基因可以应用于遗传多样性的研究.目前对Cyt b基因的研究集中于系统学和分类学等方面[6-8],对马鹿Cyt b基因的研究很少.

本研究通过生物信息学方法,对马鹿Cyt b基因编码蛋白质的理化性质、二级结构、三级结构、信号肽的有无、跨膜结构域、磷酸化位点、N-糖基化位点和亚细胞定位进行预测,比对其与其他17个物种的序列同源性,判断亲缘关系.通过野猪Cyt b基因编码蛋白质推测其可能相互作用的蛋白质,以此研究马鹿Cyt b基因编码的蛋白质的生物学功能,这对于更好地了解马鹿Cyt b基因的功能和应用方向、恢复马鹿种群数量、维持马鹿的遗传多样性以及马鹿保护策略的制定等方面具有重要意义.

1 材料与方法

1.1 基因序列的获取

在NCBI数据库中查找并下载马鹿Cyt b基因序列以及CDS编码序列(Gene ID:1972167777).查找其他不同物种的Cyt b基因序列作为对照,最终下载以下18种动物的mtDNA Cyt b基因序列,如表1所示.

1.2 分析方法

马鹿Cyt b基因编码蛋白质的理化性质分析  利用Protparam程序对马鹿Cyt b基因编码的蛋白质的理化特性进行预测和分析,包括氨基酸组成及个数、分子量、原子总数、分子式、正/负电荷残基总数、理论等电点、消光系数、不稳定指数、脂肪指数、亲水性平均系数和酸碱性等.

马鹿Cyt b基因编码的蛋白质的亲/疏水性分析  基于Protscale软件的Hphob./Kyte&Doolittle算法对马鹿Cyt b基因编码的蛋白质每个位点的亲/疏水性进行计算和分析,推断蛋白质的亲/疏水性.

马鹿Cyt b基因编码蛋白质的二级结构和三级结构预测分析  基于SOPMA程序对马鹿Cyt b基因编码的蛋白质的二级结构进行预测分析,预测其二级结构的主要形式;基于SOPMA-MODEL程序对马鹿Cyt b基因编码的蛋白质三级结构进行预测分析、建模、质量评估.

马鹿Cyt b基因编码蛋白质的N-糖基化位点预测分析  基于NetNGlyc-1.0程序对马鹿Cyt b基因编码蛋白质的N-糖基化位点进行预测分析.

马鹿Cyt b基因编码蛋白质的信号肽和跨膜结构域预测分析  基于SignalP-5.0程序对马鹿Cyt b基因编码蛋白质的信号肽进行预测分析,并基于TMHMM-2.0程序对马鹿Cyt b基因编码蛋白质的跨膜结构域进行进一步预测分析,推测其蛋白类型.

马鹿Cyt b基因编码蛋白质的磷酸化位点预测分析  基于NetPhos-3.1程序对马鹿Cyt b基因编码蛋白质的磷酸化位点进行预测分析,并计算丝氨酸、苏氨酸和酪氨酸的磷酸化位点个数.

马鹿Cyt b基因序列同源性分析  将马鹿Cyt b基因序列与其他17个物种进行系统发育分析,利用软件MEGA7.0对数据进行分析,并采用邻接法(Neighbor Joining,NJ)构建系统发育树.

马鹿Cyt b基因编码蛋白质的相互作用蛋白质的预测分析  基于STRING程序对野猪Cyt b基因编码蛋白质的相互作用的蛋白质进行预测分析,推测与马鹿Cyt b基因编码蛋白质的相互作用蛋白质.

马鹿Cyt b基因编码蛋白质的亚细胞定位分析  基于SPOST II程序对马鹿Cyt b基因编码蛋白质的亚细胞定位进行预测分析,预测该蛋白发挥作用的位置.

马鹿Cyt b基因编码蛋白质的生物信息学分析软件及网站见表2.

2 结果与分析

2.1 马鹿Cyt b基因编码蛋白質的理化性质分析

马鹿Cyt b基因编码蛋白质为碱性蛋白质,不稳定指数(instability index,Ⅱ)小于40,表明马鹿Cyt b基因编码的蛋白质属于稳定蛋白,该蛋白不容易降解或变性.该蛋白中异亮氨酸(Ile)占比最高,为15%,其次为亮氨酸(Leu),为9.8%(图1).亲水性平均系数大于0,表明其为疏水性蛋白.结果见表3.

2.2 马鹿Cyt b基因编码蛋白质的亲/疏水性分析

在第236位氨基酸位点处存在最大亲水性值3.600,在第205位氨基酸位点存在最小亲水性值-1.989.如图2所示,横坐标代表氨基酸的序列,纵坐标代表亲疏水系数,大于零部分多于50%为疏水性蛋白质,小于零部分多于50%为亲水性蛋白质.结果表明,该蛋白质中亲水性氨基酸的总分低于疏水性氨基酸,该蛋白质为疏水性蛋白质,与亲水性平均系数结果相同.

2.3 马鹿Cyt b基因编码蛋白质的二级结构和三级结构预测分析

马鹿Cyt b基因编码蛋白质的二级结构预测分析结果见图3.图中c代表无规则卷曲,h代表α-螺旋,e指的是延伸.该蛋白质中98个氨基酸可能参与形成α-螺旋(Hh),占比25.86%,109个氨基酸可能参与形成延伸链(Ee),占比28.76%;172个氨基酸可能参与形成无规则卷曲(Cc),占比45.38%,没有β-转角(Tt)结构.表明该蛋白质二级结构有序,能够正常发挥其功能.

通过SWISS-MODEL程序,预测马鹿mtDNA Cyt b基因编码蛋白质的三级结构.结果如图4所示,马鹿Cyt b基因编码蛋白质的序列与数据库中6haw.1.C模板的序列一致性为92.06%,GMQE值为0.86,QMEAN值为-2.55,建模结果可靠,表明蛋白质的主要构件无规则卷曲、延伸链和螺旋,与预测的二级结构结果一致.

2.4 N-糖基化位点预测分析

应用NetNGlyc 1.0 Server程序预测马鹿Cyt b基因编码蛋白质的N-糖基化位点,结果如图5所示.该蛋白质中有两个N-糖基化位点,分别为26NISS和255NYTP.

2.5 马鹿Cyt b基因编码蛋白质的信号肽和跨膜结构域预测分析

利用SignalP-5.0预测分析马鹿Cyt b基因编码的蛋白质的信号肽,信号肽对于定位到特定的细胞器上起着重要作用.结果如图6所示,显示该蛋白质有信号肽的概率为0.000 4,推测该蛋白质没有信号肽,为其他类型蛋白质.为了进一步验证马鹿Cyt b基因编码蛋白质的类型,应用TMHMM程序预测分析其跨膜结构域.马鹿Cyt b蛋白质跨膜区域结构的预测结果如图7所示,存在9个跨膜螺旋结构.由此推测,马鹿Cyt b基因编码蛋白质为跨膜蛋白,表明其可能是定位于膜上的锚定蛋白质或离子通道蛋白质,也可能作为膜受体起作用.

2.6 马鹿Cyt b基因编码蛋白质的磷酸化位点预测分析

磷酸化多数情况下是发生在丝氨酸(Serine,Ser)、苏氨酸(Threonine,Thr)和酪氨酸(Tyrosine,Tyr)等氨基酸的残基上.马鹿Cyt b基因编码蛋白质的磷酸化位点预测结果显示,该基因的编码蛋白质可能存在34个磷酸化位点,其中包括丝氨酸(S)14个、苏氨酸(T)14个和酪氨酸(Y)6个.表明该蛋白质可以被激酶磷酸化,从而对其功能进行调控.

2.7 马鹿Cyt b基因序列的同源性

软件MEGA7.0对基因序列数据进行比对,与这17个物种的对比中,马鹿与梅花鹿的亲缘关系最近,与坡鹿的亲缘关系次之,与东北刺猬和驼背海马的亲缘关系较远.如图8所示,说明马鹿与梅花鹿的Cyt b基因可能具有相同的功能,可为马鹿与梅花鹿的渐渗杂交提供理论基础.

2.8 与Cyt b基因编码蛋白质相互作用蛋白质预测

细胞中的蛋白质通过与其他蛋白质的相互作用完成生理功能,不同物种蛋白质的空间结构会略有差异,但其功能相似.[9, 10]通过STRING数据库,使用野猪的Cyt b基因编码的蛋白质推测与马鹿Cyt b蛋白相互作用的蛋白质,并计算相互作用综合得分.Cyt b蛋白质与LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4,CYC的相互作用较强,相互作用得分均为0.999.由此推测,马鹿Cyt b蛋白与电子传输、耦合质子传输、泛醇-细胞色素c还原酶活性、线粒体呼吸链复合物III等功能相关.

2.9 亚细胞定位

亚细胞定位是查找某种蛋白质或某个基因表达产物在细胞内的具体存在部位,对蛋白质的亚细胞定位分析有助于蛋白质功能的初步判断,基于PSORT II预测马鹿Cyt b基因编码的蛋白质在亚细胞中的定位.结果显示,定位于内质网中的比例为55.6%,定位于细胞质膜的比例为44.4%.

3 小结与讨论

Cyt b位于mtDNA中,是编码线粒体内膜上Cyt b氧化酶基因的一个亚基,也是组成电子传递链的重要媒介.[11, 12]Cyt b由于其结构保守、进化速度快、扩增难度小等诸多特点,被广泛应用于评价物种遗传多样性、遗传变异和系统发育分析等方面.[13]在对不同物种的系统发育分析中,马鹿与梅花鹿的亲缘关系较近,与驼背海马的亲缘关系较远,对于马鹿和梅花鹿的渐渗杂交提供了理论基础.

本次选用了马鹿Cyt b基因进行分析,研究结果表明,马鹿的Cyt b基因长1 140 bp,共编码氨基酸379个,理论等电点为7.17,含量最多的氨基酸是异亮氨酸,属于稳定的疏水蛋白,这提示其是一类具有强表面活性的分泌型小分子量蛋白质.笔者发现,马鹿Cyt b蛋白质有2个潜在的N-糖基化位点,具有32个磷酸化位点,磷酸化是蛋白质翻译后修饰中最为广泛的共价修饰,对蛋白质功能的正常发挥起着调节作用.马鹿Cyt b基因编码蛋白质没有信号肽,有9个跨膜结构,表明马鹿Cyt b基因编码蛋白质是跨膜蛋白质,可以传递离子,并通过细胞膜来维持化学环境.马鹿Cyt b基因编码蛋白质的二级结构主要是不规则卷曲,亚细胞定位显示在内质网和细胞质膜发挥生物学功能.马鹿Cyt b基因编码蛋白质的丝氨酸和苏氨酸磷酸化位点较多,表明此蛋白质的酶活力较强.通过预测野猪Cyt b蛋白质的相互作用蛋白质,发现与LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4,CYC的相互作用较强,由此推测马鹿Cyt b蛋白质与电子传输、耦合质子传输、泛醇-细胞色素c还原酶活性、线粒体呼吸链复合物III等功能相关.本文初步预测分析了马鹿Cyt b的结构和功能,为马鹿Cyt b基因功能深入研究、基因的相对表达和应用方向的挖掘提供了理论基础,对恢复马鹿种群数量以及保护策略的制定具有重要意义.

参考文献

[1]秦瑜, 张明海. 中国马鹿的研究现状及展望[J]. 野生动物, 2009,30(2): 100-104.

[2]艾尼瓦尔·吐米尔, 董晓宇, 马合木提·哈力克. 中国马鹿(Cervus elaphus)新疆三个亚种的研究现状及展望[J]. 新疆农业科学, 2008, 45(3): 504-510.

[3]張书理, 王志玲, 张鹏, 等. 内蒙古赤峰市野生马鹿种群资源现状研究[J]. 四川动物, 2009, 28(5): 772-776.

[4]姚丹阳. 河北塞罕坝保护区马鹿初步调查及保护对策[J]. 安徽农学通报, 2016, 22(24): 34+39.

[5]Shokri S, Jafari A, Rabei K, et al. Conserving populations at the edge of their geographic range: the endangered Caspian red deer (Cervus elaphus maral) across protected areas of Iran[J]. Biodiversity and Conservation, 2021, 30(1): 85-105.

[6]Liu Y H, Zhang M H, Ma J Z. Phylogeography of red deer (Cervus elaphus) in China based on mtDNA Cytochrome b gene[J]. Research Journal of Biotechnology, 2013, 8(10): 34-41.

[7]张丽, 滚双宝, 雷天云, 等. 应用mtDNA Cyt b基因全序列分析中国5个马鹿群体的遗传多样性和系统发育[J]. 华北农学报, 2010, 25(4): 12-16.

[8]Borowski Z, Swisocka M S, Matosiuk M, et al. Purifying selection, density blocking and unnoticed mitochondrial DNA diversity in the red deer, Cervus elaphus[J]. PLoS One, 2016, 11(9): e0163191.

[9]宋宝兴, 桑青, 王芬, 等. 基于蛋白质相互作用网络挖掘物种内的功能相似蛋白质[J]. 生物物理学报, 2011, 27(9): 789-800.

[10]刘淑娟. 根据细胞色素b基因的序列变异分析脊椎动物的进化关系[J]. 山东农业大学学报: 自然科学版, 2006, 37(3): 392-396.

[11]辛翠娜, 彭建军, 王莹, 等. Cyt b分子标记技术在物种鉴定中的应用[J]. 野生动物, 2009, 30(4): 217-221.

[12]于滢. 对线粒体的再认识[J]. 牡丹江师范学院学报: 自然科学版, 2016(1): 63-66.

[13]孙玉友. 利用SRAP分子标记分析栽培稻的遗传多样性[J]. 牡丹江师范学院学报: 自然科学版, 2012(1): 24-26.

编辑:琳莉

猜你喜欢

马鹿生物信息学
等待了12 年的宣告
采蘑菇
马鹿凶猛
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
马鹿的演化与种系发生进展∗
马鹿的生物学特性及繁殖技术