APP下载

法螺线粒体全基因组密码子偏好性分析

2022-08-09任童童喻达辉翟子钦谭传港何积翠尚东维陈移波白丽蓉

南方农业学报 2022年5期
关键词:密码子绘图线粒体

任童童,喻达辉,翟子钦,谭传港,何积翠,尚东维,陈移波,白丽蓉*

(1北部湾大学/广西北部湾海洋生物多样性养护重点实验室,广西钦州 535011;2天津农垦渤海农业集团有限公司,天津 301823;3天津嘉禾田源观赏鱼养殖有限公司,天津 300481)

0 引言

【研究意义】线粒体基因组中存在的密码子具有简并性,不同的密码子可编码同一种氨基酸,即同义密码子(吴宪明等,2007;惠小涵等,2020)。但同义密码子具有偏好性,某一物种通常倾向于使用某一种或几种同义密码子(张志东等,2019),这种同义密码子又被称为最优密码子,究其原因可能是不同生境中密码子的承压能力会导致物种发生突变或选择性变异(Romero et al.,2000)。因此,开展密码子偏好性研究既能揭示物种的进化关系,对研究自然选择、遗传漂变及基因重组等现象也具有重要意义。【前人研究进展】20世纪80年代,在针对大肠杆菌()、芽孢杆菌()和酿酒酵母()的研究中,有学者证实密码子使用偏好性与基因表达水平呈正相关(李秀璋等,2015)。随着生物信息学新一代测序技术的发展,大量生物线粒体基因组被测定,为系统发育研究提供了技术支持。目前,已在藏羚羊()和山羊()中证实mtDNA偏向使用以A或U结尾的密码子,而在马()、大熊猫()及非洲象()等13种动物中发现mtDNA偏向使用以G或C结尾的密码子,聚类分析进一步表明密码子偏好性差异可用于鉴别物种亲缘及物种分类研究(宋乔乔和钟金城,2014)。冯海悦等(2018)基于密码子偏好性对猪()、人类()和东北虎()等13种哺乳动物进行聚类分析,结果发现密码子使用模式与亲缘关系远近有关。仵丽丽等(2021)基于哺乳动物密码子偏好性分析了新型冠状病毒结合穿山甲ACE2受体的分子机制。在水生生物中,王佳等(2015)研究表明,扇贝和牡蛎使用量最高的密码子均为编码赖氨酸的AAA,使用量最低的则为编码精氨酸的CGC;慎佩晶等(2020)基于中性分析和ENC曲线分析,证实罗氏沼虾()线粒体蛋白编码基因偏好使用以A或T结尾的密码子,尤其是以T结尾的密码子。此外,有研究发现红藻基因偏向于以A或T碱基结尾的密码子(李国灵等,2020b),条斑紫菜()mtDNA偏好以A或U碱基结尾的密码子(李国灵等,2020b),而细基江蓠()mtDNA偏好以A或U结尾的密码子(邱春桃等,2021)。【本研究切入点】法螺()又名凤尾螺(蔡岩等,2004),是一种分布范围较广的热带亚热带大型海洋贝类,是珊瑚礁主要敌害生物棘冠海星()的重要天敌物种,在珊瑚生态系统中发挥着重要的生态学作用(郑小东和曲学存,2013)。近年来,因过度捕捞及全球变暖等影响,法螺在我国海域面临着灭绝的危险(冯永勤等,2009),属于濒危海洋贝类。因此,开展法螺生物资源的保护及繁育工作刻不容缓。法螺线粒体基因组测序已完成(MT_043269.1),全长15346 bp,但有关法螺线粒体全基因组序列密码子偏好性的研究尚无报道。【拟解决的关键问题】通过对法螺线粒体全基因组密码子偏好性进行分析,探究基因突变和自然选择对密码子偏好性的影响,以期为法螺属动物类群的系统发育树构建及种质资源保护与遗传改良提供参考依据。

1 材料与方法

1.1 序列材料

法螺线粒体基因组CDS(Coding DNA sequence)序列来源于NCBI数据库(MT_043269.1),其线粒体基因组序列总长度为15346 bp,共包含37个编码蛋白的CDS序列。由于短序列无法正确计算有效密码子数,为减少样本误差,故选择以ATG为起始密码子的非重复且长度大于300 bp的11个CDS序列进行密码子偏好性分析。

1.2 数据分析

1.2.1 密码子偏好参数计算 采用CodonW 1.4.2计算密码子GC总含量,密码子第1、2和3位GC含量(GC1、GC2和GC3),第1和2位密码子平均GC含量(GC12),同义密码子第3位GC含量(GC3),密码子适应指数(Codon adaption index,CAI),密码子偏好性指数(Codon bias index,CBI),最优密码子使用频率(Frequency of optimal codons,FOP),有效密码子数目(Effective number of codon,ENC),同义密码子相对使用度(Relative synonymous codon usage,RS‐CU),以及总平均亲水性(Grand average of hydropa‐thy,GRAVY)(何积翠等,2022)。

1.2.2 中性绘图分析 中性绘图分析可初步判断影响密码子偏好的因素。首先根据GC1和GC2计算出平均值GC12,然后以GC3为横坐标、GC12为纵坐标绘制散点图。散点图中每个散点代表一个基因,根据GC12和G3的关系,可判断密码子使用偏好是由基因突变还是自然选择所造成,从而判断影响密码子偏好的因素。

1.2.3 ENC-plot绘图 ENC-plot绘图可进一步确定影响密码子偏好的因素。首先以GC3为横坐标、ENC为纵坐标建立坐标系,然后按坐标定位各基因并形成散点图,最后在坐标系中添加ENC标准曲线。根据每个基因点所处位置判断影响密码子偏好的因素,若各基因点分布在标准曲线附近,代表密码子偏好性只受基因突变压力的影响,若基因点集中在标准曲线下方,表明密码子偏好更多受自然选择影响(王鹏良等,2018)。标准曲线公式如下:

式中,ENC为ENC期望值,ENC为ENC实际值。当ENC与ENC接近时,表明基因密码子受基因突变的影响;而ENC与ENC差别较大时,说明基因密码子受自然选择的影响(赵婉清等,2020;何积翠等,2022)。

1.2.4 RSCU对应性分析 对应性分析是利用CodonW的RSCU对应分析功能,分析法螺基因组密码子使用规律,推测导致密码子偏好性发生的原因。

1.2.5 最优密码子确定 首先以ENC偏好性为标准排序,从排序最高端和最低端选取所参试基因的20%,分别建立高、低表达基因库并计算RSCU差值(△RSCU),△RSCU>0.08且RSCU在高表达基因库中>1.00的密码子即为最优密码子。

2 结果与分析

2.1 密码子组成分析结果

法螺线粒体基因组是一个总长为15346 bp的环状DNA分子,共包含37个编码蛋白的CDS序列,其基因组特征如表1所示。根据密码子偏好分析要求,选择以ATG为起始密码子的非重复且长度大于300 bp的11个CDS序列,利用CodonW进行密码子偏好性分析,结果(表2)显示,GC总含量波动范围在33.00%~41.60%,平均为35.81%。GC1的波动范围在35.80%~53.10%,平均为43.54%;GC2的波动范围在32.40%~43.40%,平均为36.11%;GC3的波动范围在23.00%~30.60%,平均为27.79%,GC1和GC2明显高于GC3;GC3s的波动范围在20.90%~29.60%,平均为26.23%,表明密码子第3位碱基以A/U(T)结尾为主。CAI的波动范围在0.096~0.166,平均为0.137;CBI的波动范围在-0.212~-0.086,平均为-0.133;FOP的波动范围在0.246~0.339,平均为0.306;ENC的波动范围在44.37~51.69,平均为47.84;GRAVY的变化范围在0.4419~1.4727,平均为0.9501(表2)。

表1 法螺线粒体基因组特征Table 1 Characteristics of mitochondrial genome of C.tritonis

表2 法螺线粒体基因组密码子的主要参数Table 2 Main parameters in mitochondrial genome of C.tritonis

密码子参数的相关分析结果如表3所示,GC1与GC和CAI呈极显著正相关(<0.01,下同),相关系数分别为0.839和0.738,与GRAVY呈极显著负相关,相关系数为-0.765;GC2与GC呈显著相关(<0.05,下同),相关系数为0.679;GC3与GC3s呈极显著正相关,相关系数为0.958;GC与CAI呈显著正相关,相关系数为0.727,而与GRAVY呈显著负相关,相关系数为-0.720;CAI与FOP呈显著正相关,相关系数为0.676,与GRAVY也呈显著负相关,相关系数为-0.679;CBI与FOP呈极显著正相关,相关系数为0.866。

表3 法螺密码子主要参数的相关分析结果Table 3 Correlation analysis of the main parameters of codons in C.tritonis

RSCU分析结果表明,RSCU>1.00的密码子数目为28个(表4)。其中,第3位为A的碱基有14个,第3位为U的碱基有12个,第3位为C的碱基有2个。以A或U结尾的密码子占全部的92.86%,说明法螺线粒体基因组密码子偏好以A或U(T)结尾。

表4 法螺线粒体基因同义密码子的相对使用度Table 4 Relative synonymous codon usage(RSCU)of mito‐chondrial genes in C.tritonis

2.2 中性绘图分析结果

中性绘图分析结果表明,GC3 取值范围为23.00%~30.60%,GC12取值范围为36.10%~44.25%。GC12与GC3的相关系数为0.239,未达显著相关水平,回归系数为0.3884;回归方程为=0.3884+0.2903(=0.0571),说明GC12和GC3的相关性微弱。11个基因均落在对角线上方(图1),且没有在对角线上或沿着对角线分布,说明GC12高于GC3,即自然选择在法螺线粒体基因密码子偏好性中发挥主导作用。

图1 法螺线粒体基因中性绘图分析结果Fig.1 Neutrality plot analysis of mitochondrial genes of C.tri‐tonis

2.3 ENC-plot绘图分析结果

ENC-plot绘图分析结果如图2所示,大多基因(散点)落在标准曲线的下方,仅有少部分基因(散点)落在标准曲线上。为进一步准确地反映差异,将数据代入公式(1)求出ENC,再代入公式(2)求出ENC,最后分析所有基因的ENC频数分布情况,结果发现,ENC在-0.05~0之间的基因仅有1个,占总基因数的9.09%;ENC在0~0.05之间的基因有7个,占总基因数的63.64%;ENC在0.05~0.10之间的基因有2个,占总基因数的18.18%;ENC在0.10~0.15之间的基因也只有1个,占9.09%。可见,在法螺线粒体基因组密码子偏好性的形成过程中受基因突变和自然选择的双重作用,但以自然选择为主导。

图2 法螺线粒体基因密码子ENC-plot绘图分析结果Fig.2 ENC-plot analysis of mitochondrial genes in C.tritonis

2.4 RSCU对应性分析结果

对应性分析结果表明,第一向量的贡献率为24.98%,第二向量的贡献率为16.99%,第三向量的贡献率为12.4%,第四向量的贡献率为11.73%,4个向量的总贡献率为66.10%,即第一轴对法螺线粒体基因组密码子偏好性形成的影响最大。第一向量与GC1和GC呈显著正相关,对应的相关系数分别为0.702和0.606,说明GC1和GC对法螺密码子偏性起显著作用;与GRAVY呈显著负相关,相关系数为-0.669;与其余参数的相关性未达显著水平。为了更好地观察密码子偏好性,以第一向量(Axis1)为轴、第二向量(Axis2)为轴建立坐标系,通过观察各基因间的距离来反映RSCU,结果(图3)显示,、、和等4个基因的分布相对集中,其他7个基因(、、、、、和)的分布相对分散,说明、、和等4个基因的密码子偏好性相近,与其他7个基因的密码子偏好性相差明显。

图3 基于RSCU的法螺线粒体基因组密码子对应性分析结果Fig.3 Correspondence analysis of mitochondrial genome codon of C.tritonis based on RSCU

2.5 最优密码子分析结果

以△RSCU>0.08为标准,共确立获得27个高表达密码子(表5中带*的密码子),其中,0.08<△RSCU<0.30的密码子有10个,0.30<△RSCU<0.50的密码子有9个,△RSCU>0.50的密码子有8个。在这些高表达密码子中,以A结尾的密码子有10个,以U结尾的密码子有4个,以C结尾的密码子有9个,以G结尾的密码有4个。将27个高表达优越密码子和28个高频密码子进行比对分析,选取共有的密码子作为最优密码子,最后确定出11个密码子为法螺线粒体基因组最优密码子(表5),分别为UUU、CUA、GUA、UAU、CAA、AAA、UCA、CCA、ACA、GCC和GCA,对应编码苯丙氨酸(Phe)、亮氨酸(Leu)、缬氨酸(Val)、酪氨酸(Tyr)、谷氨酰胺(Gln)、赖氨酸(Lys)、丝氨酸(Ser)、脯氨酸(Pro)、苏氨酸(Thr)及丙氨酸(Ala)(密码子GCC和GCA均编码丙氨酸),其中有1个密码子以G或C结尾,其余的10个密码子均以A或U结尾。

表5 法螺线粒体基因组高/低表达基因库的同义密码子相对使用度比较Table 5 RSCU comparison of C.tritonis mitochondrial genes in high/low expression gene library

3 讨论

GC含量是DNA序列的一个重要指标,其含量越高说明序列越稳定。根据已有的研究可知,在鱼类中黑鲷()的GC含量为53.92%,真鲷()的GC含量为53.49%(曹广勇等,2019),在哺乳动物中藏羚羊的GC含量为49.3%,山羊的GC含量为49.5%,马的GC含量为50.7%,大熊猫的GC含量为61.4%,小鼠()的GC含量为63.5%,白颊长臂猿()的GC 含量为63.8%(宋乔乔和钟金城,2014)。本研究中,法螺线粒体基因组的总GC平均值为35.81%,与鱼类和哺乳动物相比其GC含量相对较低,也进一步证实高等动物的GC含量高于低等动物的GC含量。此外,法螺线粒体基因组的GC1和GC2明显高于GC3,GC3s平均值为26.23%,表明密码子中的第3位碱基更偏好以A/U(T)结尾。已有研究表明,在软体动物斧文蛤()等5种文蛤属贝类中GC3s范围在12%~26%(张志东等,2019);在节肢动物罗氏沼虾中,GC3s为40%(慎佩晶等,2020);在两栖类阿里山小鲵()及台湾小鲵()等20种小鲵科动物中GC3s均小于30%(姜艳,2016)。可见,密码子中的第3位碱基更偏好以A/U(T)结尾。在鱼类中,张欣等(2017)研究表明,金鱼()的GC3为56.4%、斑马鱼()的GC3为56%,均偏好以G或C结尾的密码子;孟乾等(2020)研究发现,斑石鲷()的A3s为33.79%、C3s为38.58%,条石鲷()的A3s为36.32%、C3s为38.61%,表明其偏爱使用AC结尾的密码子。在哺乳动物中,冯海悦等(2018)研究证实,猪、猕猴()、家犬(familiaris)、白尾鹿(ssp.)、瘤牛()、大熊猫、山羊、东北虎及人类的GC3s范围在60.00%~76.00%,而小家鼠()、袋鼠熊()、家猫()和金钱豹()等4种哺乳动物的GC3s范围在44.00%~49.00%。上述分析结果表明,较低分类单元的贝类比鱼类和哺乳动物等更倾向于使用严谨性较低的密码子。

根据RSCU分析结果可知,RSCU>1.00的密码子数目为28个,其中第3位以A/U(T)结尾的碱基有26个(占92.86%),表明法螺线粒体基因组密码子偏爱以A或U(T)结尾。以ENC=35.00为标准线,低于35.00密码子偏好性越强,高于35.00则密码子偏好性越弱(Jiang et al.,2008),法螺线粒体蛋白编码基因密码子ENC波动范围在44.37~51.69,平均为47.84,表明法螺线粒体基因组密码子的偏好性较弱,与慎佩晶等(2020)研究报道的罗氏沼虾ENC平均值为52.72,线粒体DNA密码子偏好性较弱的结论相同,但与20种小鲵科动物的密码子ENC波动范围为36.47~42.40(姜艳,2016)及13种哺乳动物的密码子ENC波动范围为41.69~51.63(宋乔乔和钟金城,2014)存在差异,即与线粒体DNA密码子具有一定偏好性的结论不同。密码子CAI变化范围为0~1,数值越小表示基因密码子适应性越弱,偏向于高表达基因密码子的程度也越弱(邱春桃等,2021)。在本研究中,法螺线粒体基因组密码子CAI的平均值为0.1367,进一步表明法螺线粒体基因组密码子为弱偏好性密码子。CBI是一项计算最优密码子使用程度的指标,当CBI为负值时表示最优密码子出现次数较平均使用次数还少(姜艳,2016),FOP的取值范围为0~1,数值越小表示最优密码子被使用的频率越小。法螺线粒体基因组密码子的CBI和FOP数据分析结果均表明,最优密码子使用频率低,从侧面表明法螺线粒体基因组密码子为弱偏好性密码子。

从原核生物到真核生物的基因组中广泛存在

基因密码子使用偏好性,目前科学界普遍认为自然选择和基因突变是主导因素,其次还与基因的碱基组成、基因长度、tRNA丰度及蛋白的亲疏水性等因素有关(Sloan and Taylor,2010;Behura and Sever‐son,2011;Rao et al.,2011;Benjamini and Speed,2012;Wei et al.,2014)。中性绘图分析结果显示,GC12与GC3的相关系数为0.239,未达显著相关水平,表明自然选择在法螺线粒体基因组密码子偏好性的形成过程中起主导作用;ENC-plot绘图分析结果也显示多数基因位于标准曲线的下方,进一步印证在法螺线粒体基因组密码子偏好性的形成中自然选择是主导因素,与姜艳(2016)、慎佩晶等(2020)、赵婉清等(2020)的研究结论相似。最优密码子确立可有效提高外源基因的表达效率。本研究根据高/低表达基因库同义密码子△RSCU>0.08的标准,筛选出27个高表达优越密码子;而根据同义密码子RS‐CU>1.00的标准,获得28个高频密码子。选取两者共有的密码子作为最优密码子,最终确定11个密码子为法螺线线粒体基因组的最优密码子,分别为

UUU、CUA、GUA、UAU、CAA、AAA、UCA、CCA、ACA、GCC和GCA,对应编码苯丙氨酸、亮氨酸、缬氨酸、酪氨酸、谷氨酰胺、赖氨酸、丝氨酸、脯氨酸、苏氨酸及丙氨酸(密码子GCC和GCA均编码丙氨酸)。张志东等(2019)研究发现,文蛤与法螺的最优密码子不同,但所编码的氨基酸有5个相同,分别是亮氨酸、缬氨酸、丝氨酸、脯氨酸和丙氨酸;慎佩晶等(2020)研究表明,罗氏沼虾的最优密码子有16个,共编码氨基酸10个,其中6个与法螺的相同,分别为丝氨酸、丙氨酸、缬氨酸、苏氨酸、亮氨酸和脯氨酸。本研究通过对法螺密码子偏好性进行分析,探究基因突变和自然选择对密码子偏好性的影响,可为法螺属动物类群的进化驱动因素及种质资源保护与遗传改良提供参考依据。

4 结论

法螺线粒体基因组密码子偏好以A/U(T)结尾,筛选确定的11个最优密码子(UUU、CUA、GUA、UAU、CAA、AAA、UCA、CCA、ACA、GCC和GCA)主要以A/U结尾。法螺线粒体基因组密码子为弱偏好性密码子,自然选择在其偏好性的形成过程中起主导作用。

猜你喜欢

密码子绘图线粒体
特发性肺纤维化中的线粒体质量控制
紫九牛叶绿体基因组密码子偏好性分析
线粒体自噬在纤维化疾病中作用的研究进展
编辑部故事
线粒体自噬在蛛网膜下腔出血中的研究进展
新型密码子、反密码子、氨基酸对应盘
垂涎三尺
运动介导AMPK调控线粒体质量控制的机制研究进展
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析