APP下载

植物遗传育种与分子生物学巨桉叶绿体基因组密码子偏好性分析

2019-09-10王鹏良吴双成杨利平王华宇陈乃明张照远

广西植物 2019年12期
关键词:叶绿体基因组

王鹏良 吴双成 杨利平 王华宇 陈乃明 张照远

摘要:  该文针对巨桉叶绿体基因组序列,选取其中长于300 nt且以AUG为起始密码子的43个非重复基因作为研究对象,采用CodonW1.4.2软件分析巨桉叶绿体基因组的密码子使用偏好性。结果表明:第3位密码子的平均GC含量为27.97%;ENC的变化范围为39.49~61.00,平均为47.04;RSCU>1的密码子有31个,其中29个以A/U结尾;中性分析显示,GC12与GC3无显著相关;回归分析未达到显著性水平;ENC-plot分析发现,大部分基因落在曲线上或附近;对应分析表明第1轴的贡献率为17.68%,第2轴的贡献率为11.49%,第3轴、第4轴的贡献率分别为8.00%和5.76%,前4轴累计贡献率达42.93%,第1轴与GC、ENC、CAI达到极显著相关。上述分析结果表明,巨桉叶绿体基因组的密码子偏好较弱,密码子第3位偏好以A或U结尾,选择和突变在巨桉叶绿体基因组密码子偏好中起相对均衡的作用,最终确定UUG、CUU、GUU、UCC、UCA、ACA、UAU、UAA、CAU、AAU、AGA和GGA 12个高频高表达密码子为最优密码子。这为转化叶绿体基因密码子优化,提高表达效率和改良巨桉目标性状奠定了坚实基础。

关键词: 巨桉, 叶绿体, 基因组, 密码子偏好性

中图分类号:  Q945.4文献标识码:  A文章编号:  1000-3142(2019)12-1583-10

作者简介: 王鹏良(1978-),男,浙江新昌人,博士,高级工程师,主要从事植物遗传育种研究,(Email)pengliang_wang@163.com, pengliang_wang@qzhu.edu.cn。

Abstract:  In this study, analysis of codon bias was carried out using CodonW 1.4.2 software, with chloroplast genome of Eucalyptus grandis as material and 43 nonrepeated genes beginning with AUG as objects. The results showed that the average GC content in the 3rd position was 27.97%; ENC ranged from 39.49 to 61.00 with an average of 47.04; there were 31 codons whose RSCU were more than 1.00 in the chloroplast genome; of which, 29 codons ended with A/U; neutral plot analysis showed correction and regression analysis between GC12 and GC3 were not significant; ENCplot revealed most genes were located along or near the standard curve; correspondence analysis indicated the 1st axis accounted for 17.68% contribution, the 2nd axis 11.49%, the rest axes accounted for 8.00% and 5.76% and the first four axes accounted for 42.93% in total; the correction between the 1st axis and the parameters such as GC, ENC and CAI was extremely significant.  The results mentioned above revealed that the codon bias level was low in the chloroplast genome and the 3 rd codons always end with A/U and codon bias might be determined by both mutation and selection nearly equally. Finally, twelve codons that were not only highly expressed but frequently were determined as the optimal codons including UUG, CUU, GUU, UCC, UCA, ACA, UAU, UAA, CAU, AAU, AGA and GGA. This study will provide a solid foundation for codon optimization of the genes transformed into chloroplast genome and future increasing the expression efficiency for improvement of important traits.

Key words: Eucalyptus grandis, chloroplast, genome, codon bias

巨桉(Eucalyptus grandis)原產于澳大利亚,为桃金娘科桉属中的一个多年生木本树种。因其生长迅速、树形通直、树体高大,巨桉被引种至世界各地广泛种植,成为各国重要的外来树种(陈少雄等,2018)。因此,研究人员在引种驯化的基础上开展了种源/家系/单株不同性状变异研究。前人结果表明,巨桉的抗寒性不足(刘建等, 2009),易受瘿姬小蜂感染(张照远等,2016),不同遗传资源在生长和形质方面也存在较大差异(吴世军等, 2016)。

基因工程技术育种与传统育种技术相比具有针对性强、周期短、效率高等明显优势(王关林和方宏筠, 2014)。叶绿体基因工程具有明显的高效表达,并能有效控制转化基因的扩散等特点,是极为理想的转化方式(Daniell & Chase, 2004)。密码子被称为第二套遗传密码(Nelson & Cox, 2017; Hanson & Coller, 2018);密码子使用的选择不仅影响基因的表达(Zhou et al., 2016),也影响基因相应的功能(Hershberg & Petrov, 2008)。不同物种间叶绿体基因组的密码子偏好存在较大差异(Zhou et al., 2008; 王鹏良等, 2018)。本文旨在分析巨桉叶绿体基因组密码子偏好性的特征,并确定其最優密码子,为巨桉叶绿体基因工程的开展和遗传改良奠定基础。

1材料与方法

1.1 序列

从NCBI网站的细胞器基因组网页中搜索巨桉的拉丁名Eucalyptus grandis找到巨桉的叶绿体基因组(https://www.ncbi.nlm.nih.gov/nuccore/NC_014570.1),下载其Fasta格式的全基因组和基因编码序列(coding sequences)。巨桉叶绿体基因组总长为160 137 bp,共含有75个基因。为了降低误差,本文选用其中以AUG为起始密码子且长度超过300 nt的43条非重复序列用于密码子偏好性分析。

1.2 数据分析

1.2.1 密码子偏好参数计算 以所选的43个非重复基因的编码序列为对象,采用CodonW1.4.2软件分析密码子偏好参数:同义密码子相对使用度(RSCU, relative synonymous codon usage)、有效密码子数目(ENC, effective number of codon)、密码子适应指数(CAI, codon adaption index)、密码子偏好性指数(CBI, codon bias index)、最优密码子使用频率(FOP, frequency of optimal codons),该基因表达为蛋白质的疏水性(Gravy)及不同位置的GC含量。其中,有效密码子数目最小理论值为20,说明每个氨基酸都只有一个密码子,最大理论值为61,说明所有密码子都均等使用;密码子适应指数,变化范围为0Symbol~A@1,值越大偏性越强;不同位置的GC含量,包括GC1、GC2、GC3、GC3S、GC12和GC,分别代表密码子中第1位、第2位、第3位的GC含量,第3位同义密码子GC含量,第1位、第2位密码子平均GC含量和密码子总体的GC含量。

1.2.2 中性绘图分析 为了初步确定影响密码子偏好的因素,中性绘图分析根据GC1和GC2的信息计算两者的平均值GC12作为纵坐标,以GC3为横坐标,以散点图的形式在坐标中定位各基因的位置,根据基因的坐标信息与坐标对角线的关系,若基因位于对角线上,则表明基因受突变作用;若基因不位于对角线,则表明该基因收到选择的影响,从而判断造成密码子的使用偏好的因素。

1.2.3 ENC-plot绘图 为了进一步确定影响密码子偏好的因素,ENC-plot绘图以ENC为纵坐标,以GC3S为横坐标建立坐标系,先将各基因定位在该坐标中形成散点图。再在坐标系中添加ENC的标准曲线,标准曲线方程(Wright, 1990):

根据散点图和ENC比值的分布结果,若偏离标准曲线,则表明受到选择作用;若在标准曲线上,则只是受到突变作用,从而推断造成密码子偏好的可能原因。

1.2.4 对应分析 对应分析是一种对原始数据采用适当的标度方法,将变量和样本分析结合起来,同时得到两方面的结果,在同一因子平面上对变量和样本一起进行分类,从而揭示样本和变量间的内在联系。利用CodonW软件将对应分析用于巨桉叶绿体基因组密码子分析,从而揭示巨桉叶绿体基因组密码子使用的规律。

1.2.5 最优密码子的确定 为了确定最优密码子,以ENC参数为标准对所有参试基因按照从大到小的顺序排列,分别从ENC最高和最低两端都选取所有参试基因的10%,建立高表达和低表达库。

将高表达库与低表达库的同义密码子相对使用度的差值(ΔRSCU)高于0.08且同义密码子相对使用度(RSCU)高于1的密码子确定为最优密码子(李娟和薛庆中, 2005; 续晨等, 2010; 杨国锋等, 2015; 王鹏良等, 2018)。

2 结果与分析

2.1 密码子组成分析

为了更加准确分析密码子偏好性,本研究选取了巨桉叶绿体基因组中以AUG为起始密码子且编码区序列长度超过300 nt的43个非重复基因的编码序列为研究对象,采用CodonW软件对参试基因开展密码子相关参数的计算和分析。由表1可知,不同基因密码子不同位置的GC含量并不相同,第1位、第2位、第3位密码子的GC含量的变化范围分别为34.20%~58.90%、27.90%~58.70%、20.20%~37.00%,其平均值分别为47.40%、39.47%、27.97%,且第1位、第2位的GC含量明显高于第3位;ENC的范围在39.49~61.00之间,平均值为47.04;CAI的范围为0.082~0.301,平均值为0.171 4;CBI的范围为-0.222~0.196,平均值为-0.092;FOP的范围为0.263~0.532,平均值为0.356;蛋白质的Gravy变化范围为-0.704~1.102,平均值为0.017。

密码子参数的相关分析结果(表2)表明:GC1与GC2为显著相关,其相关系数为0.363;GC1与GC3相关不显著,GC2与GC3相关也不显著;GC含量与GC1和GC2极显著相关,与GC3无显著相关;ENC与GC1不相关,与GC2显著负相关,与GC3极显著正相关,其相关系数为0.521;GC1和GC两个参数与CAI、 CBI和FOP极显著相关, GC3与CAI、 CBI和FOP呈显著相关;Gravy与其余的密码子参数均无显著相关;密码子数目(N)与GC3极显著相关外,不与ENC和CAI等其他参数显著相关。

RSCU分析结果(表3)表明,RSCU大于1.00的密码子数目为31个。其中:以U结尾的密码子有16个;以A结尾的密码子有13个;以G和C结尾的密码子分别为1个;以A或U结尾的密码子占全部的93.54%。

2.2 中性绘图分析

巨桉叶绿体基因中性绘图表明,GC12的变化范围为33.65%~55.45%,GC3的变化范围为20.20%~37.00%,GC12与GC3未达到显著水平,说明GC12与GC3相关性弱。突变对密码子第1位、第2位和第3位碱基组成有着不同的影响。假如完全由随机突变造成的,那么基因应该在对角线上。从图1可以看出,绝大多数基因都分布于对角线上方,GC12均高于GC3,绝大多数基因所在的位点高于对角线,说明选择在密码子偏好中起主要作用。

2.3 ENC-plot分析

ENC-plot绘图以ENC为y轴,GC3S为x轴建立坐标系,将所有参试基因定位于该坐标系中,同时根据公式(1)添加标准曲线。ENC-plot分析结果(图2)表明,尽管有一小部分偏离标准曲线,但是大多数基因位于标准曲线附近。为了更加准确反映差异,先根据公式(1)求出ENC的理论值,再根据公式(2)求算出ENC比值。在此基础上分析所有参试基因的ENC频数分布(表4),统计结果表明,51.16%的基因分布在-0.05~0.05之间,34.88%的基因分布在0.05~0.15之间,9.30%的基因分布在-0.15~-0.05之间,另有2.33%的基因分布在-0.25~-0.15和0.15~0.25之间。这说明突变对巨桉叶绿体基因组密码子偏好的形成起重要作用。

2.4 对应分析

对应分析表明,第1轴贡献率为17.68%,第2轴贡献率为11.49%,第3轴、第4轴的贡献率分别8.00%和5.76%。前4个向量的总贡献率为42.93%。第1轴和第2轴的贡献率均超过10%,说明第1轴和第2轴都是密码子偏好的主要影响因素。第1轴与GC、 CAI、 CBI和FOP呈极显著的正相关,其相关系数分别为0.573、0.670、0.578和0.523;第1轴ENC呈极显著的负相关,其相关系数为-0.395; 第1轴与GC3S无显著相关, 而與第3位同义密码子A和G含量呈极显著相关, 其相关系数分别为-0.440和-0.606。为了更加直观地观察密码子偏好,建立以第1轴为x轴,以第2轴为y轴的平面坐标系,将所有参试基因按不同功能分布于坐标系中(图3)。图3结果显示,核糖体蛋白基因分布相对集中,其余基因分布相对比较分散,说明核糖体蛋白基因的密码子偏好相近,与其他基因的密码子偏好相差较大。

2.5 最优密码子的确定

以密码子的ENC参数为标准,对参试基因进行排序,从两端各选取10%的基因(两端各选取4个),分别建立高/低表达基因库,在此基础上重新计算各表达库的RSCU,求算出两个库的ΔRSCU(表5)。以ΔRSCU>0.08为标准确定31个高表达密码子(表5中*标注的密码子),其中12个以G结尾,8个以C结尾,6个以A结尾,5个以U结尾。

将表3中的高频密码子与表5中确定的高表达密码子进行分析,选取其中共有的密码子作为最优密码子。巨桉叶绿体基因中有12个最优密码子为UUG、CUU、GUU、UCC、UCA、ACA、UAU、UAA、CAU、AAU、AGA和GGA,其中10个密码子以U或A结尾,另外2个以G或C结尾。

3 讨论

遗传密码是指核苷酸序列与氨基酸序列的对应关系。20种蛋白质氨基酸中Met和Trp两种氨基酸只有一个密码子,其余18种氨基酸均有2~6个不等密码子编码,即密码子的简并性,编码同一氨基酸的密码子为同义密码子(朱圣庚和徐长发, 2016)。同义密码子差别主要在于第3位密码子的变化。本研究中巨桉叶绿体基因组中GC3与GC1和GC2无显著相关,并且明显小于GC1和GC2。这说明巨桉叶绿体基因密码子偏好以A和U结尾,RSCU分析结果从定量分析的角度也充分证明这一观点。这与已报道的黄芩(Scutellaria baicalensis)(王文斌等, 2018)、普通油茶(Camellia oleifera)(王鹏良等, 2018)、蒺藜苜蓿(Medicago truncatula)(杨国锋等, 2015)等植物叶绿体基因的特征一致。

生物在编码氨基酸时经常倾向使用某个特定的同义密码子的现象称为密码子使用偏好性(吴宪明等, 2007)。巨桉叶绿体基因组的密码子的ENC平均值为47.04。以35为标准,ENC低于35的为强偏好性密码子;高于35的为弱偏好性密码子(Jiang et al., 2008)。因此,巨尾桉叶绿体基因组密码子为弱偏好性的,CAI参数也支持这一观点。

密码子偏好受碱基组成、选择、tRNA丰度、基因长度和蛋白质的疏水性等许多因素的影响 (梁菲菲, 2010)。本研究中由于密码子数目不与ENC及CAI等密码子参数显著相关,所以巨桉叶绿体基因组中基因长度对密码子偏好没有明显作用;同样,蛋白质疏水性对巨桉叶绿体基因组密码子偏好也无明显作用;同义密码子第3位A、G含量和GC含量与第1轴达到极显著相关,表明碱基差异对密码子的偏好有影响。CAI、CBI和FOP与第1轴极显著相关,表明基因有选择地使用高丰度的tRNA对应的密码子,导致基因的高表达(Ikemura,1981a,1981b,1985),说明选择是影响密码子偏好的重要原因。由于第3位A、G含量和GC含量与第1轴的相关系数与CAI、CBI和FOP和第1轴的相关系数比较接近,因此突变和自然选择在密码子偏好中的作用基本相当。中性绘图分析表明,选择是导致密码子偏好的相对主要因素,而ENC-plot分析结果却显示突变占有较大比例。因此,本研究认为突变和选择在巨桉叶绿体基因组中可能起相对均衡的作用。

本研究以高表达的高频密码子为最优密码子,在巨桉叶绿体基因组中确定的12个最优密码子分别为UUG、CUU、GUU、UCC、UCA、ACA、UAU、UAA、CAU、AAU、AGA和GGA。巨桉叶绿体基因组最优密码子的确定为优化目标基因的密码子,提高表达效率,从而利用叶绿体基因工程改良巨桉重要性状奠定良好基础。

参考文献:

CHEN SX, ZHENG JQ, LIU XF, et al., 2018. Hundred year histories and prospect of Eucalyptus cultivation technology development in China [J]. World For Res, 31(2):7-21.  [陈少雄, 郑嘉琪, 刘学锋, 等, 2018. 中国桉树培育技术百年发展史与展望 [J]. 世界林业研究, 31(2):7-12.]

DANIELL H, CHASE C, 2004. Molecular biology and biotechnology of plant organelles [M]. Dordrecht: Springer.

HANSON G, COLLER J, 2018. Codon optimality, bias and usage in translation and mRNA decay [J]. Nat Rev Mol Cell Biol, 19(1):20-30.

HERSHBERG R, PETROV DA, 2008. Selection on codon bias [J]. Ann Rev Genet, 42:287-299.

IKEMURA T, 1981a. Correction between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes [J]. J Mol Biol, 146(1):1-21.

IKEMURA T, 1981b. Correction between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codon in its protein genes : A proposal for a synonymous codon choice that is optimal for the E. coli translation system [J]. J Mol Biol, 151(3):389-409.

IKEMURA T, 1985. Codon usage and tRNA content in unicel-lular and multicellular organisms [J]. Mol Biol Evol, 2(1):13-34.

JIANG Y, DENG F, WANG H, et al., 2008. An extensive analysis on the global codon usage pattern of baculoviruses [J]. Arch Virol, 153:2273-2282.

LI J, XUE QZ, 2005. Comparison of MADS transcriptional factor on codon bias in Arabidopsis and rice [J]. J Zhejiang Univ (Agric Life Sci Ed), 31(5): 513-517.  [李娟, 薛慶中, 2005. 拟南芥及水稻转录因子MADS密码子的偏好性比较 [J]. 浙江大学学报(农业与生命科学版), 31(5):513-517.]

LIANG FF, 2010. Influencing of codon bias and its research significance  [J]. Anim Husb Feed Sci, 31(1):118-119.  [梁菲菲, 2010. 密码子偏性的影响因素及研究意义 [J]. 畜牧与饲料科学,  31(1):118-119.]

LIU J, XIANG DY, CHEN JB, et al., 2009. Low temperature LT50 of three eucalyptus seedlings with electrical conductivity method and Logistic equation [J]. Guangxi For Sci, 38(2):75-78.  [刘建, 项东云, 陈健波, 等, 2009. 应用Logistic方程确定三种桉树的低温半致死温度 [J]. 广西林业科学, 38(2):75-78.]

NELSON DL, COX MM, 2017. Lehninger principles of biochemistry [M]. New York: W. H. Freeman and Company.

WANG GL, FANG HJ, 2014. Plant genetic engineering [M]. Beijing: Science Press.  [王关林, 方宏筠, 2014. 植物基因工程 [M]. 北京: 科学出版社.]

WANG PL, YANG LP, WU HY, et al., 2018. Codon preference of chloroplast genome in Camellia oleifera [J]. Guihaia, 38(2):135-144  [王鹏良, 杨利平, 吴红英, 等, 2018. 普通油茶叶绿体基因组密码子偏好性分析 [J]. 广西植物, 38(2):135-144.]

WRIGHT F, 1990. The effective number of codons used in a gene [J]. Gene, 87(1):23-29.

WU SJ, CHEN GC, XU JM, et al., 2016. Variation analysis and selection for Eucalyptus grandis provenances and families in multiple-sties [J]. For Environ Sci, 32(6): 10-15  [吴世军, 陈广超, 徐建民, 等, 2016. 巨桉种源/家系多点遗传变异及选择比较 [J]. 林业与环境科学, 32(6):10-15.]

WU XM, WU SF, REN DM, et al., 2007. The analysis method and progress in the study of codon bias [J]. Hereditas, 29(4):420-426.  [吴宪明, 吴松锋, 任大明, 等, 2007. 密碼子偏性的分析方法及相关研究进展 [J]. 遗传, 29(4):420-426.]

XU C, BEN AL, CAI XN, 2010. Analysis of synonymous codon usage in chloroplast geneome of Phalaenopsis aphrodite subsp. formosana [J]. Mol Plant Breed, 8(5):945-950  [续晨, 贲爱玲, 蔡晓宁, 2010. 蝴蝶兰叶绿体基因组密码子使用的相关分析 [J]. 分子植物育种, 8(5):945-950.]

YANG GF, SU KL, ZHAO YR, et al., 2015. Analysis of codon usage in the chloroplast genome of Medicago truncatula [J]. Acta Pratac Sin, 24(12):171-179.  [杨国锋, 苏昆龙, 赵怡然, 等, 2015. 蒺藜苜蓿叶绿体密码子偏好性分析 [J]. 草业学报, 24(12):171-179.]

ZHANG ZY, XIANG DY, XU JM, et al., 2016. Comprehensive analysis of growth, stem form and resistance to Leptocybe invasa of Eucalyptus grandis provenances [J]. For Resour Manag, (5): 107-111.  [张照远, 项东云, 徐建民,等, 2016. 不同种源巨桉生长、干形和抗桉树枝瘿姬小蜂的综合评价 [J]. 林业资源管理, (5): 107-111.]

ZHOU M, LONG W, LI X, 2008. Analysis of synonymous codon usage in chloroplast genome of Populus alba [J]. J For Res, 19(4):293-297.

ZHOU ZP, DANG YK, ZHOU M, et al., 2016. Codon usage is an important determinant of gene expression levels largely through its effects on transcription [J]. Proc Natl Acad Sci USA, 113(41): e6117-e6125.

ZHU SG, XU CF, 2016. Biochemistry  [M]. 4th ed. Beijing: Higher Education Press.  [朱圣庚, 徐长发, 2016. 生物化学 [M]. 4版. 北京: 高等教育出版社.]

猜你喜欢

叶绿体基因组
“植物界大熊猫”完整基因组图谱首次发布
宏基因组测序辅助诊断原发性肺隐球菌
科学家开发出人工基因组高效简化策略
甘薯卷叶病毒侵染对叶绿体超微结构的影响
共生
人不吃饭行吗
植物叶绿体盐逆境应答蛋白质组学研究进展
一种快速提取微藻完整叶绿体及其DNA的方法
对“叶绿体中色素的提取和分离实验”的改进