APP下载

樟树叶绿体基因组密码子偏好性分析

2018-05-30秦政郑永杰桂丽静谢谷艾伍艳芳

广西植物 2018年10期
关键词:樟树

秦政 郑永杰 桂丽静 谢谷艾 伍艳芳

摘 要:为分析樟树(Cinnamomum camphora)叶绿体基因组密码子偏好性使用模式,该研究利用CodonW、EMBOSS、R语言等软件和程序,对53条樟树叶绿体基因组密码子使用模式及偏好性进行了系统分析。结果表明:樟树叶绿体基因的有效密码子数(ENC)在36.82~59.30之间,表明密码子的偏好性较弱。相对同义密码子使用度(RSCU)分析发现RSCU>1的密码子有32个,其中28个以A、U结尾,表明第3位密码子偏好使用A和U碱基。中性绘图分析发现GC3与GC12的相关性不显著,回归曲线斜率为0.049,说明密码子偏好性主要受到自然选择的影响。ENC-plot分析发现大部分基因落在曲线的下方,同样表明选择是影响密码子偏好性的主要因素。该研究发现共有9个密码子(UUU、CUU、UCA、ACA、UAU、AAU、GAU、UGA、GGA)被鉴定为樟树叶绿体基因组的最优密码子。

关键词:樟树,叶绿体基因组,密码子偏好性

中图分类号:Q943.2

文献标识码:A

文章编号:1000-3142(2018)10-1346-10

Abstract:In order to analyze the codon usage patterns of the chloroplast genome of camphora tree,53 CDS(coding DNA sequences) were selected from the chloroplast genome of camphora tree and the codon usage pattern and bias were analyzed  by CodonW,EMBOSS,R language and other softwares. The results showed that the effective codon number(ENC) of the chloroplast gene ranged from 36.82 to 59.30,indicating that bias of codons was weak. There were 32 codons with relative codon usage greater than 1,of which 28 were rich in A and U,indicating that the 3rd position of codon prefers A and U genetic bases. Neutral analysis found that the correlation between GC3 and GC12 was not significant,and the slope of the regression curve was 0.049,suggesting that codon bias was mainly affected by natural selection,while the ENC-plot analysis found that most genes fell below and around the curve. It was shown that the mutation also affected the formation of codon bias. Eventually,nine codons(UUU,CUU,UCA,ACA,UAU,AAU,GAU,UGA,GGA) were identified as the optimal codons for the chloroplast genome of camphora tree.

Key words:Cinnamoum camphora,chloroplast genome,codon bias

編码相同氨基酸的不同密码子被称为同义密码子。在生物体中,同义密码子的出现具有非随机性,即某一物种通常倾向于使用一种或几种特定的密码子,该现象被称为密码子使用偏好性(codon usage bias,CUB)(Grantham et al,1980; Marín et al,1989)。密码子使用模式的分析从分子生物学层面揭示了基因调控、基因表达、蛋白质二级结构、选择性转录等现象。其中,不同生物体密码子使用产生偏好性是突变压力和自然选择下的结果(Duret & Mouchiroud,1999; Gu et al,2004; Mg & De Farias,2006)。利用不同物种在密码子使用上的偏好性,可以提高蛋白表达的效率和准确性(Gerrit & Diarmaid,2016; Lee et al,2009)。叶绿体是植物生命活动的代谢中心,在植物光合作用和生物合成中具有重要作用(Neuhaus & Emes,2000)。植物叶绿体基因组规模小、拷贝数多,且在分子水平上多个基因的功能得到验证,已成为当今生物学领域的研究热点(Xu et al,2011)。1986年首次公布了烟草(Nicotiana tabacum)(Shinozaki et al,1986)和地钱(Ohyama et al,1986)(Marchantia polymorpha)的叶绿体基因组。目前,在NCBI网站上的细胞器基因组数据库中已有包括拟南芥(Arabidopsis thaliana)(Sato et al,1999)、水稻(Oryza sativa)(Hiratsuka et al,1989)、草莓(Fragaria × ananassa)(Cheng et al,2017)和连翘(Forsythia suspensais)(Wang et al,2017)等在内的约800种植物完整的叶绿体基因组信息。

樟属植物全世界有250~300种,我国约有46种,主要分布在南方各省区。这些植物不僅可用于提取精油作为化工及医药上的重要原料,同时还是重要家具、建筑及雕刻等用材树种。作为樟属植物中的代表性植物,樟树(Cinnamomum camphora)集材用、药用、香料、油用、生态环境建设和生态文化等于一体,极具开发和利用价值。Chen et al(2017)的研究表明樟树叶绿体基因组全长152 570 bp,具有特征性的保守四联体结构,在编码区和非编码区都检测到共40个重复结构和83个简单重复序列。目前,关于樟树叶绿体密码子使用偏好性的研究还未见报道。本研究通过对樟树叶绿体基因组中53个基因的密码子使用偏好性进行分析,在揭示影响密码子偏好性最主要因素的同时还找出了最优密码子,旨在为樟科植物叶绿体基因组学的研究奠定基础。

1 材料与方法

1.1 序列的获取

在NCBI数据库(https://www.ncbi.nlm.nih.gov/)中下载樟树及其他樟科植物的叶绿体基因组信息。樟树叶绿体基因组序列的GenBank登录号为MF156716.1,共注释83条蛋白质编码基因序列。为避免计算密码子偏好性时出现样本偏差,在剔除重复序列后,最终获得53条编码区长度大于300 bp且以ATG为起始密码子,TAA、TGA或TAG为终止密码子的基因序列用于后续分析。

1.2 方法

1.2.1 密码子偏好性分析 用CodonW1.4.2(http://sourceforge.net/projects/codonw)和Excel 2013统计各基因的密码子出现次数(codon number,CN)、有效密码子数(effective number of codon,ENC)(Novembre,2002)和同义密码子相对使用度(relative synonymous condon usage,RSCU)(Sharp & Li,1986)。用EMBOSS(http://imed.med.ucm.es/EMBOSS/)中的CUSP程序分析樟树叶绿体基因组中各基因的GC总含量和密码子第1位、第2位、第3位的GC含量,分别用GCall、GC1、GC2和GC3表示。GC3S表示同义密码子第3位的GC含量。樟树叶绿体基因组中各基因的部分参数的相关性及显著性用R语言分析。

1.2.2 中性绘图分析 中性绘图法的作用为初步判断选择或突变对密码子使用偏好性的影响。在Origin 9.1软件中,绘制散点图并做直线拟合分析。在直线拟合分析中,当回归系数接近1时,表明GC12与GC3间的相关性显著,密码子的碱基组成在3个位置上无差异,密码子偏好性的主要决定因素为突变;当回归系数接近0时,GC12与GC3之间相关性不显著,说明密码子3个位置上的碱基组成不同,密码子的使用更多地受到选择影响。

1.2.3 ENC-plot绘图分析 ENC-plot绘图用于分析突变在密码子使用模式中的作用。当实际ENC值与预期ENC值差异较小时,表明突变对密码子偏好性影响较大,反之选择为影响密码子偏好性的主要因素。此外,还可根据ENC值的高低推断密码子偏好性的强弱。ENC值的理论范围在20~60,值越小表示偏好性越强。当ENC值为20和60两个极值时,表示同义密码子具有完全偏好性或没有偏好性。用R语言绘制二维散点图,并在图中构建出ENC值的期望曲线。

1.2.4 PR2-plot分析 为了避免密码子第3位的AT和GC之间突变不平衡,PR2偏好性分析(PR2-bias plot analysis)仅对4种密码子编码的氨基酸做密码子第3位上A、T、C和G这4种碱基的组成情况分析(Sueoka,1999),并以A3/(A3+T3)|4和G3/(G3+C3)|4的值进行绘图。其中,“|4”表示四密码子氨基酸,分别为丙氨酸、精氨酸(CGA,CGT,CGG,CGC)、甘氨酸、亮氨酸(CTA,CTT,CTG,CTC)、脯氨酸、丝氨酸(TCA,TCT,TCG,TCC)、苏氨酸和缬氨酸。PR2-plot图的中心点为A=T,C=G,以该点发出的矢量表示碱基偏移的程度和方向。

1.2.5 最优密码子分析 对前期筛选出的53条基因的ENC值从小到大进行排序,两端各选出10%的基因建库,在高低两个基因库中将对应密码子的RSCU值相减得到ΔRSCU,选取ΔRSCU > 0.08的密码子作为高表达密码子。将前文分析中RSCU值大于1的高频率密码子与ΔRSCU > 0.08高表达密码子的结果相结合,从而确定出最优密码子(胡莎莎等,2016; 罗洪等,2015)。

1.2.6 系统进化树的构建与分析 使用MAFFT 7.397(Katoh & Standley,2013)(https://mafft.cbrc.jp/alignment/software/)将樟树与其他八种樟科植物的叶绿体基因组序列做多序列比对分析。选择银杏和云杉作为外类群。用BioEdit手工校正比对结果后导入MEGA7.0中用系统邻接法(Neighbor-Joining,NJ)构建进化树。用Bootstrap method进行重复检验1 000次得出结果。

2 结果与分析

2.1 樟树叶绿体基因组密码子偏好性分析

利用CodonW1.4.2分析樟树叶绿体基因组中53条候选基因的密码子组成(表1)。表1结果显示,平均GC含量为39.1%,且分布趋势为GC1(46.81%)>GC2(38.77%)>GC3(31.77%),表明在密码子的3个位置上GC并不是均匀分布,且第3位密码子偏好使用A和U碱基。叶绿体基因组ENC的取值范围为36.82~59.3,且大部分在45以上,说明樟树叶绿体基因组密码子偏好性较弱。

图1结果显示,RSCU值大于1的密码子数目为34个。其中,第3位上的碱基为U、A和G的数目分别为16、13和2,说明U和A为叶绿体基因组密码子的偏好碱基。53条基因的GC含量、ENC和CN间相关性分析结果(表2)显示,GCall与GC1、GC2和GC3呈极显著相关,但GC1、GC2和GC3的相关性水平不显著。ENC与GC3相关系数为0.27,呈显著相关,说明密码子的使用偏好性受第3位碱基的影响较大。CN与GC3、ENC显著相关,表明GC3和密码子的偏好性受基因序列长度的影响。

2.2 中性绘图分析

中性绘图分析结果(图2)显示,GC12 和GC3的分布范围都较为集中,GC12的范围在0.343 1~0.545 8,GC3在0.224 4~0.521 4。GC12与GC3的相关系数为0.143,回归系数为0.049,说明两者的相关性不显著,密码子第3位与第1位、第2位的进化方式可能存在一定差异。因此,樟树叶绿体基因密码子偏好性主要受到选择的影响。

2.3 ENC-plot绘图

从图3可以看出,大部分基因落在期望曲线的下方,表示ENC实际值与ENC预期值之间差异较大,说明樟树叶绿体基因组密码子偏好性更多受选择的影响。

2.4 PR2-plot分析

通过PR2-plot绘图进一步分析樟树叶绿体基因组密码子偏好性的影响(图4)。当A、 T、 C和G四种碱基的使用频率,即A=T,C=G时,密码子使用偏好性不受选择和突变影响(Sueoka,2001)。图4显示,4个区域中的基因位点分布不均匀,左上方位置的个数较多,说明在第3位碱基的选择上密码子具有偏好性,且碱基A的使用频率高于T,碱基C的使用频率高于G。因此,可推论选择是樟树叶绿体基因组密码子偏好性的主要影响因素。

2.5 最优密码子的确定

对53个候选基因的ENC值进行排序后,先从两端各选取10%的基因建立高、低表达基因库;然后计算两个表达库中密码子的RSCU值和两个库中的ΔRSCU值(表3);最后确定了26个密码子为樟树叶绿体基因组高表达密码子。对26个密码子的第3位碱基进行分析,其中,以U结尾的有5个,以A结尾的有5个,以C、G结尾的分别为6个和10个。结合26个高表达密码子和图1的32个高频密码子,选取两者的公共部分,最后确定了9个樟树叶绿体基因组最优密码子,分别为UUU、CUU、UCA、ACA、UAU、AAU、GAU、UGA、GGA。其中,所有密码子均以U或A结尾。

2.6 系统进化树的构建与分析

比較叶绿体基因组序列可以揭示近缘物种类群之间的系统进化关系,同时阐明植物的进化模式(Kim et al,2015)。为深入了解樟树在樟科植物的进化规律和关系,将樟树与其他8种樟科植物的叶绿体基因组序列共同构建系统进化树,选取裸子植物的银杏和云杉为外类群(图5)。图5结果显示,樟科植物的叶绿体基因组单独聚为一枝,与外类群区分明显。樟树与沉水樟的叶绿体基因组亲缘关系最近,且两者均为樟科樟属植物的成员,因此推测两者可能具有相似的密码子偏好性模式。用相同方法对沉水樟叶绿体基因组进行中性绘图(图6)和ENC-plot绘图(图7)发现,GC12与GC3的回归系数接近0(为0.053),同样在ENC-plot绘图中,大部分基因落在期望曲线的下方,两者都说明选择是影响沉水樟叶绿体基因组密码子偏好性的主要因素。这与樟树的分析结果类似,表明樟科或樟属植物在进化过程中自然选择因素对叶绿体基因组密码子偏好性的影响较大。

3 讨论

同义密码子在不同物种间和同一物种的不同基因间使用都具有一定偏好性,高表达量的基因通常具有最优密码子且其密码子偏好性往往更强(Ghaemmaghami et al,2003; Goetz & Fuglsang,2005; Ingvarsson,2007)。Zhou et al(2008b)的研究发现植物叶绿体基因组中密码子结尾处的碱基更偏好使用A或T。本研究发现在樟树叶绿体基因组中GC3与GC1、GC2相关不显著,且GC3的比例为三者中最低,因此得到类似结果,即偏好密码子多以A或T结尾,这与苹果(Malus × domestica)(金桂花等,2014)、杉木(Cunninghamia lanceolata)(郑薇玮等,2016)和柿(Diospyros kaki)(傅建敏等,2017)等植物密码子偏好性研究结果一致。

密码子偏好性的形成原因受多种因素影响,除了最主要的突变和自然选择外(Rao et al,2011),碱基组成差异(Romero et al,2000)、基因编码结构(Rao et al,2011)、tRNA丰度(Novoa & Pouplana,2012)等多种因素也会影响其偏好性。其中tRNA的表达丰度最高,相应的密码子偏好性就越强(Duret,2002; Hershberg & Petrov,2008)。本研究通过对樟树叶绿体基因组三个不同位置上的密码子碱基组成及密码子相关系数进行研究,经中性分析、ENC-plot分析和PR2-plot等分析后发现,选择是影响樟树叶绿体基因组密码子偏好性的主要因素,突变对密码子的偏好性影响较小。在陆地棉(Gossypium hirsutum)(尚明照等,2011)、糜子(Panicum miliaceum)(刘慧等,2017)、普通油茶(Camellia oleifera)(王鹏良等,2018)等植物的叶绿体基因组密码子偏好性分析中,也得到了与本研究相似的结果。然而,在对拟南芥和杨树(Zhou et al,2008a,b) 叶绿体基因组密码子偏好性的研究中发现,突变是主要的影响因素。由此可见,植物密码子偏好性受多重因素共同影响且影响不同植物密码子偏好性的主要因素也不同。

强正向选择和突变压力作用下往往会形成大量的最优密码子,相反纯化选择和突变压力作用下最优密码子数目相对较少(Hershberg & Petrov,2008; 宋辉等,2015)。本研究将高频密码子和高表达密码子分析相结合,共筛选出9个樟树叶绿体基因组中的最优密码子,且这些密码子都以A和U碱基结尾,该结果与前人在蒺藜苜蓿(杨国锋等,2015)、水稻(Zhou et al,2008a)等植物中的研究相吻合。在系统进化树中,分枝越长的物种表明其进化速率相对更快,进化树中异色土楠自成一枝且分枝相对较长,这与前人发现它是在进化中首先与其他樟科植物分离的物种的观点相吻合(Hinsinger & Strijk,2017)。同时,通过分析发现樟树与沉水樟的密码子偏好性都主要受到选择的影响,说明亲缘关系越近的物种可能具有越相似的密码子偏好性。本研究对今后提高目的基因的表达效率具有重要作用,而樟科植物叶绿体基因组密码子分析也将为今后被子植物的系统发育研究提供重要的参考价值(Moore et al,2007; Ruhfel et al,2014)。

猜你喜欢

樟树
香樟树
樟树皮粉外敷治疗2期压力性损伤的临床研究
香樟树之恋
浅析丰城话与樟树话的语音差异
香樟树,樟树香
樟树扦插繁殖研究进展
相信香樟树
暮饮
大樟树上的鸟儿们
樟树木化学成分研究