APP下载

马尾松转录组密码子使用偏好性及其影响因素*

2020-06-02朱沛煌朱灵芝季孔庶

林业科学 2020年4期
关键词:异源密码子碱基

朱沛煌 陈 妤 朱灵芝 李 荣 季孔庶

(南京林业大学 林木遗传与生物技术省部共建教育部重点实验室 南方现代林业协同创新中心 南京 210037)

密码子(codon)是中心法则的重要组成部分,同时也是生物遗传和变异的最基本单元。4种碱基排列组成的三联体密码子共有64个,除3个终止密码子外,其余61个密码子编码构成天然蛋白质的20种氨基酸,对应同一种氨基酸的多个密码子,称为同义密码子(赖瑞联等,2019)。生物体对同义密码子的使用并非完全随机,而是具有密码子使用偏好性(codon usage bias,CUB)。不同物种、器官、核基因与细胞器基因之间都存在不同的密码子使用偏好模式,选择不同同义密码子,密码子不会改变氨基酸序列,但可以影响蛋白表达水平(刘慧等,2017)。

马尾松(Pinusmassoniana)是中国南方广泛分布的用材树种,同时又是分布最广泛的产脂树种(杨章旗,2015)。马尾松生长速度快,纤维含量高,纤维结构优良,常被用于纸浆原料(吴晓刚等,2019)。中国松脂产量占全球总产量的60%以上,马尾松松脂产量约占中国松脂总产量的90%,是中国林业在全球最有影响力的大宗出口工业产品(吴东山等,2019)。此外,马尾松在森林资源发展以及森林生态服务功能等方面也发挥着重要作用,具有巨大的生态价值(杨章旗等,2012)。国家“十一五”计划以来,众多学者在马尾松分子遗传育种领域进行了研究,马尾松生长发育相关基因PmRCA、PmFLO/LFY等(潘婷等,2015;郭天玮等,2015),材性相关基因PmCAD、PmCOMT等(张逢凯等,2014;吴晓刚等,2019),产脂相关基因PmAPS等(王颖等,2014),松材线虫抗性相关基因PmACRE等(李慧敏等,2018)相继被克隆和鉴定。由于目前马尾松转基因技术平台建立遇到了瓶颈,其相关研究只能借助其他异源物种,如烟草(Nicotianatabacum)和拟南芥(Arabidopsisthaliana)等(郭天玮等,2015;陈晓明等,2018),且无法预测马尾松功能基因在异源物种中的表达效率高低。因此,对马尾松和异源转化物种同义密码子使用频率的了解有利于功能基因在异源物种细胞中高效率表达,从而为马尾松分子育种领域的瓶颈问题突破提供帮助。以转录组为基础的马尾松密码子偏好性研究目前尚未见报道,其他针叶树种密码子偏好性相关研究亦罕见报道,本研究可为马尾松及其他针叶树种功能基因的异源表达提供一定的指导作用。

本研究以王晓峰等(2013)马尾松转录组数据(National Omics Data Encyclopedia:OEZ004657)为基础,利用CodonW、EMBOSS软件对马尾松转录组密码子使用偏好特征及其偏好性形成的影响因素进行分析,以期为马尾松分子育种提供支持。

1 材料与方法

1.1 植物材料

选取南京林业大学苗圃7年生马尾松的嫩叶和嫩茎作为植物材料,提取总RNA并通过Illumina平台进行RNA-seq高通量测序与数据分析。参考张太奎等(2017)编写的Perl程序,从组装的CDS(coding sequence 编码序列)序列中筛选出长度大于300 bp,以ATG起始并以TGA、TAG或TAA结尾的编码蛋白质的完整CDS序列。拟南芥、烟草、欧洲山杨(Populustremula)、酿酒酵母(Saccharomycescerevisiae)、大肠杆菌(Escherichiacoli)的密码子使用频率数据来源于在线数据库Codon Usage Database(http: //www.kazusa.or.jp/codon/)。

1.2 方法

1.2.1 密码子使用偏好性参数分析 利用CodonW1.4.4软件与EMBOSS在线软件的CUSP程序(http: //emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析马尾松转录组密码子使用偏好性数据,包括:密码子3个位置的GC含量(GC1s、GC2s、GC3s)、密码子适应指数(codon adaptative index,CAI)、密码子偏好指数(codon bias index,CBI)、密码子使用频率(frequency of codon usage)、有效密码子数目(effective number of codon,ENc)以及同义密码子相对使用度(relative synonymous codon usage,RSCU)。

1.2.2 中性绘图分析 密码子3个位置发生突变导致的结果并不一致,第1、2位上发生的突变通常是非同义突变,可能导致蛋白质功能改变,而第3位上的突变通常是同义突变(刘慧等,2017)。中性绘图分析(neutrality plot)以各CDS密码子第1、2位平均GC含量GC12为纵坐标,GC3s为横坐标,通过GC12和GC3s的相关性来分析密码子使用偏好性形成的主要因素。如果GC12和GC3s相关性显著,即密码子3个位置碱基组成无差异,说明密码子偏好性形成主要受突变影响;反之,密码子第3位碱基组成与第1、2位有差异,说明密码子偏好性形成主要受自然选择的影响。

1.2.3 ENc-GC3s关联分析 ENc-GC3s关联分析以各CDS的ENc值为纵坐标、GC3s为横坐标,通过对各CDS实际ENc值与根据其GC3s计算的理论ENc值(Wright,1990)比较,分析密码子偏好性形成的主要原因。如果CDS点分布在标准曲线附近,一般认为其密码子偏好性主要受突变影响,若CDS点远离标准曲线,一般认为其密码子偏好性主要受自然选择影响。ENc理论值公式:ENc=2+GC3s+29/[GC3s2+(1-GC3s)2]。

1.2.4 偏倚分析 偏倚分析(PR2-plot analysis)以A3s/(A3s+T3s)为纵坐标、G3s/(G3s+C3s)为横坐标,通过对各CDS点与坐标图中心点(0.5,0.5)的距离分布分析密码子第3位上偏好性形成的主要原因。若CDS点距离中心点近,通常认为密码子第3位偏好性主要受突变影响,反之更可能受到自然选择影响。

1.2.5 最优密码子分析 根据各CDS的ENc值排序,选择上下限10%各559个CDS作为高低表达样本计算并比较RSCU值,选择ΔRSCU(高低表达样本RSCU的差值)大于0.08且RSCU在高表达基因子集中大于1.0的密码子作为最优密码子(Jiangetal.,2008;刘慧敏等,2016;胡福初等,2017)。

1.2.6 密码子频率分析 密码子使用频率是异源表达基因的重要参考因素,密码子偏好性差异过大将影响表达效率(Qinetal.,2013)。通过2种生物密码子使用频率的比值,可以分析其密码子偏好性差异,从而确定是否适合进行异源表达。

2 结果与分析

2.1 序列筛选与密码子偏好性分析

利用Perl脚本从马尾松转录组拼接序列中筛选获得5 592条符合要求的CDS序列,共包含2 350 008个密码子,并利用CodonW、EMBOSS软件对筛选后的CDS序列进行密码子偏好性分析。结果表明,所有CDS序列的GC1s、GC2s、GC3s分别为51.91%、41.42%、38.95%,平均GC含量为44.09%,其中有5 007条CDS的平均GC含量在40%~50%,占总数的89.54%,表明马尾松编码蛋白质的密码子比较偏好A/T碱基;3个密码子位置的GC含量由高到低依次为 GC1s>GC2s>GC3s,并且其中GC3s含量在30%~50%的序列占所有CDS的94.28%,GC3s平均值更低于40%,表明马尾松密码子3个位置的碱基组成并不均衡,密码子第3位尤为偏好A/T碱基。

理论ENc值范围在20~61之间,ENc值越趋近20,说明同义密码子选择范围越小,密码子越具有偏倚性,反之说明密码子偏倚性越小。Wright(1990)和Jiang等(2008)将ENc值35作为偏倚性强弱分别的标准。马尾松各CDS的ENc值范围在27.08~61之间,ENc值小于35的CDS序列仅有5条,ENc值大于47的CDS序列占到总数的92.90%,说明马尾松转录本CDS密码子总体上偏倚性较小。

CDS序列所有密码子中,RSCU≥1的密码子有32个,其中第3位为G/C的只有5个,而第3位为A/T的为27个,说明马尾松第3位是A/T的密码子出现频率更高,是马尾松偏好的密码子,而大部分G/C结尾的密码子是马尾松非偏好密码子。

2.2 中性绘图分析

中性绘图分析结果如图1所示,CDS点大都集中于回归曲线附近(y=-0.008 4x+0.480 2),GC12与GC3s 相关性系数为-0.008 4(r2=0.000 3),密码子3个位置上的碱基组成差异极小,第1、2位密码子与第3位密码子碱基组成几乎没有相关性,表明马尾松转录组密码子使用偏好性主要受突变压力影响。

图1 马尾松转录组中性绘图分析

2.3 ENc-GC3s关联分析

ENc-GC3s关联分析结果如图2所示,马尾松大部分CDS点沿理论ENc值标准曲线分布或落在附近,表明这些基因实际ENc值与理论ENc值相近,密码子偏好性较弱,主要受突变压力影响;另外有少数CDS点落在理论ENc值曲线的下方,即其实际ENc值与理论ENc值差异较大,其密码子偏好性形成更可能受自然选择影响,通过与GenBank数据库比对发现这些基因主要包括NADH脱氢酶亚基、锌指蛋白、赖氨酸组氨酸转运体蛋白、泛素蛋白以及一些功能未知蛋白。

图2 马尾松转录组ENc-GC3s关联分析

2.4 偏倚分析

偏倚分析结果(图3)显示了马尾松转录组密码子第3位碱基的使用情况,图中大部分CDS点处在中心点稍右下位置,说明马尾松密码子第3位更偏好T/G碱基。马尾松转录组大部分CDS点位于中心点附近,说明大部分马尾松基因密码子第3位嘌呤与嘧啶出现频率相对接近,密码子偏好性主要受突变影响;还有少数CDS点出现在远离中心点的位置,说明这些马尾松基因密码子第3位某个碱基出现频率非常高或者非常低,其偏好性可能主要受自然选择影响,通过与GenBank数据库比对发现这些基因主要包括钙结合蛋白、锌指蛋白以及一些未知功能蛋白。

图3 马尾松转录组PR2-plot分析

2.5 转录组最优密码子分析

以ENc值作为衡量依据排序,前后各10%的CDS序列作为马尾松高低表达基因样本进行RSCU值计算和分析,如果密码子的使用没有偏好性,则该密码子的RSCU值应当等于1,当某一密码子的RSCU值大于1或小于1时,表示该密码子为使用相对较多或较少的密码子(李慧娟等,2017)。结果如表1所示,转录组高低表达基因样本之间的ΔRSCU值差异较小(-0.48~0.62),表明马尾松密码子偏好性较弱。通过比较RSCU和ΔRSCU值,除去终止密码子确定了TTA、CAA、TGT、GGT等27个马尾松最优密码子(表1)。这27个最优密码子中有25个第3位均为A/T,仅有2个密码子TTG与AGG第3位为G,没有以C结尾的最优密码子,这与其所有密码子第3位GC含量小于AT含量的整体情况十分一致。

2.6 密码子使用频率分析

一般认为,密码子使用频率比值在0.5~2.0之间表示物种间密码子偏好性差异不明显(赖瑞联等,2019;范三红等,2003)。马尾松与3种植物以及2种微生物密码子使用频率的比值如图4所示。马尾松与烟草、拟南芥和欧洲山杨3种模式植物之间的绝大部分密码子使用偏好性差异很小,马尾松密码子与3种模式植物密码子使用频率比值范围分别为:马尾松/烟草0.48~1.49,马尾松/拟南芥0.50~1.64,马尾松/欧洲山杨0.58~3.00,其中最低为拟南芥CCG(0.50),最高为欧洲山杨CGG(3.00),除欧洲山杨CGG外,3种模式植物其他密码子使用频率比值都在0.5~2.0之间,其中0.75~1.49之间的密码子频率比值占总数的89.1%。与3种植物相比,马尾松与大肠杆菌、酿酒酵母2种微生物密码子使用偏好性的差异较大,尤其与大肠杆菌密码子偏好性差异很大,可能与大肠杆菌为原核生物有关;而与酿酒酵母密码子偏好性差异小于大肠杆菌,可能由于酿酒酵母为真核生物。密码子使用频率分析表明,马尾松基因在其他模式植物或微生物内异源表达或遗传转化验证基因功能时,烟草和酿酒酵母是较为理想的选择。

表1 马尾松转录组最优密码子分析①

①* 表示最优密码子。RSCU表示同义密码子相对使用度,ΔRSCU表示高表达基因RSCU与低表达基因RSCU的差值。* means the major preference codons.RSCU means relative synonymous codon usage, and ΔRSCU means difference RSCU of high expressed genes and low expressed genes.

图4 马尾松转录组与模式生物基因组密码子使用频率比较

3 讨论

异源表达基因时,除宿主、启动子等因素外,基因编码区的序列也会影响蛋白表达,如密码子偏爱性、mRNA二级结构等(蔡海莺等,2013)。密码子使用偏好性是生物在进化过程中受到突变和自然选择等影响的综合结果,Sharp等(1994)研究表明,基因表达受到密码子偏好性的调控,最优密码子可以提高翻译的效率和准确率。异源基因表达时,将目的基因的原有密码子优化成目标异源物种的优势密码子,可以提高基因的表达效率。Jabeen等(2010)发现植物原生质体中密码子优化后的cryAb基因表达水平提高了4~6倍。寇莹莹等(2016)发现密码子优化后的无花果曲霉(Aspergillusficuum)phyA基因在大豆(Glycinemax)中有更高的活性。

本研究以马尾松转录组数据为对象,筛选出5 592条完整CDS序列,利用密码子分析软件对密码子的碱基构成与其他参数进行计算分析,结果表明,马尾松总体上偏好使用第3位碱基为A/T的密码子。叶友菊等(2018)对马尾松叶绿体基因组45个基因CDS分析表明马尾松叶绿体基因密码子GC3s为29.68%,偏好使用第3位碱基为A/T的密码子,这与本研究马尾松转录组CDS分析结果相似;罗群凤等(2018)也得到极为相似的结果。Murray等(1989)研究发现双子叶植物偏好使用第3位碱基为A/T的密码子,而单子叶植物偏好第3位碱基为G/C的密码子。曲俊杰等(2017)与陈哲等(2017)分别对单子叶植物香蕉(Musanana)和菠萝(Ananascomosus)的基因组密码子分析,发现其GC3s含量分别为52.9%和55.4%,更偏好使用第3位碱基为G/C的密码子;赖瑞联等(2019)与陆育生等(2018)分别对双子叶植物橄榄(Canariumalbum)和黄皮(Clausenalansium)转录组密码子分析,发现它们的GC3s含量分别为37.7%和40.0%。这几种植物与更多其他植物密码子分析的结果基本支持了Murray等(1989)的观点。刘宁等(2013)对裸子植物红豆杉属(Taxus)52条CDS的密码子分析表明其偏好使用第3位为A/T的密码子,与拟南芥等双子叶植物相近。马尾松与双子叶植物的密码子使用偏好性相似而与单子叶植物不同,暗示马尾松基因在拟南芥、欧洲山杨等双子叶植物中更可能获得高效异源表达;而在小麦(Triticumaestivum)、水稻(Oryzasativa)等单子叶植物中表达可能需要根据异源植物的密码子偏好性对马尾松基因进行适当的密码子优化。

生物基因组或转录组中具有低ENc值的基因需要的同义密码子数量少,更能代表该生物编码密码子的使用偏好性。根据ENc值上下限10%的基因样本计算ΔRSCU值,得到的27个最优密码子中有25个第3位碱基是A/T,而所有编码氨基酸的61个密码子中总共含有29个A/T结尾的密码子,其中25个为马尾松的最优密码子,充分表明了马尾松偏好选择A/T结尾密码子的特点,进一步表明偏好G/C结尾密码子的物种外源基因需在马尾松细胞具有高表达效率,需对基因编码区进行密码子优化,尽量选择第3位为A/T的同义密码子。

密码子使用偏好性的形成是突变压力和自然选择共同作用的结果。中性绘图、偏倚分析与关联分析表明,大多数马尾松基因密码子的使用偏好性主要受突变压力影响,而少数基因受到自然选择作用影响,如NADH脱氢酶亚基,以及具有特殊结构的锌指蛋白等。根据密码子使用频率分析,马尾松与烟草、拟南芥和欧洲山杨的密码子偏好性的差异较小,仅拟南芥和欧洲山杨各1个密码子与马尾松密码子使用频率比值在0.5~2.0范围以外,其中烟草最适合马尾松异源植物表达,木本模式植物欧洲山杨也较为合适。陈晓明等(2018)在拟南芥中异源表达马尾松萜类合成途径关键酶基因PmGGPPS,并检测到转化植株较野生型二萜组分显著提高。郭天玮等(2015)将马尾松花发育相关基因PmFLO/LFY转入烟草,发现可促使烟草花期提前。目前已有在微生物构建蒎烯等松脂组分异源生物合成的报道,但大多未进行密码子优化(陈天华等,2019;冯红茹等,2015)。根据本试验结果,马尾松基因在酿酒酵母中表达效果可能优于大肠杆菌,如选择大肠杆菌对马尾松基因做原核表达,需对马尾松基因做密码子优化并人工合成具有大肠杆菌同义密码子偏好性的马尾松基因片段作为前提。本试验结果初步揭示了马尾松密码子特性,可为进一步深入马尾松分子水平的研究提供帮助。

4 结论

马尾松整体密码子GC含量为44.95%,尤为偏好第3位为A/T的密码子,所有密码子第3位GC含量仅为38.95%。共筛选出27个马尾松最优密码子,其中25个密码子第3位为A/T。中性绘图、ENc-GC3s、偏倚性分析结果认为马尾松密码子使用偏好性形成主要受突变影响,其次受自然选择等多重作用方式共同作用。可选择烟草作为马尾松基因异源表达的优选植物体,若选择微生物异源表达马尾松基因,酿酒酵母较大肠杆菌可能更适合。

猜你喜欢

异源密码子碱基
近岸水体异源遥感反射率产品的融合方法研究
基于EM-PCNN的果园苹果异源图像配准方法
应用思维进阶构建模型 例谈培养学生创造性思维
密码子与反密码子的本质与拓展
脸谱与假面 异源而殊流
中国科学家创建出新型糖基化酶碱基编辑器
新型密码子、反密码子、氨基酸对应盘
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
基于SSR分子标记的Nicotiana tobacum–N. plumbaginifolia异源染色体植株的鉴定与筛选