APP下载

禾本科主要农作物叶绿体基因组研究进展

2020-12-04李裕华任永康赵兴华刘江韩斌王长彪唐朝晖

生物技术通报 2020年11期
关键词:禾本科叶绿体基因组

李裕华 任永康 赵兴华 刘江 韩斌 王长彪 唐朝晖

(1.山西大学生物工程学院,太原 030006;2.山西省农业科学院作物科学研究所,太原030031;3.山西省农业科学院生物技术研究中心,太原 030031;4.山西省农业科学院,太原 030031)

作为光合作用的主要场所,叶绿体被视为推进早期生命进化的能量起源。此外,叶绿体在植物生理学和发育的其他方面也起着至关重要的作用[1],包括氨基酸、核苷酸、脂肪酸、植物激素、维生素和大量代谢产物的合成以及硫和氮的同化等重要的生理生化活动[2]。叶绿体基因组研究不仅有助于通过遗传转化体系改良叶绿体功能和选育新品种,而且有利于增强对植物生物学和生物多样性的理解。全面了解叶绿体基因组及其在生物进化中的作用,能够为植物科学的系统发育研究提供关键信息,同时也为探索核基因组、线粒体基因组以及叶绿体基因组3个基因组之间的关系提供新的思路。

禾本科作物是人类粮食和牲畜饲料的主要来源,如小麦、水稻、玉米、大麦及高粱等。研究发现,与其他植物相比,禾本科作物叶绿体基因组在进化过程中的速度加快[3],同时结构上发生了一系列变化[4],因此,禾本科植物为叶绿体基因组的进化研究提供了很好的条件。

1 禾本科作物叶绿体基因组的特征

1962年,通过电子显微镜观察衣藻(Chlamydomonas)叶绿体,发现了DNA纤丝,由此得出叶绿体内存在DNA分子[5]。此后,在很多植物中先后发现叶绿体DNA。1986年,植物叶绿体基因组——烟草(Nicotiana tabacum)全序列最先被发表[6],同年Ohyama又测得地钱(Marchantia polymorpha)叶绿体基因组的完整序列[7]。随后,叶绿体基因组数据库迅速增加充实。

1.1 主要禾本科作物叶绿体基因组序列特征

目前,在NCBI(National Center for Biotechnology Information)上公布的禾本科叶绿体完整基因组序列有1 219个,其中稻属(Oryza L.)有104个,玉米属(Zea L.)有9个,小麦属(Triticum L.)有41个。小麦(Triticum aestivum)[8]、水稻(Oryza sativa)[9]、玉米(Zea mays)[10]、大麦(Hordeum vulgare)、高粱(Sorghum bicolor)[11]、黑麦(Secale cereale)[12]等主要禾本科作物的叶绿体全基因组序列也已随之公开(表1)。

表1 完成测序的部分禾本科作物叶绿体基因组序列分析

从这些完成测序的主要禾本科作物叶绿体基因组的大小来看,一般在115 kb-150 kb[13-14],表1中最大的是高粱(140 752 bp),最小的是黑麦(114 843 bp),小麦、水稻、燕麦、大麦、二穗短柄草之间叶绿体基因组大小相差不多。禾本科作物叶绿体基因组中GC含量均在37.1%(黑麦)-38.9%(水稻)。LSC区的长度约80 kb,SSC区的长度约13 kb,IR区的长度约20 kb[15]。水稻叶绿体基因组中基因数量最多,为162个,小麦、高粱、燕麦、大麦、二穗短柄草之间叶绿体基因组中基因数目差异不大。tRNA在各物种之间数目和种类存在差异,但rRNA的数目和种类在各物种之间保持稳定。

1.2 主要禾本科作物叶绿体基因组结构特征

禾本科作物叶绿体基因组一般为共价闭合环状DNA,在细胞中以多拷贝的形式存在[13]。除环状外,有极少数植物的叶绿体基因组为多环型或线型,如双鞭甲藻(Crypthecodinium cohnii)的叶绿体基因组为多环型结构[16],伞藻(Acetabularia)的叶绿体基因组为线型结构[17]。以禾本科模式作物水稻为例(图1),从NCBI上下载水稻叶绿体全基因组序列(登录号为NC_031333.1),并通过OGDRAW(http://chlorobox.mipmpgolm.mpg.de/OGDraw.html)绘制工具绘制。在图1中可以看出,叶绿体基因组由4个基本部分组成,分别是大单拷贝区(LSC),小单拷贝区(SSC),反向重复区A(IRA)和反向重复区B(IRB),2个片段的反向重复序列被大单拷贝和小单拷贝所隔开,2个IR区域的序列相同,但方向相反。叶绿体基因组上存在高的基因转换能力[18],确保了2个IR序列的一致与稳定。禾本科植物在进化过程中,反向重复区是叶绿体基因组进化过程中延展或缩小的区域。基因组在进化的过程中,IR区序列边缘区也发生了变化[19],随着IR边界的扩张与收缩,有些基因进入IR区,有些基因进入单拷贝区,导致不同物种间的基因数量发生变化。

因此,叶绿体基因组的大小变化在进化过程中主要受到反向重复区的长度变异所影响[20]。禾本科作物在进化过程中,其叶绿体基因组的结构发生了变化[4,19]。在禾本科作物与烟草的叶绿体基因组比对时发现,基因排列的顺序及转录方向存在差异。禾本科作物叶绿体基因组中基因的排列从trnR至trnfM、trnG至psbD以及trnT区域内出现了3次倒置[19,21]。其他物种中暂未发现此种现象,说明倒置发生在禾本科植物的共同祖先中[4,19,22]。

2 禾本科叶绿体基因组中的基因类型分布

图1 水稻(Oryza sativa)叶绿体基因组结构图

禾本科植物叶绿体基因组含有许多功能基因,大约编码110-130个基因[13],主要分为4大类:第一类是与光合作用有关的基因,包括光系统Ⅰ类基因、光系统Ⅱ类基因、NAD(P)H脱氢酶类基因、细胞色素b/f复合体类基因、ATP合成酶类基因、Rubisco大亚基类基因,这些基因散布在LSC区域;第二类是与自我复制相关的基因,包括核糖体RNA类基因、转运RNA类基因、RNA聚合酶类基因、编码核糖体大亚基蛋白类基因、编码RNA聚合酶类的亚基基因、编码核糖体小亚基蛋白类基因;第三类是参与叶绿体中生物合成有关的基因,包括成熟酶基因、乙酰辅酶A羧化酶基因、蛋白酶基因、包膜蛋白基因、细胞色素C合成基因和翻译起始因子基因等;第四类为开放式阅读框(Open reading frame,ORF)即一些功能未知的基因。ycf3和ycf4的产物充当光系统Ⅰ复合物的装配因子[23-26],Wicke建议将这两个基因重命名为pafI和pafII,即光系统Ⅰ的组装因子I和II[15,26],所以表中将这个基因划分到编码光系统Ⅰ的基因中(表2)。

表2 叶绿体基因组中的基因类型分布

3 禾本科叶绿体基因组中的基因序列解析

随着禾本科作物的叶绿体基因组测序数据的不断公布,与基因序列相关的工作已经逐步开展,通过基因序列比对,进一步从基因缺失退化、RNA编辑位点预测等方面进行研究,为系统发育组学的研究奠定了基础。

3.1 禾本科叶绿体基因组中的基因缺失退化现象

禾本科植物叶绿体基因组的基因差异较少,参与编码光系统Ⅰ、光系统Ⅱ、NAD(P)H脱氢酶、细胞色素b/f复合体、ATP合成酶、核糖体RNA、转运RNA、RNA聚合酶、编码核糖体蛋白的基因,以及参与叶绿体生物合成的基因都是高度保守的。但是,在不同作物中一些基因在进化过程中存在退化缺失现象。如在禾本科植物中ycf1和ycf2序列发生了逐渐退化缺失[27]。小麦、玉米、大麦、高粱及黑麦中的accD序列逐渐退化缺失[19],但水稻中仍然存在。ycf2和ycf15序列在黑麦中依然存在,但在小麦、玉米、水稻、大麦赫尔高粱中都已缺失。ycf15序列由于其高度保守且含有丰富的变异位点[28],使得ycf15在系统发育学和分子标记领域存在巨大的研究空间和潜力[29-30],但在禾本科植物中由于ycf15结构变异大,存在3种基因结构,限制了其发展[8,31]。叶绿体基因组中还存在内含子丢失的情况,禾本科植物最初分化产生的物种发生clpP内含子的丢失,随后又发生了rpoC1内含子丢失[19]。

3.2 禾本科作物叶绿体基因组RNA编辑

作为高等植物叶绿体基因转录后表达调控的一种重要方式,RNA编辑是指在基因转录后mRNA中发生的核苷酸碱基的插入、缺失或替换,导致核苷酸序列的改变,从而改变原来遗传信息的过程,导致同一基因翻译出多种氨基酸序列不同的蛋白质[32-34]。RNA编辑一般通过改变蛋白质一级结构中氨基酸的组成最终影响蛋白质的功能。RNA 编辑主要以胞嘧啶转换成尿嘧啶的形式存在,且主要发生在密码子的第一、二位碱基[32,35],但在二穗短柄草(Brachypodium distachyon)[36]中检测到19个编辑位点发生在密码子的第三位碱基,在小麦[37]中也存在1个编辑位点发生在第三位碱基上。自1991年,Hoch等[38]首次发现在玉米叶绿体蛋白编码基因rpl2发生RNA编辑后,即苏氨酸密码子ACG转变为起始密码AUG,人们便对高等植物叶绿体的RNA编辑现象进行了大量研究。通过对小麦[37]、水稻、黑麦、甘蔗(Saccharum officinarum)、玉米、野生二粒小麦(Triticum dicoccoides)[39]、粗山羊草(Aegilops tauschii)[40]及大麦[41]等8种禾本科作物叶绿体的RNA编辑位点进行了比较分析,结果发现ndhA-158、ndhA-188、ndhB-156、ndhB-196、ndhB-204、ndhB-246、ndhB-277、ndhB-494、ndhD-295、rpoB-156、rpoB-182和rpoB-187等12个位点在8个物种中均发生了编辑;atpA-383、ndhA-357、rpl2-1、rps8-61和ycf3-62等5个位点在7个物种中发生编辑,表明这些位点容易发生编辑[39]。并且发现ndhB在这几个叶绿体基因组中的编辑位点都最多[10,42]。研究发现RNA编辑的缺失可能会引起植物黄化,白化甚至幼苗致死[43-45]。例如,在拟南芥(Arabidopsis thaliana)中,RNA编辑位点rpoA-67和clpP-187的缺失导致植株黄化,幼苗致死[43];玉米绿色幼苗中ndhB第3个编辑位点发生编辑,而黄化幼苗中此位点不发生编辑[45]。

除此之外,通过对RNA编辑位点进行比较来分析物种间的进化关系,从而为禾本科物种的起源和进化研究奠定基础。在ndhB-50、ndhB-235和ycf3-15 3个位点,二穗短柄草、黑麦和大麦都发生了编辑,而二穗短柄草和水稻只有在ndhB-235一个位点发生编辑,说明与水稻相比,二穗短柄草与黑麦和大麦的进化关系较近[36]。随后,一些物种特异发生的编辑位点也被鉴定到,atpA-383只在野生二粒小麦和普通小麦中发生编辑;rpl2-1只在乌拉尔图小麦(Triticum urartu)和野生二粒小麦中发生编辑;rps14-27只在普通小麦中发生编辑[46];atpF-47、atpF-127、atpB-1487、rpoA-386、rpoA-1009和rpoC2-2003的RNA编辑只发生在大麦中,表明叶绿体RNA编辑位点也存在一定的物种特异性[41]。

4 禾本科叶绿体基因组在系统发育组学中的应用

系统发育基因组学的研究是围绕着系统发育学和基因组学展开的,主要研究内容包括在基因组水平上通过大量的分子数据研究生物之间的系统发育关系以及通过物种之间进化关系来进行基因组进化机制的研究[47-49]。由于线粒体基因组大小在各植物类群中变异很大,基因组中存在很多外源基因插入,且线粒体基因组中分子内重组的现象广泛存在。所以目前,进行植物系统发育研究主要是利用叶绿体基因组和核基因组的基因组结构及变化进行分析。然而,在植物中由于核基因组的复杂性使得低拷贝基因的筛选比较困难。叶绿体基因组由于大小适中,基因组结构较为保守,易于测序。且各植物类群叶绿体基因组之间具有良好的共线性,便于比较分析。叶绿体基因组碱基替换率适中,近年来基于叶绿体基因组的系统发育基因组学得到了较快的发展,完整的叶绿体基因组序列对于破译密切相关的类群之间的系统发育关系以及增进对植物物种进化的理解非常有价值[50]。

4.1 DNA条形码在系统发育分析中的应用

DNA条形码技术是利用生物体DNA中一个或几个保守片段对物种进行快速准确鉴定的新兴技术。叶绿体上的DNA序列片段(如matK、rbcL、trnH-psbA、rpoC1、rpoB、accD、ycf5和ndhJ等)在植物DNA条形码被广泛应用。Bieniek等[51]使用matK、rbcL和trnH-psbA 3个DNA条形码对禾本科的小麦属的系统发育进行研究,目的是评估由上述DNA条形码标记(matK和rbcL)和候选标记(trnHpsbA)提供的系统发育信息的价值,并评估这些序列的物种识别效力。李永青等[52]通过对8种禾本科牧草DNA条形码通用序列筛选得到matK(matK1、matK2和matK3)和rbcL基因的4个标记位点,并建立了相对应的特异DNA识别码。研究可为混合禾本科牧草饲料中的高粱属、玉蜀黍属、芨芨草属、针茅属、黑麦草属、羊茅属和早熟禾属的8种牧草准确识别提供分子水平上的科学依据。Song等[53]通过对4个高梁属的叶绿体基因组之间的比较分析,得到651个可变位点,137个Indel和9个小倒位。并检测到4个存在差异的DNA区域(rps16-trnQ、trnG-trnM、rbcL-psaI和rps15-ndhF),它们适合于系统发育和物种鉴定。系统发育分析得出高粱族是蜀黍族中的一个单族群。

4.2 叶绿体分子标记在系统发育分析中的应用

分子标记广泛应用于遗传育种、基因组作图、基因定位、物种亲缘关系鉴别、基因库构建、基因克隆等方面的研究。目前,基于叶绿体DNA的分子标记主要有:非编码区分子标记、cpSSR标记、SNP和cpInDel标记等。叶绿体基因组中的SSR对于解决紧密相关的类群之间的遗传多样性非常有用,因此,增加种间研究的能力,可与核基因组开发的SSR标记结合使用,以解决关系紧密的物种之间的系统发育关系[53]。基于测定的叶绿体基因组序列,Qiu等[54]为5种优质羊茅物种组装了叶绿体基因组,并鉴定了结构变异和突变热点,开发确定了cpSSR标记,以促进优良羊茅物种的鉴定。并结合羊草属和黑麦草属中其他物种的叶绿体基因组,重建了羊茅属和黑麦草属复合体的系统发育关系。

4.3 叶绿体基因组在系统发育分析中的应用

同种中,不同亚种的叶绿体基因组序列的不同,反映了它们在进化过程中产生了差异。叶绿体基因组数据库的迅速充实为揭示叶绿体基因组进化理论的研究提供了更充足的条件。通过比较野生稻与栽培稻的叶绿体基因组序列,发现野生稻叶绿体全基因组中存在插入和缺失现象,多发生在 IR区域的编码区,碱基的置换则发生在LSC和SSC区域[55]。Cheng等[56]对412份水稻种质包括野生稻、粳稻、籼稻的叶绿体基因组进行分析,揭示出亚洲水稻(籼稻和粳稻)与野生稻的分离簇,并结合中国[57]和印度[58]亚洲水稻的考古证据进行验证,两个结果都表明籼稻和粳稻在叶绿体基因组水平上可能具有独特的背景,即亚洲水稻(Oryza sativa L.)至少被驯化了2次。

通过以烟草为对照,对玉米、水稻和小麦的106个叶绿体基因的核苷酸序列进行比较分析,表明玉米、水稻和小麦的叶绿体基因组的大多数基因区域进化速率相似,但RNA基因具有高度保守的进化速率,并通过叶绿体基因的可变核苷酸位点来构建系统发育树,从而得出支持水稻和小麦之间的关系更加紧密的论点[59]。Givnish等[60]基于545个单子叶植物和22个亚群中的77个叶绿体基因组,对系统发生率进行了最大似然分析。研究表明物种多样化经历了4次大规模加速,禾本科(Poaceae)、多叶菊科(Danyanthaceae)、兰亚科(Orchidoideae)的树兰亚科(Epidendroideae)和伞形科(Lemnoideae)的天南星科(Araceae),它们均与特定的生态/形态变化有关。单子叶植物的分支确定和支持随着基因数目和分支长度的增加而增加,并随着相对分支深度的增加而减少。

Mondal等[61]通过对短粒野生稻,对组装的叶绿体基因组以及其他11个测序的稻属物种的叶绿体序列进行了系统发育分析,推断该新组装的叶绿体基因组与稻属中的粳稻亚组接近。Moner等[62]对58个野生和驯化的水稻样品进行了完整的叶绿体基因组序列分析,以研究它们的系统发育,从而提供了有关全球主要野生A基因组水稻主要群体的生物地理学的更多信息。通过在AUS稻和粳稻进化枝中鉴定AUS(一种主要产于孟加拉国的水稻)种质,提出了栽培的AUS组水稻的多系母本基因组起源。当前叶绿体类型的分布似乎与核基因组多样性的分布明显不同,表明水稻祖先的复杂进化历史导致了水稻的驯化。竹亚科作为禾本科的一个分支,由于其很少开花和无性繁殖的原因使得它不论从形态上还是分子水平上,都被认为是分类学中的一个困难群体。通过对24个完整的叶绿体基因组进行系统发育分析,为证实由竹亚科(Bambusoideae)与稻亚科(Ehrhartoideae)、早熟禾亚科(Pooideae)共同构成了BEP分支中竹亚科和早熟禾亚科为姊妹关系提供了有力支持[63]。

5 展望

白、疫苗、生物材料等,将为叶绿体基因组转化技术的发展提供了广阔的应用前景。

随着基于高通量的第三代测序技术的不断发展,禾本科作物叶绿体全基因组研究将不断深入,测序将会更快速、更便宜,这有利于构建完整的植物DNA条形码数据库和公共序列数据库,使DNA条形码技术越来越实用[64]。不仅如此,新一代测序技术的发展,将促进叶绿体系统发育基因组学在较低级分类阶元中的应用。这将极大推动叶绿体系统发育基因组学的发展,从而为植物的系统发育研究提供更多的条件支持。对叶绿体基因组的深入研究也将会为物种鉴定、转基因、基因编辑及近缘物种的划分等方面提供一定的理论依据。同时,也为禾本科作物的定向遗传改良,创制新资源提供理论支撑。

叶绿体基因组结构相对稳定,含有大量遗传信息,被视为探索植物间进化关系的重要数据来源。禾本科植物中含有较多的粮食作物和经济作物,故其在叶绿体基因组学的研究较为密集。但禾本科植物在进化时叶绿体基因组中基因、内含子丢失的机制暂不明了;小麦、水稻、玉米等主要禾本科作物叶绿体基因组RNA编辑机制仍未明确;对已完成测序的物种,需要对其序列进行整合分析,对叶绿体基因组的结构和基因功能进行深入研究。

由于植物的遗传信息更为复杂,物种间的杂交和进化可能会使不同物种带有相同的cpDNA,同一物种也可能携带有不同的cpDNA,从而影响DNA条形码的鉴定结果[64]。DNA条形码技术应与生物学、细胞学和分子系统学相结合,在实际应用中,范围维持在对某一科或某一属的植物进行鉴定,才能减少误差。运用叶绿体上的DNA序列片段所形成的DNA条形码,不仅可以为作物近缘种属亲缘关系的判断提供依据,也可以在作物育种中的品种或育种材料的衍生系鉴定等方面提供很大的帮助。在未来的育种工作中,一方面基于叶绿体基因组序列的DNA条形码与基于核基因组序列的DNA条形码相结合,用于品种保护、新品种选育和物种鉴定,这将大大降低成本,提高育种效率。另一方面,通过叶绿体遗传转化来提高作物产量,培育抗虫、抗旱、抗盐转基因植物,以及利用植物叶绿体生产药用蛋

猜你喜欢

禾本科叶绿体基因组
甜菜叶绿体分离及其 DNA提取
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
人不吃饭行吗
紫花白及基因组DNA提取方法的比较
芦根及其混淆品的鉴定
禾本科植物之王
烟草叶绿体密码子的偏好性及聚类分析
钙过量对茶树光合特性及叶绿体超微结构的影响