APP下载

基因组时代的植物系统发育研究进展

2023-03-09贺文闯向坤莉武志强顾翠花

浙江农林大学学报 2023年1期
关键词:基因组学叶绿体类群

王 杰,贺文闯,向坤莉,武志强,3,顾翠花

(1.浙江农林大学 风景园林与建筑学院 浙江省园林植物种质创新与利用重点实验室/南方园林植物种质创新与利用国家林业和草原局重点实验室,浙江 杭州 311300;2.中国农业科学研究院 深圳农业基因组研究所,广东 深圳 518120;3.佛山鲲鹏现代农业研究院,广东 佛山 528200)

系统发育(phylogeny)的雏形最早出自达尔文在《物种起源》中手绘的代表物种进化关系的“生命之树”。达尔文认为:地球上所有的生物都起源于一个共同的祖先,所有生命之间的谱系关系都可以通过生命之树的“枝条”进行展示,无论是现存的还是已经灭绝的生物,都可以在这棵树上找到属于自己的位置[1−2]。尽管生命形式多样化,但不同生命之间拥有共同的祖先和进化历史,因而存在着紧密或疏远的联系和渊源。开展进化生物学研究的重要前提之一就是要正确构建和理解不同生物类群之间的亲缘关系,这是界定和命名物种的依据,也是开展其他生物学学科研究的理论基础[3]。因此,如何通过建立科学可靠的系统发育树,从而将各生物类群之间的亲缘关系清晰形象地展示出来,不仅是系统发育研究的重点,也是解析生物类群起源扩散、性状演化和成种机制的前提,是生物学研究的重要内容[3]。

伴随着测序技术的发展和测序成本的降低,不同物种的全部基因序列,即基因组数据能够被获取和研究,使得基因组学(genomics)得到了快速的发展,也使得大规模的分子数据集能够被应用于系统发育学(phylogenetics)的研究领域,成为系统发育基因组学(phylogenomics)。对于大部分植物类群而言,除了2套半自主性遗传的细胞器基因组−叶绿体基因组(chloroplast DNA,cpDNA)与线粒体基因组(mitochondrial DNA,mtDNA)外,遗传信息庞大的核基因组(nuclear DNA,ncDNA)包含了大量的信息位点,因此,不同基因组数据集根据其自身特点能被整合应用于不同水平的植物类群系统发育学研究。本研究综述了基因组时代植物系统发育基因组学研究进展,对不同基因组数据特征及其在植物系统发育研究应用中的前景和局限进行了探讨,以期为研究植物系统发育关系提供参考。

1 系统发育研究发展

在核苷酸序列和蛋白序列等分子证据被大规模开发和应用之前,早期的系统发育研究都是建立在化石记录、物种形态学和生理学特征比较的基础上,如花部结构、果实类型、花粉性状、叶片形状及表皮解剖性状等,从而构建出物种进化历史的主要框架[4−5],但这种方法极大依赖于生物学家自身对物种的认识和对不同分类特征的把握,无法得到客观方法的有效验证,也很难获得统一的结论,不同学者之间的意见常有冲突。随着分子DNA证据的不断加入,系统发育研究能被程序化、可检验的分析方法所重建,极大提高了系统发育关系的稳定性。相对于形态性状,分子性状具有可遗传、容易确定同源性、系统发育信息丰富等优点,因此,根据分子数据所建立的系统发育关系更能真实地反映类群的进化历史[2]。分子数据用于系统发育研究同样经历了从利用1,5-二磷酸核酮糖羧化酶/加氧酶大亚基(ribulose-1,5-bisphosphate carboxylase/oxygenase large subunit,rbcL)或成熟酶 K(maturase K,matK)等单个编码基因以及细胞核内转录间隔区 (internal transcribed spacer,ITS)[6−7],到多基因或分子片段联合[8−9],再到整合利用大规模基因组数据[10−12],即系统发育基因组学的发展过程。由于利用单基因或联合少数基因所构建的系统发育树会受到信息位点不足、水平基因转移(horizontal gene transfer,HGT)、旁同源基因(paralog)以及基因进化速率异质性等因素的影响,缺乏高分辨率,因此全基因组数据成为更优选择,尤其是测序手段的发展和测序成本的降低使得越来越多的基因组资源被提供,系统发育研究也正式进入了基因组学的“黄金时代”。

系统发育基因组学是进化生物学领域中由系统发育学和基因组学交叉结合所形成的,研究个体间、群体间或物种间进化关系的学科,主要研究内容不仅包括在基因组水平上用大规模的分子数据研究生物之间的系统发育关系,也可以反过来利用进化关系研究基因组的进化机制[3]。系统发育基因组学以包含生物所有遗传信息的基因组为研究基础,利用不同类型的基因组(核基因组、线粒体基因组,以及植物中存在的叶绿体基因组)数据来构建系统发育树,以解析分类单元的系统发育关系,研究物种类群的进化历史(表1)。由于基因组能提供更多的分子性状,系统发育基因组学在解决疑难系统发育关系,如快速辐射类群的系统关系、孑遗类群的系统位置等应用广泛。

表 1 基于不同基因组数据集的植物系统发育相关研究Table 1 Research on phylogenetics of plants based on various genome datasets

2 植物系统发育研究的主要基因组数据

2.1 叶绿体基因组特征及其在系统发育基因组学中的应用

叶绿体(chloroplast)是植物细胞中特有的半自主细胞器,是植物进行光合作用将无机碳固定为有机碳的场所,同时承担生物体内脂类等有机物的合成与储藏功能,为植物提供生命活动所需的基本物质,在植物生长中发挥十分重要的作用[28]。目前普遍被接受的内共生起源学说认为:叶绿体起源于约12亿年前古核生物吞噬的光合蓝细菌,蓝细菌通过内共生将其绝大部分基因转移到了宿主细胞内[29]。虽然叶绿体拥有独立的遗传物质,但是由于大量基因转移到古核生物细胞内,使其正常功能的行使需要依赖于大量的核编码蛋白,因此叶绿体是一种半自主性细胞器[9]。叶绿体基因组以很高的拷贝数存在于植物细胞中,被子植物的叶绿体基因组大小通常为120~160 kb,编码约110个基因,结构上通常是双链环状DNA 分子,由大单拷贝区 (large single-copy region,LSC)、小单拷贝区 (small single-copy region,SSC)和1对反向重复区(inverted repeats,IRs)构成,也存在少数的线性结构和分支形等其他多态构型[30]。同时,叶绿体基因组内的基因数目和顺序相对保守,且不容易发生重组,在大多数物种中又是单亲遗传(主要为母系遗传),保留了很多进化历史中的遗传信息,使得其成为在系统发育研究中很有价值的分子工具,不仅仅是基因序列,其中一些结构特征如反向重复区边界滑动等在研究大尺度的进化上也具有系统发育的信号[31−32]。由于具有以上特点,叶绿体基因组已被当作研究遗传变异的理想分子数据资源,广泛应用于系统发育学和进化生物学等研究领域[12, 14, 33−34]。

研究者通过对不同物种的叶绿体基因组进行测序、组装和注释,从而得到完整的叶绿体基因组图谱,并利用多序列比对方法获得多物种的叶绿体基因组矩阵用于系统发育分析,为解决一些分类困难类群的系统发育关系提出了解决方案。ZHANG等[35]基于叶绿体基因组数据构建了蔷薇科系统发育树,解析了蔷薇科亚科间的系统发育关系;BARKALOV等[36]基于叶绿体基因组序列对蕨类植物系统发育关系进行解析,揭示了Equisetum是蕨类植物的基部群;LI等[14]利用来自2 881种物种的叶绿体基因组的80个直系同源(ortholog)的蛋白编码基因,构建了迄今为止最完备的被子植物系统发育树,确认了被子植物8个主要分支和22个分支的系统框架,解决了诸多类群的归属问题;LI等[10]又利用来自4 792种开花植物的80个叶绿体直系同源基因,构建了科级水平最为全面的开花植物系统发育树,在争议类群的系统发育关系解析上提供了更大的支持。此外,叶绿体基因组的一些基本特征,如基因含量、基因顺序、内含子有无、基因组大小、核苷酸组成和密码子使用等也可在传统分子系统发育基础上提供一些重要的系统发育信息[37−38]。叶绿体上的一些结构变化,特别是一些多基因倒置,虽比起序列信息具有较少的同源性,但同样可以在一些难处理的系统发育问题中提供重要证据[39−40]。

2.2 线粒体基因组特征及其在系统发育基因组学中的应用

线粒体(mitochondrion)同样被认为是内共生起源的一种半自主性细胞器,源于早期的α-古蛋白菌[41]。线粒体承担细胞生命活动的能量供应,参与细胞内的三羧酸循环、氧化磷酸化和磷脂合成等生物过程,具有十分重要的生理生化功能[42]。与叶绿体类似,线粒体也拥有独立遗传物质,能够编码部分与自身相关的蛋白,但仍要受到核编码基因的调控。高等陆地植物的线粒体基因组一般包含50~60个基因,绝大部分是单亲母系遗传[43−44]。在高等植物中,线粒体基因组分子量比叶绿体基因组大,且变化范围很大,从208 kb的油菜Brassica juncea[45]到大于2 400 kb的甜瓜Cucumis melo[46],再到目前已知最大的将近12 Mb的新疆落叶松Larix sibirica[47]。这种差异主要是由于线粒体蛋白质编码冗余(多拷贝)和线粒体基因组频繁重组整合外源DNA导致的[48]。线粒体基因组的基因顺序、基因组结构和基因组大小在植物中是高度可变的[49]。“进化悖论”是植物线粒体的一个重要进化特征,即植物线粒体基因组序列突变率非常低,但其基因组结构重排率却很高[50−51]。植物线粒体基因组的序列进化非常缓慢,核苷酸同义替代速率比植物叶绿体与核基因组分别低了几倍到几十倍不等,比哺乳动物线粒体基因组甚至低了50~100倍[52]。部分物种线粒体的物理作图和测序表明:线粒体的复杂结构是通过自身主动重组基因转移到细胞核,以及其他尚不清楚的因素来塑造的。结构分析揭示了分子内和分子间重组的高频率,从而形成了基因组构型的结构动态组合。植物线粒体基因组的这种动态组合为基因组结构和进化的研究提供了强有力的模型。这些线粒体基因组展示了保守的核苷酸替代速率和动态进化模式[53]。植物线粒体基因组在蛋白编码基因等方面保守性高,但在基因组结构方面变异大,对研究植物群体遗传学和进化具有重要的意义[54]。

低等植物如藻类和苔藓的线粒体基因组结构相对简单,而随后早期的维管束植物如石松科Lycopodiaceae植物线粒体基因组就经历了大量的重排,但是仍然可以组装成单分子的环形构象,基因含量没有太大变化。但水韭科Isoetaceae和卷柏科Selaginellaceae植物的线粒体基因组结构则比较复杂,经历了大量的重排,丢失了很多基因尤其是转运RNA(transfer RNA,tRNA)基因,也没有稳定的广谱性构象。这种由简单趋向复杂的变异模式使得线粒体基因组通常用于高阶分类单元的植物类群系统发育研究,如LIU等[21]利用60种苔藓的41个线粒体基因重建了早期陆地植物间的系统关系。DONG等[20]基于91种被子植物代表物种的38个保守的线粒体基因进行系统发育分析,结果支持木兰类(magnoliids)植物与单子叶植物+真双子叶植物的姐妹群关系。一般而言,植物线粒体基因组因其进化速率较慢,在系统发育中应用较少,但线粒体基因组非常适合动物类群中的系统发育研究[55−56]。

2.3 核基因组特征及其在系统发育基因组学中的应用

在植物细胞的3套基因组中,核基因组占据主导地位,其遗传信息总量十分庞大,决定着植物大部分的生理生化功能及形态性状特征,蕴含丰富的遗传变异。对于各植物类群,核基因组在大小、数量、排列以及基因组的拷贝数等方面均存在较大差异,如拟南芥Arabidopsis thaliana的基因组大小约130 Mb,油菜基因组大小1 008 Mb,而贝母属Fritillaria物种基因组大小则达100 Gb[57]。此外,核基因组为双亲遗传,可综合揭示双亲谱系及系统网状进化关系,即使对于近缘种或种下类群,核基因组也具有一定的区分能力,因此,核基因组在系统发育研究中具有更大的应用潜力,是未来植物系统学研究的主要发展方向[2, 58−59]。

尽管细胞器基因组(cpDNA和mtDNA)对于各植物类群的系统发育研究有重要的价值,但同样也是受限于其自身的单亲遗传特性,只能体现单亲的谱系历史,在一些类群的系统发育研究中作用相对有限[60],因此包含双亲大量遗传信息的核基因组在一些类群的系统发育研究中价值更大。但核基因组的测序和组装的技术要求较高,且核基因组数据庞大,对于计算机运算能力要求高,同时由于物种核基因组复杂的遗传背景和遗传特性,合适可靠的建树方法也是限制其大规模应用于系统发育研究的重要因素。目前,基于核基因组的系统发育研究不仅集中在解析单个物种或特定类群的系统位置[61],对于更高类群系统发育关系的解析也逐渐丰富,如金粟兰Chloranthus spicatus[62]、睡莲Nymphaea tetragona[63]等早期被子植物类群的核基因组解决了基部类群系统发育关系和物种演化的争议[23]。早期核糖体RNA(ribosomal RNA,rDNA)内的重复区序列尤其是ITS序列作为植物系统发育研究的主要核基因组数据被广泛使用[64]。随后越来越多的研究者开始使用单拷贝或低拷贝核基因。与细胞器基因组相比,单拷贝核基因不仅数量较多,还含有相对保守的外显子以及较高碱基替换率的内含子,可以提供较为丰富的位点变异信息[65]。除基因组测序外,基于转录组(transcriptome)、基因组浅层(genome skimming)测序、靶向富集 (target enrichment)和简化基因组测序 (reduced-representation genome sequencing,RRGS)等技术数据获得的大量低拷贝或单拷贝基因,也可以为系统发育分析提供更加充足的信息位点[16]。单拷贝核基因或低拷贝核基因是指核基因组中仅有1份或少数拷贝的基因,可以有效避免旁系同源的干扰。转录组测序数据可以通过无参组装一次性获得批量直系同源序列(orthologous sequences),因而在种及种以上水平的系统发育基因组学研究中被越来越多地应用[66]。例如“千种植物转录组计划(1kP)”利用转录组获得同源低拷贝基因来推断绿色植物的系统发育关系,对不同植物类群的全基因组加倍(whole genome duplication, WGD)事件进行分析,推断了许多基因家族进化历史[67]。刘勉等[68]从29种物种的转录组数据中筛选出直系同源低拷贝核基因,对菊科Asteraceae紫菀亚科Asteroideae的系统发育关系进行研究,重新界定了新的紫菀亚科族间系统发育关系,并揭示了多个类群杂交起源的可能性。

3 系统发育基因组学的主要研究方法

3.1 主要建树算法

目前主流的建树算法主要包括邻接法 (neighbor joining, NJ)、最大简约法 (maximum parsimony, MP)、最大似然法 (maximum likelihood, ML)和贝叶斯推断法 (bayesian inference, BI)。邻接法基于最小进化距离的假设,常用于群体水平上基于单核苷酸多态性(single nucleotide polymorphism, SNP)或单核苷酸变异(single nucleotide variant, SNV)的遗传结构划分,如水稻Oryza sativa[69]、大豆Glycine max[70]、莲Nelumbo nucifera[12]、梅花Prunus mume[71]等,鲜少独立支撑物种以上水平进化关系为核心的系统发育研究。最大简约法基于进化过程中碱基替代数目最少这一假设,适用于序列碱基差异小、变异速率近似、信息位点较多的序列矩阵。AMAR等[72]基于ITS序列,通过最大简约法探讨了柑橘属Citrus的系统发育关系,将柑橘属解析为7个进化枝。无论邻接法还是最大简约法,都比较适用于较小的数据集,且由于遵循“最小最简”原则,因此当存在碱基替换饱和、回复突变或序列差异过大时,有可能产生如长枝吸引(long branch attraction, LBA)的问题,从而错误地将枝长较长的进化枝聚在一起。SOLTIS等[73]在利用最大简约法对被子植物的系统发育关系构建时发现:无油樟Amborella trichopoda被错误地解析为比单子叶植物距离核心真双子叶植物更近的分支,但通过增加兰科Orchidaceae植物作为外类群后则恢复到了正常位置,指出可以通过增加合适的外类群来打破长枝吸引现象。最大似然法是目前为止应用最为广泛的系统发育研究方法,在解决被子植物[10]、裸子植物[74]以及科属水平[11−12, 34]等不同阶元的进化关系中发挥重要作用。上述3种方法都需要通过自举法(bootstrap)进行检验以确保分支可信度。

贝叶斯推断法[75]是基于模型的统计推论法,可以处理复杂的进化模型,通过后验概率(post probability)直观反映出各分支的可靠程度,而不需要通过自举法进行检验。在系统发育研究中,通常会综合使用多种建树方法推定系统发育关系,如WU 等[76]使用叶绿体基因组数据,基于最大似然法和最大简约法对禾本科中竹亚科Bambusoideae、稻亚科Oryzoideae和早熟禾亚科Pooideae分支(BEP Clade)的系统发育关系进行解析,得到了2种方法的一致支持;MU等[16]基于最大似然法和贝叶斯推断法明确了胡桃科物种的系统发育位置和种间关系。

3.2 串联法和溯祖法

目前大部分系统发育基因组学,尤其是叶绿体系统发育基因组学研究采用的矩阵构建方法是多基因串联法(concatenate method),即将多个基因首尾串联后经过序列比对和处理后构建数据矩阵,利用相应的建树软件构建系统发育树[34, 65]。尽管串联法在许多类群中取得了较好的效果,但在一定程度上仍会由于信息量不足而无法反映真实的系统发育关系。基因间的GC含量差异、进化速率差异、碱基替换饱和度等系统偏差也会导致一系列问题,从而对最终建树结果产生影响甚至误导[30]。此外,当使用大量基因进行串联时,基因间进化速率异质性和直系同源的误判、不完全谱系分选(incomplete lineage sorting,ILS)等会导致基因包含的系统发育信号彼此存在冲突,进而影响系统发育重建,导致基因树冲突(genetree conflict)。如 MU 等[16]基于限制性核酸内切酶 DNA 序列 (restriction-site-associated DNA sequencing,RAD-Seq)数据和叶绿体基因组数据,研究了胡桃科系统发育关系,在几个关键节点上检测到了信号冲突,需要注意基因树冲突问题。不同于串联法将所有基因合并为整体,溯祖法(coalescent method)首先基于单个基因构建单基因树,然后根据所有基因树整合推断最可能的系统发育树[77],因此可以很好地避免不完全谱系分选导致的基因树冲突。尤其是在基于核基因组的系统发育研究中,相比于串联法,溯祖法能够更好地反映真实的系统发育关系。ZHAO等[78]挖掘利用了全基因组和转录组数据进行蔷薇类(rosids)的系统发育关系探索,综合比较基于串联法和溯祖法的系统发育树后发现:在蒺藜目Zygophyllales的位置上存在结构冲突,且通过进一步分析表明,串联法可能是错误的结果,而溯祖法则较好地解决了基因树冲突问题。也有研究表明:串联法虽然能构建较高支持率的系统发育树,但往往可能不是正确的系统发育关系[76]。

4 总结与展望

植物的3套基因组都可用于系统发育研究,但具备各自的优势和局限性。相较于核基因组,叶绿体基因组易于测序和组装的特性使其在数据资源丰富度方面要远远胜过基因组数据,因而目前仍是植物系统发育研究的主流手段。由于线粒体基因组具有高度保守性和剧烈的结构变异,使其在大尺度以及早期绿色植物如苔藓的系统发育研究中具有重要价值。但细胞器基因组的单亲遗传特性不能反映物种形成历史过程中的杂交和基因组渗入等事件,核基因组的双亲遗传特性能够为此类问题提供充分的见解,但其测序和分析成本的高昂、计算机运行能力和方法学等因素限制了核基因组数据资源的开发和利用。但不可否认的是,随着测序技术的发展和成本的降低,核基因组将来会成为系统发育研究的主流方向。同时,随着越来越多的类群系统位置被确定,物种形成和进化过程中的杂交、回交等双亲遗传以及核质互作、多倍化、功能适应以及趋同进化等问题将会成为系统发育研究的重点内容。

猜你喜欢

基因组学叶绿体类群
基于基因组学数据分析构建肾上腺皮质癌预后模型
系统基因组学解码反刍动物的演化
薏苡种质资源ISSR分子标记筛选及亲缘关系分析
黑石顶自然保护区土壤动物功能类群对季节动态的响应
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
2011年春夏季黄海和东海微型浮游动物类群组成及其摄食的研究
营养基因组学——我们可以吃得更健康
龙湾自然保护区森林土壤动物群落多样性及功能类群
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析