APP下载

香蕉基因组学研究20年:成就与挑战

2020-12-09金志强

热带作物学报 2020年10期
关键词:基因组学香蕉

金志强

摘  要:香蕉基因组学研究已逾20年,取得了一些进展。本文从全基因组测序、亚基因组分化、基因水平上的染色体结构变异、多倍体背景下的染色体交换及基因组扩张与功能等5个方面,论述了香蕉基因组学研究取得的进展,并对未来基因组学研究的重点方向进行了展望。

关键词:香蕉;基因组学;A基因组;B基因组

中图分类号:S668.1      文献标识码:A

Abstract: Banana genome has been studied for more than 20 years, and some progress has been made. In this paper, the achievements of banana genomics research were reviewed from five aspects: whole genome sequencing, subgenome differentiation, chromosomal structural variation at genome level, chromosome exchange under polyploid background, genome expansion and function.

Keywords: banana (Musa L.); genomics; A genome; B genome

DOI: 10.3969/j.issn.1000-2561.2020.10.007

基因组学(genomics)是研究基因组(genome)的科学。从分子遗传学的角度,基因组是指一个生物体或一个细胞器所有DNA分子的总和[1]。基因组学的发展是以1990年10月1日启动人类基因组计划(Human Genome Project, HGP)作为起点的,至2000年在全世界科学家的共同努力下,覆盖大部分基因组的基因组序列草图绘制完成[2]。同年,在植物中,拟南芥(Arabidopsis thaliana)基因组测序结果[3]即将发表时,全球香大蕉改良组织(A Global Programme for Musa Improvement, ProMusa)的部分科学家,于4月6—8日在法国蒙彼利埃(Montpellier, France)召开学术研讨会。与会者认识到,“植物基因组学是一个新兴的领域,它有望描述植物的整个基因库。从植物基因组学的研究中获得的信息将有助于理解基因是如何使植物作为一个活的有机体发挥其功能的,以及所有植物的功能多样性是如何与单个基因组的简单变化相关联的。植物基因组学最终可能被用来对植物进行基因改造,使其在不同的生物、生态和文化环境中获得最佳性能,从而造福于人类和环境”。会议接近尾声时,就香蕉基因组学研究达成了相当程度的共识。各方同意成立一个全球香蕉基因组学联盟(The Global Musa Genomics Consortium,以下简称“联盟”),共同开启香蕉基因组测序及相关研究[4]。2001年7月17—20日,“联盟”在美国弗吉尼亚州阿灵顿(Arlington, USA)的美国国家科学基金会(National Science Foundation, NSF)举行了第一次会议。出席会议的科学家们对刚破译的拟南芥基因組、水稻基因组及其他成就感到欢欣鼓舞,他们迫切希望香蕉能成为下一个被破译的植物基因组[5]。出席这次会议的有来自全球12个国家的科学家。基于法国农业国际合作研究发展中心(Centre de Coopération Internationale en Recherche Agronomique pour le Développement, CIRAD),以及国际热带农业研究所(International Institute of Tropical Agriculture, IITA)和国际上其他科学家的相关研究基础,会议在“联盟”的目标、策略、预期成果、测序的成本测算、成果分享方式、实施战略、资源分享方式、运作方式等方面达成共识[6]。以“联盟”成立为时间节点,香蕉基因组学研究至今已有20多年。虽然未能如期成为第三个破译基因组的植物,但仍然取得一些重要进展,综述如下。

香蕉(包括大蕉)是世界上最重要的水果之一,在全球粮食作物排行榜上排名第四,是最早被驯化的作物之一,现广泛分布于热带与亚热带地区,是数百万人的主食,对热带和亚热带发展中国家的粮食和经济安全具有重大意义[7]。

香蕉为单子叶植物,属芭蕉科(Musaceae)芭蕉属(Musa L.)。芭蕉属植物约有50多个野生种,分为4个组(section)。其中,红蕉组(Callimusa)和澳蕉组(Australimusa)的植物染色体数目为2n=20(x=10);真蕉组(Eumusa)和美蕉组(Rhodochlamys)的植物染色体数目为2n=22(x=11)[8]。大多数栽培香蕉都来自真蕉组的两个野生种,即Musa acuminata(A基因组)和Musa balbisiana(B基因组)。Musa acuminata种内杂交和Musa acuminata与Musa balbisiana的种间杂交导致了这些A-和B-基因组的各种组合,这些基因组分为AA、AAA、AB、AAB、ABB和ABBB共6种类型[9]。还有少数的M. schizocarpa(S基因组,2n=22)(x=11)[10]和Musa textilis(T基因组,2n=20)(x=10)[11]。但绝大多数食用品种是三倍体,其基因组的组成为AAA、AAB和ABB。

1  绘制了完整的香蕉野生亲本的基因组序列草图

目前市场上90%以上用于鲜食的和进出口的三倍体香蕉品种都属于三倍体无性系的Cavendish和GrosMichel亚群(subgroup),均起源于Musa acuminata。Cavendish和GrosMichel的出现被认为是Musa acuminata产生不减数配子的部分不育二倍体亚(品)种与产生正常单倍体配子的可育二倍体亚(品)种杂交的结果[12]。在Musa acuminata中,还发现了一些亚种,其中,malaccensis亚种被认为是为三倍体香蕉(AAA)贡献了其中的1条A染色体[12],这个样本采自马来西亚彭亨州(Pahang),故名‘Pahang,于20世纪40年代后期引入牙买加香蕉理事会基因库(Banana Board Jamaica Genebank)[13]。香蕉基因组计划启动后,率先进行了‘Pahang的基因组测序工作。

1.1  A基因组的序列测定

早在1996年就采用花药培养的方法获得了‘Pahang的双单倍体(doubled haploid,DH)植株(DH-Pahang)[13]。以此为材料进行全基因组测序,可以显著降低基因组的杂合度,有利于测序后拼接与组装。从20世纪90年代至21世纪初期,分子标记技术广泛应用于香蕉种质资源鉴定、遗传多样性和系统发育以及基因组组成等方面的研究。例如:扩增片段长度多态性(amplified fragment length polymorphism, AFLP)[14]、限制性片段长度多态性(restriction fragment length polymorphisms, RFLP)[12, 15]、微卫星(microsatellites)[16-19]。多样性阵列技术(diversity arrays technology, DArT)是一种基于DNA杂交的分子标记技术,可在不需要序列信息的情况下同时检测多个基因组位点的变异。Risterucci等[20]利用此技术,分析了168个Musa基因型,共鉴定出836个标记并用于基因分型(genotyping),其中10%对A基因组特异,能够在不同染色体倍性构成的相关性分析中以该基因组部分为靶点。因DArT标记在检测香蕉种质基因组组成和揭示聚类方面的准确性,被用于构建香蕉基因组的遗传连锁图。DArT和SSR相结合,以M. acuminata中2个遗传距离较远的亚种(microcarpa亚种材料‘Borneo为母本,malaccensis亚种材料‘Pisang Lilin为父本)杂交,获得180个F1后代个体,构建了由SSR和DArT标记组成的亲本图谱[21]。用于DH-Pahang测序的遗传连锁图,就是据此技术绘制的。根据测序DH-Pahang的亲本‘Pahang的自交后代,绘制了一张遗传图谱。因自交后代自然条件下育性较低,用胚拯救技术[22]尽量减少自交后代个体数量的损失,从而减少潜在的分离偏差。用652个标记(589个SSR和63个DArT)对180个‘Pahang自交后代的基因分型数据作为“异花授粉”群体确定连锁群。LOD阈值为5.0时,可以识别11个连锁群中的9个:LG2、LG3和LG5~LG11。通过对等位基因比率和模式的详细分析以及NJ树(Neighbor-Joining)分析区分了LG1和LG4。这11个连锁群就成为DH-Pahang测序组装后锚定在染色体上的基础。

采用Sanger测序(20×)和Illumina(50×)测序方法对细菌人工染色体(bacterial artificial chromosome, BAC)文库(BAC library)进行测序。最先在burmannica亚种的一份来自加尔各答植物园的材料,命名为‘Calcutta 4[23],构建了BAC library[24]。采取类似的方法,2008年构建了‘Pahang的BAC文库[25]。用于测序的2个分别由HindIII和BamHI酶切的DH-Pahang的BAC文库,分别命名为MAMH(Musa acuminata malaccensis HindIII)和MAMB(Musa acuminata malaccensis BamHI)。MAMB含23 040个克隆,平均为140 kb,代表估算基因组的6.2倍。对这个文库进行BAC-end测序,共产生了2 750万个Roche/454单端序列(single reads)和210万个Sanger reads,代表了流式细胞仪估计的DH- Pahang基因组523 Mb大小的20.53× 覆盖范围。组装(assembly)序列包括了24 425个contigs和7 513个scaffolds,总长度472.2 Mb,占预测DH- Pahang基因组大小的90%。组装序列的90%分布在647个scaffolds中,N50(将序列从长到短排序,将它们的长度相加,长度正好为总长度的50%时的那条序列的长度)为1.3 Mb。组装序列的70%(332 Mb)锚定在了‘Pahang遗传图谱的11个Musa连锁群上。2012年发布了Musa acuminata的全基因测序结果[26]。完成A基因组测序是香蕉基因组学研究的一个重要里程碑,标志着香蕉基因组学研究取得了重大突破,历时12年。

2016年,采用新技术又对A基因组的数据进行了修订。建立了一个5 kb的DH-Pahang mate-pair文库,并使用Illumina HiSeq 2000以40的基因组覆盖率对其进行了测序。用模块化的生物信息学软件改进基因组序列组装,进一步完善了Musa acuminata基因组序列草图。分离群体的基因分型(genotyping by sequencing,GBS)和paired-end测序用于检测和纠正scaffolds组装错误。用GBS标记将scaffolds锚定在假分子上,避免了遗传图谱构建过程中标记排序的繁琐步骤。此外,构建了1个基因组图譜,用于将scaffolds组装成超级scaffolds。最后,将校正过的基因注释构建了1个新的组装序列。这种方法将scaffolds总数从7513个减少到1532个(即减少80%),N50从1.3 Mb(65个scaffolds)增加到3.0 Mb(26个scaffolds)。89.5%的组装序列锚定在11条染色体上,而之前仅70%的组装序列锚定在染色体上,未知位点(N)由17.3%减少到10.0%[27],基因组序列质量得到明显提高。

1.2  B基因组的序列测定

香蕉的生产分为两大类,一类是甜香蕉或甜点香蕉(sweet banana或dessert banana),也称鲜食蕉(banana),既供当地消费,又供出口。另一类是烹饪香蕉(cooking banana,ABB),果实通常在食用前先煮、烤或炸,还有一类是大蕉(plantain,AAB)亚群主要为当地消费而生产[28]。全球近40%的香蕉生产涉及A/B种间三倍体品种,占香蕉总产量的18%,主要种植在西非和中/南美洲。在西非和中非,估计约有7000万人从大蕉中获取超过四分之一的食物能量需求。鉴于B基因组的重要性,2012年,中国热带农业科学院联合法国CIRAD、华大基因等国内外多家单位,开始了B基因组的测序工作。

野生M. balbisiana为栽培香蕉品种提供了B基因组,目前没有亚种的报道。所用的测序材料是野生二倍体基因型Pisang Klutuk Wulong(PKW, 2n=2x=22),是一种黑茎的Musa balbisiana,爪哇语中‘Klutuk是种子和乌龙黑(wulung black)的意思。基因库中的PKW材料是在印度尼西亚收集的[29]。为降低测序的杂合度,按照Grapin等的方法获得双单倍体(double haploid PKW, DH-PKW)材料[22],进行了全基因组测序。由于测序技术的进步,B基因组测序采用PacBio单分子测序(113×)和Illumina测序(166×)的方法,共获得58.9 Gb的PacBio单分子长reads,86.3 Gb的Illumina pair-end和mate-pair reads用于组装。获得492.77 Mb scaffolds,contig N50为1.83 Mb,scaffold N50为5.05 Mb,覆盖了95%的基因组序列,经评估,其基因组完整性达到91.3%。构建了DH-PKW的高通量染色体构象捕获(high- throughput chromosome conformation capture, Hi-C)文库,生成72 Gb(138×)的Hi-C pair-end reads。进行重复消除、分类和质量评价,进行唯一的有效定位,结果将430 Mb(87.27%)和94.0%的基因组,以A基因组为参考序列,定位在11條染色体上。B基因组的测序技术先进性、测序深度、基因组覆盖度、contig N50、scaffold N50、定位到染色体上的序列长度都显著高于A基因组。于2019年发布测序结果[30],被Springer Nature遴选为2019年亮点工作之一,指出“该论文是2019年Springer Nature精选的最受欢迎的论文之一,反映了产生重要影响的顶尖研究”。

2  香蕉亚基因组的分化

通过对越来越多的基因组数据分析表明,全基因组复制(whole-genome duplications, WGDs)在被子植物基因组进化中起着重要作用[31]。Lescot等人通过来自13个BAC文库的1.3 Mb的A基因组序列,并与4个先前测序的BAC进行了注释和分析,推导了与单子叶植物,以及A、B基因组可能的分化时间。首次提出了Musa系谱(Musa lineage)中WGD事件的证据[32]。经过深度测序后发现,A基因组的11条染色体之间存在一种复杂的旁系同源关系(paralogous relationship),发生了两次WGD(表示为α和β),在α/β复制之前,已经重复了的基因簇(duplicated gene clusters)被初步组装成代表祖先基因组的12个Musa祖先基因块(ancestral blocks),包含的重复片段覆盖222 Mb。根据Ks(同义突变率)在旁系同源基因簇对之间的分布,推导出两次WGD约发生在65 Mya(million years ago)。12个Musa祖先块体之间的其他物种的同源关系显示出更高的Ks值,这表明另外一个更古老的复制事件(表示为γ)发生在大约100 Mya[26]。

与其他单子叶植物相比,香蕉谱系的进化速度相对较慢[33]。基于对519个单拷贝直系同源基因(orthologous genes)的系统发育分析表明,A和B基因组最近的分化时间约为5.4 Mya,它们的共同祖先与禾本科植物的分化时间约为134 Mya。这估计与A和B基因组之间4.6 Mya的分化时间相近。4.6 Mya的分化时间是根据17个BAC克隆(包含23.5 kb的编码序列)的测序结果估计得出[32]。5.4 Mya比之前估计的20.9 Mya(由3个基因和1个内部转录间隔区估计)或27.9 Mya(由19F基因估计)时间更近[34-35]。在全基因组系统发育分析研究中,增加样本的信息量,将有助于更准确地估计分化时间。

植物经三轮WGD后,紧接着进行基因组二倍化(diploidization)和消减(fractionation),包括染色体重排(chromosomal rearrangement)、基因丢失(gene loss)和偏好保留(biased retention)[36]。在二倍化和消减之后,A和B基因组开始独立进化,表现出了分化差异。发现了9038个基因家族在A、B基因组、水稻(Oryza sativa)、短柄草(Brachypodium distachyon)和葡萄(Vitis vinifera)中都是保守的。相反,A基因组中的348个基因家族以及B基因组639个基因家族具有特异性。分化后,A基因组中有1761个基因家族扩张,203个基因家族收缩;B基因组中有392个基因家族扩张,1008个基因家族收缩。说明B基因组对基因组的收缩比A基因组更为敏感[30]。通过京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)对B基因组中显著扩张的基因家族(P<0.05)的富集途径分析表明,其富集在光合作用和次生代谢的生物合成,包括与肌醇、淀粉和蔗糖代谢相关的代谢途径,亚油酸和花生四烯酸等。植物产生的次生代谢产物多样性高,除了能缓解各种非生物胁迫外,还具有抵御多种食草动物和病原体的显著功能[37],与之前B基因组提高对生物和非生物胁迫的耐受性有关的研究结果是一致的[38]。

3  基因组水平上的染色体结构变异

3.1  A基因组染色体的易位

染色体易位是染色体结构变化的一种主要形式。M. acumicata种内分为6~9个亚种(banksii、burmannica、malaccensis、microcarpa、zebrina、burmannicoides、truncata、siamea和errans),这些亚种在东南亚的陆地区域和岛屿上产生地理隔离后,发生了分化[39-40]。人类的迁徙,导致了这些亚种之间的接触[41],出现了亚种间杂种。细胞遗传学研究表明,在减数分裂时染色体配对在亚种内的二价体中一般是规则的,但在某些多价体和亚种间杂种的单价体是不规则的,因此导致这些亚种间的杂种生育率降低[42-43]。这个结果也说明亚种间的染色体结构变异而导致减数分裂时出现了染色体配对的不规则性。

借助于A基因组测序结果,可以从DNA水平上揭示染色体易位发生。用SNP标记野生M. acuminata亚种burmannicoides中的1份材料‘Calcutta 4[23]的自交后代分离情况,用mate-pair测序序列与malaccensis Pahang[26]参考序列进行比对,研究染色体重排。从123份野生和栽培香蕉材料的全基因组测序数据中,鉴定了染色体结构的特征片段之间的连接。结果在‘Calcutta 4中发现了两个大的相互易位:一个是2号染色体240 kb远端区域与8号染色体7.2 Mb远端区域的互换;另一个涉及到1号染色体20.8 Mb远端区域与9号染色体11.6 Mb远端区域的互换。上述两个大的相互易位可能起源于burmannica亚种基因群[44]。

在另一个亚种M. acuminata ssp. malaccensis,通过mate-pair测序、细菌人工染色体荧光原位杂交技术(bacterial artificial chromosome and fluorescence in situ hybridization technology, BAC- FISH)、靶向PCR和DArT测序(DArT sequencing)标记在其子代中的分离情况,分别从1号染色体远端3 Mb和4号染色体远端10 Mb鉴定出1个杂合子相互易位,表明其后代中产生了高度分离偏差(segregation distortion),减少了1号和4号染色体之间的重组和连锁。结果表明,子代中这两个染色体结构是相互排斥的,重排的染色体结构优先传递到子代。染色体重排在三倍体品种中普遍存在,但仅在野生malaccensis中存在。表明这种重排发生在M. acuminata的malaccensis亚种中。这种重排在香蕉多样性中的传播机制可能在三倍体品种的出现中起了作用[45]。其他亚种是否存在另外的易位,还需进一步的研究。

3.2  A、B基因组间染色体的易位与倒位

A与B基因组间大片段结构变异(large structural variations)的第一个证据是根据种间杂交后代染色体分离而提出的[46]。从全基因组水平上,采用共线性(synteny)分析表明A和B基因组之间的基因组共线性和序列相似性很高。在A和B基因组之间鉴定出了72个大的共线性区块(large syntenic blocks),其中的15个都包含超过900个基因对。这72个共线性區块占A基因组的75.02%(其中含23%转座元件)和68.01%的B基因组(含22%转座元件)。

在A和B基因组分化之后,它们之间发生了两个大的易位(translocation)和两个倒位(inversion)。其中一个大的相互易位发生在B基因组1号染色体上的7.09 Mb和A基因组3号染色体上的7.03 Mb。一个倒位发生在B基因组的5号染色体(9.39 Mb)和A基因组的5号染色体上(8.83 Mb)[30]。这些易位和倒位在早前的遗传图谱上也有体现[47],通过共线性比对,更为准确地确定了易位的大小和位置。这种易位和倒位是遗传多样性增加的一种方式[48]。

4  香蕉多倍体中亚基因组染色体的同源交换和替换

多倍体化似乎是植物进化史上的一个常见事件[49]。大多数香蕉品种是多倍体的,具有不同程度的倍性和基因组背景[50]。为了解在多倍体背景下A、B基因组的同源交换,采用重测序的方法对三倍体和二倍体不同倍性,以及不同基因型香蕉进行了重测序。重测序数据与A(Pahang)和B(PKW)基因组同时比对,确定了唯一能定位的reads用于分析覆盖深度、变异调用和每条染色体上的同源交换。这些分析证实,香蕉种质的基因组组成,在大多数情况下,与以往基于形态特征的基因组分类一致。在粉蕉(ABB)中鉴定了48个同源交换的片段,包括9个从B-到A-亚基因组的交换和39个反向交换。在Kamaramasenge(AAB)中,还发现了4个从B-到A-亚基因组的同源交换片段,并在第10条染色体上A-亚基因组替换了B-亚基因组。在Pelipita(ABB)中,第2、7和11号染色体的A亚基因组被B亚基因组替换,6、9和10号染色体上有18个同源交换片段[30]。之前通过基因组原位杂交的研究结果表明了Pelipita的8A和25B染色体组成,与先前的基因组原位杂交研究一致[51]。说明在多倍体背景下,A、B基因组的同源交换和替换,是构成多倍体香蕉遗传多样性的重要方面。

对于三倍体粉蕉A、B亚基因组同源基因在不同组织、果实发育和成熟的不同阶段以及非生物胁迫处理后的香蕉幼苗中的表达水平进行分析,在A、B亚基因组间共鉴定出25 717对同源基因。在同源基因对中,81.83%得到了共线性分析的证实。对所有同源基因对的表达进行分析,以确定三倍体粉蕉中B/A表达倍数变化的分布。log2(RPKM B/RPKM A)为1.2/1,其中RPKM(reads per kilobase per million mapped reads)代表每百万reads中来自于某基因每千碱基长度的reads数,这与2/1的基因组组成值不同。这个结果可以用剂量补偿来解释[52]。选取1075对在A基因组上调表达的同源基因,和4032对在B基因组中上调表达的同源基因进行KEGG富集分析。结果表明,在B基因组中具有表达优势的基因与2-氧羰基水杨酸代谢和精氨酸生物合成途径有关(Q<0.05),而在A亚基因组中具有表达优势的基因在KEGG途径中没有显著富集。利用加权基因共表达网络分析,对那些具有表达显性的基因构建了一个基因共表达网络。结果表明,87个显性表达基因与A基因组的4302个基因互作,295个显性表达基因与B基因组的4612个基因互作。KEGG途径富集分析表明,A、B基因组共表达网络中的基因通常与淀粉、蔗糖代谢等代谢途径有关。特别是,泛醌和其他萜类醌生物合成、光合作用-触角蛋白、类胡萝卜素生物合成和其他聚糖降解途径在A基因组中特别丰富。B基因组中的硒复合代谢和氰胺酸代谢途径特别丰富(Q<0.05)[30]。这些结果说明,在多倍体香蕉中,A和B基因在染色体发生上同源片段交换,并表现出功能分化,这些功能分化可能表现在转录水平上。

5  香蕉A、B基因组扩张与功能

5.1  基因组扩张与乙烯生物合成

乙烯在果实采后呼吸跃变成熟的调控中起着关键作用[53]。乙烯生物合成途径中的关键酶包括S-腺苷-L-蛋氨酸合酶(S-adenosyl-L-methionine synthase, SAMS)、1-氨基环丙烷-1-羧酸合酶(1-aminocyclopropane-1-carboxylic acid synthase, ACS)和1-氨基环丙烷-1-羧酸氧化酶(1-aminocyclopropane-1-carboxylic acid oxidase, ACO)[54]。从A基因组中鉴定出了12个SAMS、11个ACS和11个ACO基因,在B基因组中鉴定了10个SAMS、11个ACS和18个ACO基因[30],与单子叶植物和真双子叶植物中的其他7个测序植物物种相比[55],这是一个显著的扩张。鉴定了来自A和B基因组的28对同源基因,对这些基因对在巴西蕉(Musa AAA group, cv. Cavendish, BX)和粉蕉A基因组(Musa ABB group, cv. Pisang Awak, FJ)的表達模式进行了分析,发现其与粉蕉B亚基因组表现出相似的表达模式。有趣的是,8对基因在B基因组中表现出同源表达优势,5对基因在FJ的A基因组中优势表达[30]。

ACS和ACO以前都被证明是乙烯生物合成中的限制酶[56]。在10对ACS基因中,MaACS7/ MbACS7是Ma-ACS1的同源基因,在果实成熟过程中(主要在B基因组中)高水平表达。MbACS6和MbACS7在一个大的共线性模块中是旁系同源基因(该共线性模块包含19个基因对),这些基因对分别与MaACS6和MaACS7保持着共线性和紧密的进化关系,这表明这些基因是通过WGD复制而来。在9个ACO基因对中,有3对(MaACO2/MbACO6、MaACO3/MbACO7和MaACO8/MbACO13)在果实成熟过程中高水平表达,并主要在B基因组中表达。MaACO2/MbACO6和MaACO3/MbACO7分别处于A基因组的5号染色体和B基因组的6号染色体,处于1个线性模块中,属于同一个系统发育分支。这些结果表明,MaACO2/MbACO6和MaACO3/MbACO7是独立起源的,在果实成熟过程中发挥重要作用[30]。

基因复制是产生新的遗传多样性的主要机制,是真核生物产生新遗传多样性和进化创新的基础[57]。与A基因组中的11个ACO基因相比,B基因组中的ACO基因显著扩张到18个成员,包括位于3号染色体上的MbACO2、MbACO3、MbACO4、MbACO5,位于6号染色体上的MbACO8、MbACO9、MbACO11和位于scaffold中的MbACO16、MbACO18,是由B基因组中的串联重复(tandem duplications)驱动的。在B基因组扩增的ACO基因中,MbACO2和MbACO3在果实成熟期表现出很强的表达水平,在果实采后6 d(days postharvest, DPH)粉蕉中的log2RPKM>11,这与乙烯跃变期一致。此外,MbACO8、MbACO9、MbACO11、MbACO16、MbACO18在开花后0 d(days post flowering, DAF)在根和果实中高表达。这些基因属于同一个簇,它们的表达模式与它们的复制高度一致,表明B基因组中ACO基因的扩张和进化有助于组织发育和果实成熟[30]。在采后成熟过程中,FJ比BX成熟快与乙烯生物合成和果实成熟相关基因对的显性表达以及B基因组中ACO家族的扩张有关。

5.2  基因组扩张与淀粉代谢

淀粉是植物中最广泛和最丰富的贮藏碳水化合物,也是香蕉果实的主要成分,在香蕉果实发育过程中大量积累(约占干重的60%~75%),导致大淀粉颗粒(约8~30 nm)的存在,以及在收获后成熟期间几乎完全转化为可溶性糖[58-60]。负责淀粉生物合成的主要酶[61](sugars will eventually be exported transporter, SWEET; sucrosetransporter, SUT; sucrose synthase, SuSy; UDP-glucose pyro- phosphorylase, UGPase; ADP-glucose pyrophos- phorylase, AGPase; granule-bound starch synthase, GBSS; soluble starch synthase, SSS; starch branch- ing enzyme, SBE; starch debranching enzyme, DBE)和降解淀粉的主要酶(α-amylase, AMY; β-amylase, BMY; starch phosphorylase, DPE)由多基因家族编码。在A基因组中鉴定了101个淀粉代谢相关基因,其中77个参与淀粉合成途径,24个参与淀粉降解途径。在B基因组中鉴定出淀粉合成途径中的68个基因,以及淀粉降解途径中的28个基因[30]。

在淀粉合成途径中,9个基因家族中的5个(SuSy、GBSS、SSS、SBE和DBE)与其他7种植物(包括番茄和葡萄)相比,在香蕉的A和B基因组中表现出明显的扩张。在这些家族的A和B基因组中鉴定了54个同源基因对。其中,27个同源基因对在根、叶和果实组织中具有表达优势,其中7对在A亚基因组中占优势,20对在B亚基因组中占优势。因此,淀粉合成途径在B基因组中的不同组织中比在A基因组中更为活跃。那些在B亚基因组中显性表达的基因对中,在果实采前0 DAF和20 DAF时,MbSWEET17、MbSuSy1、MbSuSy2和MbSuSy9的表达水平较高,表明对果实发育过程中的淀粉合成起重要作用。相比之下,大多数淀粉合成相关基因(A或B基因组特有)表现出低表达水平[30]。

在淀粉降解途径中基因组注释表明,与其他7种植物相比,AMY和BMY家族在香蕉A和B基因组中有明显的扩张。从A和B基因组中鉴定了21个同源基因对。在这些基因对中,11个具有显性表达,并且在果实成熟期间与B基因组相关。在显性表达基因中,MbAMY-2、MbAMY-3、MbAMY-8、MbBMY-6、MbBMY-8和MbDPE-2在果实成熟过程中表现出高表达。MbAMY-1、MbAMY-2、MbAMY-3、MbAMY-4、MbAMY-5和MbAMY-6、MbAMY-7、MbAMY-8显示出紧密的亲缘关系和进化关系,表明这些基因是从串联拷贝复制的。MbBMY-5、MbBMY-8和MbBMY-6、MbBMY-12是B基因组处于1个共线性模块中的两个旁系同源基因对,显示出密切的进化关系,表明这些基因来源于WGD[41]。综上所述,表明B基因组中串联驱动的AMY复制和WGD驱动的BMY复制有助于淀粉降解。B基因组中淀粉生物合成相关基因的显性表达可能导致FJ果实发育过程中淀粉积累增加。此外,与淀粉降解相关的基因在B基因组中的显性表达也可能导致FJ中淀粉降解的升高[30]。因此,在果实发育和成熟过程中,B基因组在淀粉代谢途径中分别导致显著的淀粉积累和降解。

6  展望

6.1  继续广泛进行基因组测序工作

由于基因组测序技术的进步,全基因组测序已成为基因组学的一个常规技术,越来越多的植物物种(品种)都已完成了全基因组测序。据不完全统计,截至2018年12月31日,仅园艺植物就有181种完成测序[62]。据估计全球约有39.1万种陆地植物,此外还有8000种绿藻,与其他生物界相比,它们的基因组异常多样,从10 Mb到100 Gb不等,目前已获得的全基因组数据还远远不能满足人类的需求[63]。因此,有学者提出了万种植物基因组测序计划(10 000 Plants Project, 10 kP),旨在将我们对植物基因组的了解扩大到比目前所知范围更广的物种[64]。香蕉的基因组测序虽然取得了一些进展,除了两个野生亲本外,还有2个野生近缘种——Musa itinerans[65]和M. schizocarpa(S基因组)[66]也进行了全基因组测序。因为它们不是从头获得的,没有将这些最终组装序列与现有参考序列进行比较,且基因组的连续性较差,得到的组装序列是片段化的,影响了数据的使用。现保存在国际生物多样性组织香蕉种质资源转运中心(Bioversity International Musa Germplasm Transit Centre, ITC)的1500多种可食和野生香蕉种质,被认为是全球香蕉多样性最丰富的保存库。全世界大约有500个香蕉品种,然而,在全世界种植的所有品种中,超过40%只属于一个基因狭窄的群体——Cavendish亚群。要加快栽培品种的选育,就必须借助于全基因组测序,深入了解其基因来源、演化规律等。在A、B基因组测序基础上,加快几个野生亚种的序列测定,对品种的遗传构成加以解析。

6.2  尽快启动表型组学研究

随着基因组学技术的不断扩展,基因组学研究已经取得了很大的进步。然而,基因组学数据对作物改良的影响仍然远远不能令人满意,远没有达到“联盟”成立之初所预见的那样“对植物进行基因改造,使其在不同的生物、生态和文化环境中获得最佳性能,从而造福于人类和环境”。这在很大程度上是由于缺乏有效的表型数据。收集有用的高质量表型数据的能力落后于目前产生高通量基因组学数据的能力。因此,从基因组学转移到表型组学(phenomics)是基因组学研究的必然结果[67]。表型分析是一项困难而复杂的研究工作,其难点表现在:(1)有效的表型分析。有效的表型被认为是弥合数量性状基因型-表型差距的关键因素[67],利用大量种质资源发现候选数量性状位点(quantitative trait locus, QTL)对足够广泛的性状进行表型定位,从而发现QTL/基因,并克隆重要基因以用于分子育种。(2)表型的稳定性。表型的稳定性必须要进行大量的重复试验,才能在复杂多变的环境中对群体或种质进行表型分型,以便捕捉到有益性状的代表性变异,如生物和非生物胁迫耐受性、产量、品质等,并且要证明这些性状可以稳定遗传。(3)表型的分析方法。通过使用高通量有效的表型分析技术筛选大量种质资源,加快植物育种进程[68]。目前在其他植物中已经使用的高通量有效的分析技术包括非侵入性成像、光谱学、图像分析、机器人技术、高性能计算设备和建立表型数据库等,系统地收集表型数据。这些现代表型组学平台和工具旨在记录植物生长、发育、结构、光合作用或生物量等性状的数据,在一天之内记录成百上千株植物,这是一场表型组学革命。对于香蕉而言,这一切似乎还很遥远。目前,表型数据的收集还处在对资源或品质的性状描述阶段。香蕉的表型组学研究的挑战在于大多数品种来源单一,性状间的差异很小,增加了表型分型的难度。香蕉的繁殖方式大多是无性繁殖,性状的稳定性要通过长期观察才能获得,需要耗费大量人力物力。香蕉植株高大,增加了设备、设施的投入,成本高。这些都制约着香蕉表型组学的研究。

6.3  今后一段时间的重点工作

香蕉基因組学研究的20年历程,虽然取得了一些积极进展,但将基因组学研究成果应用于新品种的创制仍需进一步努力。目前应着重从以下3个方面积极开展工作:一是加大种质资源引进、收集、鉴定和评价,扩大资源拥有量;二是围绕香蕉系统演化、遗传物质结构变异与驯化、不育性和营养繁殖等重大科学问题,持续深入开展基因组学研究;三是加强转基因育种[69]、基因编辑[70]等技术研究,加快新功能基因的应用。

参考文献

杨焕明. 基因组学[M]. 北京: 科学出版社, 2016: 3-5.

Lander E S, Linton L M, Birren B, et al. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822): 860-921.

Irish B M, Cuevas H E, Simpson S A, et al. Musa spp. germplasm management: microsatellite fingerprinting of USDA-ARS national plant germplasm system collection[J]. Crop Science, 2014, 54(5): 2140-2151.

Risterucci A M, Hippolyte I, Perrier X, et al. Development and assessment of Diversity Arrays Technology for high-throughput DNA analyses in Musa[J]. Theoretical and Applied Genetics, 2009, 119(6): 1093-1103.

Hippolyte I, Bakry F, Seguin M, et al. A saturated SSR/DArT linkage map of Musa acuminata addressing genome rearrangements among bananas[J]. BMC Plant Biology, 2010, 10(1): 65.

Bakry F, Assani A, Kerbellec F. Haploid induction: Androgenesis in Musa balbisiana[J]. Fruits, 2008, 63(1): 45-49.

ProMusa. Improving understanding of banana: Calcutta 4[EB/OL]. [2020-07-12]. http://www.promusa.org/Calcutta+4.

Vilarinhos A D, Piffanelli P, Lagoda P, et al. Construction and characterization of a bacterial artificial chromosome library of banana (Musa acuminata Colla)[J]. Theoretical and Applied Genetics, 2003, 106(6): 1102-1106.

Piffanelli P, Vilarinhos A D, Safar J, et al. Construction of bacterial artificial chromosome (BAC) libaries of banana (Musa acuminata and Musa balbisiana)[J]. Fruits, 2008, 63(6): 375-379.

DHont A, Denoeud F, AuryJ-M, et al. The banana (Musa acuminata) genome and the evolution of monocotyledonous plants[J]. Nature, 2012, 488(7410): 213-217.

Martin G, Baurens F-C, Droc G, et al. Improvement of the banana “Musa acuminata” reference sequence using NGS data and semi-automated bioinformatics methods[J]. BMC Genomics, 2016, 17: 243.

NoyerJ L, Causse S, Tomekpe K, et al. A new image of plantain diversity assessed by SSR, AFLP and MSAP markers[J]. Genetica, 2005, 124(1): 61-69.

ProMusa. Improving understanding of banana: Pisang Klutuk Wulung[EB/OL]. [2020-07-25]. http://www.promusa. org/Pisang+Klutuk+Wulung.

Wang Z, Miao H X, Liu J H, et al. Musa balbisiana genome reveals subgenome evolution and functional divergence[J]. Nature Plants, 2019, 5(8): 810-821.

Van de Peer Y, Fawcett J A, Proost S, et al. The flowering world: a tale of duplications[J]. Trends in Plant Science, 2009, 14(12): 680-688.

Lescot M, Piffanelli P, Ana Y Ciampi, et al. Insights into the Musa genome: Syntenic relationships to rice and between Musa species[J]. BMC Genomics, 2008, 9(1): 58.

Givnish T J, Zuluaga A, Spalink D, et al. Monocot plastid phylogenomics, timeline, net rates of species diversification, the power of multi-gene analyses, and a functional model for the origin of monocots[J]. American Journal of Botany, 2018, 105(11): 1-23.

Christelová P, Valárik M, H?ibová E, et al. A multi gene sequence-based phylogeny of the Musaceae (banana) fa mily[J]. BMC Evolutionary Biology, 2011, 11(1): 103.

Janssens S B, Vandelook F, De Langhe E, et al. Evolutionary dynamics and biogeography of Musaceae reveal a correlation between the diversification of the banana family and the geological and climatic history of Southeast Asia[J]. New Phytologist, 2016, 210(4): 1453-1465.

Mandáková T, Andrew D, Gloss A D, et al. How diploidization turned a tetraploid into a pseudotriploid[J]. American Journal of Botany, 2016, 103(7): 1187-1196.

Bennett R N, Wallsgrove R M. Secondary metabolites in plant defence mechanisms[J]. New Phytologist, 2010, 127(4): 617-633.

Davey M W, Gudimella R, Harikrishna J A, et al. A draft Musa balbisiana genome sequence for molecular genetics in polyploid, inter- and intra-specific Musa hybrids[J]. BMC Genomics, 2013, 14(1): 683.

Daniells J, Jenny C, Karamura D, et al. Musalogue: a catalogue of Musa gemplasm[M]//Arnaud E, Sharrock S. Diversity in the genus Musa. Montpellier: INIBAP, France, 2001.

Perrier X, De Langhe E, Donohue M, et al. Multidisciplinary perspectives on banana (Musa spp.) domestication[J]. Proceedings of the National Academy of Sciences USA, 2011, 108(28): 11311-11318.

Fauré S, Noyer J L, Horry J P, et al. A molecular marker-based linkage map of diploid bananas (Musa acuminata)[J]. Theoretical and Applied Genetics, 1993, 87(4): 517-526.

Fauré S, Bakry F, González de Leon D. Cytogenetic studies of diploid bananas[M]//Breeding banana and plantain for resistance to diseases and pests. Montpellier: CIRAD- FLHOR, 1993: 77-92.

Shepherd K. Cytogenetics of the genus Musa[C]. Montpellier: INIBAP, France, 1999.

Dupouy M, Baurens F-C, Derouault P, et al. Two large reciprocal translocations characterized in the disease resistance-rich burmannica genetic group of Musa acuminata[J]. Annals of Botany, 2019, 124(2): 319-329.

Martin G, Carreel F, Coriton O, et al. Evolution of the banana genome (Musa acuminata) is impacted by large chromosomal translocations[J]. Molecular Biology Evolution, 2017, 34(9): 2140-2152.

Noumbissié G B, Chabannes M, Bakry F, et al. Chromosome segregation in an allotetraploid banana hybrid (AAAB) suggests a translocation between the A and B genomes and results in eBSV-free off springs[J]. Molecular Breeding, 2016, 36(4): 38.

Baurens F-C, Guillaume Martin G, Hervouet C, et al. Recombination and large structural variations shape interspecific edible bananas genomes[J]. Molecular Biology and Evolution, 2019, 36(1): 97-111.

Saxena R K, Edwards D, Varshney R K. Structural variations in plant genomes[J]. Briefings in Functional Genomics, 2014, 13(4): 296-307.

Soltis P S, Marchant D B, Van de Peer Y, et al. Polyploidy and genome evolution in plants[J]. Current Opinion in Genetics & Developmen, 2015, 35: 119-125.

Jesus O N D, Silva S D O E, Amorim E P, et al. Genetic diversity and population structure of Musa accessions in ex situ conservation[J]. BMC Plant Biology, 2013, 13(1): 41.

DHont A, Paget-Goy A, Escoute J, et al. The interspecific genome structure of cultivated banana, Musa spp. revealed by genomic DNA in situ hybridization[J]. Theoretical and Applied Genetics, 2000, 100(2): 177-183.

Guo M, Davis D, Birchler J A, et al. Dosage effects on gene expression in a maize ploidy series[J]. Genetics, 1996, 142(4): 1349-1355.

Rahul K, Ashima K A, Sharma A K. Role of plant hormones and their interplay in development and ripening of fleshy fruits[J]. Journal of Experimental Botany, 2014, 65(16): 4561-4575.

Yang S F, Hoffman N E. Ethylene biosynthesis and its regulation in higher plants[J]. Annual Review of Plant Physio logy, 1984, 35: 155-189.

Li L, Stoeckert C J, Roos D S. OrthoMCL: Identification of ortholog groups for eukaryotic genomes[J]. Genome Research, 2003, 13(9): 2178-2189.

Adams D O, Yang S F. Ethylene biosynthesis: Identification of1-aminocyclopropane-1-carboxylic acid as an intermediate in the conversion of methionine to ethylene[J]. Proceedings of the National Academy of Science USA, 1979, 76(1): 170-174.

Teh B T, Lim K, Yong C H, et al, The draft genome of tro pical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11): 1633-1641.

Hubbard N L, Pharr D M, Huber S C. Role of sucrose phosphate synthase in sucrose biosynthesis in ripening bananas and its relationship to the respiratory climacteric[J]. Plant Physiology, 1990, 94(1): 201-208.

do Nascimento J R O, Júnior A V, Bassinello P Z, et al. Beta-amylase expression and starch degradation during banana ripening[J]. Postharvest Biology and Technology, 2006, 40(1): 41-47.

Jourda C, Cardi C, Gibert O, et al. Lineage-specific evolutionary histories and regulation of major starch metabolism genes during banana ripening[J]. Frontiers in Plant Science, 2016, 7: 1778.

Martin C, Smith A M. Starch biosynthesis[J]. Plant Cell, 1995, 7(7): 971.

Chen F, Song Y, Li X, et al. Genome sequences of horticultural plants: past, present, and future[J]. Horticulture Research, 2019, 6: 112.

Kersey P J. Plant genome sequences: past, present, future[J]. Current Opinion in Plant Biology, 2019, 48: 1-8.

Twyford A D. The road to 10,000 plant genomes[J]. Nature Plants, 2018, 4(6): 312-313.

Wu W, YangY, He W, et al. Whole genome sequencing of a banana wild relative Musa itinerans provides insights into lineage specific diversification of the Musa genus[J]. Scientific Reports, 2016, 6: 31586.

Belser C, Istace B, Denis E, et al. Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps[J]. Nature Plants, 2018, 4(11): 879-887.

Mir R R, Reynolds M, Pinto F, et al. High-throughput phenotyping for crop improvement in the genomics era[J]. Plant Science, 2019, 282: 60-72.

Tuberosa R. Phenotyping for drought tolerance of crops in the genomics era[J]. Frontiers in Physiology, 2012, 3: 347.

Dale J, James A, Paul J-Y, et al. Transgenic Cavendish bananas with resistance to Fusarium wilt tropical race 4[J]. Nature Communication, 2017, 8(1): 7-15.

Maxmen A. CRISPR might be the bananas only hope against a deadly fungus[J]. Nature, 2019, 574: 15.

猜你喜欢

基因组学香蕉
香蕉弯弯
快手香蕉饼
瓶里有香蕉
香蕉
谈精准医学时代“基因组学”在医学研究生培养中的重要性
本草基因组学
本草基因组学
肝纤维化无创诊断的研究现状
找香蕉
园艺作物基因组测序研究进展