APP下载

基于高通量测序的建兰转录组信息分析

2023-06-15樊荣辉林兵吴建设钟淮钦

福建农业科技 2023年3期
关键词:转录组生物信息学分析建兰

樊荣辉 林兵 吴建设 钟淮钦

鐘淮钦,1979年出生,硕士,副研究员,福建省农业科学院青年英才,主要从事兰科植物种质资源鉴定评价、新品种选育与示范推广等工作。主持福建省种业创新与产业化工程、福建省人民政府-中国农业科学院“5511”协同创新工程、福建省自然科学基金、福建省林业种苗科技攻关等项目20多项,作为骨干参与国家科技支撑计划、福建省科技重大专项(专题)等项目30多项;获福建省科技进步三等奖2项(第1)、福建省农业科学院科技奖特等奖1项(第1);主持选育的4个品种获植物新品种权授权,参与选育的9个品种通过省级审(认)定,获授权国家发明专利6件;在《BMC Plant Biology》等刊物上发表论文28篇,2篇论文获福建省自然科学优秀论文三等奖。现任福建省特色花卉工程技术研究中心主任、福建省农业科学院作物研究所花卉研究室主任,兼任福建省园艺学会常务理事、福建农林大学硕士生校外导师等。

摘 要:为获得建兰转录组信息,以花发育3个时期为研究对象,进行转录组测序、组装、注释及差异基因分析。结果表明:共获得120.86 Gb clean reads,组装得到56804个Unigenes,平均长度为1502 bp,其中34324条Unigenes获得注释,占所有Unigene的60.43%。33908条Unigenes在NR数据库中得到注释,与石斛的匹配度最高;18459条Unigene被注释到GO数据库中的50个分支;在KEGG中共注释到13145条Unigene,11662条注释到129个KEGG通路中。差异基因聚类分析表明,7873个差异基因,其中3934个上调表达,3939个下调表达。差异基因的KEGG注释中,花香相关途径差异基因较多。利用MISA软件筛选得到19737个SSR位点,其中单核苷酸重复SSRs数量最多,有13291个,二核苷酸重复次之,有3374个。本研究为后期建兰基因功能验证及次生代谢解析提供基础数据。

关键词:建兰;转录组;生物信息学分析;功能注释

中图分类号:S 682.31   文献标志码:A   文章编号:0253-2301(2023)03-0001-08

DOI: 10.13651/j.cnki.fjnykj.2023.03.001

Abstract: In order to obtain the transcriptome group information of Cymbidium ensifolium, the transcriptome sequencing, assembling, annotation and differential gene analysis were carried out by taking the three stages of flower development as the research objects. The results showed that a total of 120.86 Gb clean reads were obtained, and 56804 Unigenes were assembled, with a mean length of 1502 bp. Among them, 34324 Unigenes were annotated, accounting for 60.43% of all Unigenes. 33908 Unigenes were annotated in the NR database, which had the highest matching degree with Dendrobium nobile. 18459 Unigenes were annotated to 50 branches in the GO database. A total of 13145 unigenes were annotated in KEGG and 11662 unigenes were annotated to 129 KEGG pathways. The cluster analysis of differential genes showed that there were 7873 differential genes, among which 3934 showed upregulated expression and 3939 showed downregulated expression. In the KEGG annotation of differential genes, there were more differential genes in the related pathways of flower scent. A total of 19737 SSR loci were screened by MISA software, among which the number of SSRs with single nucleotide repeats was the highest (13291), followed by that with dinucleotide repeats (3374). This study could provide basic data for the gene functional verification and secondary metabolism analysis of Cymbidium ensifolium in the later stage.

Key words: Cymbidium ensifolium; Transcriptome group; Bioinformatics analysis; Functional annotation

建兰Cymbidium ensifolium又称四季兰,是国兰主要种类之一,其株型飘逸、花香清幽、花色素雅、花期长,是珍贵的兰花品种。建兰以其主产地为福建命名,是唯一以省份命名的国兰[1]。通过转录组测序和生物信息学分析得到建兰遗传信息,以研究建兰次生代谢途径关键酶基因和分子标记等,为后续建兰基础研究和开发应用提供基础数据。

转录组测序获得的结果可以反映生物体某一组织在特定的状态下基因的表达情况[2],是非模式植物研究的有用手段[3]。近年来,转录组测序研究基因差异筛选和分子标记开发方面广泛应用[4-5],如Yue等[6]对姜花Hedychium coronarium进行转录组分析,研究花发育过程中萜类代谢途径基因表达情况;Xu等[7]对百合Lilium ‘Tiny Padhye花被片发育过程中颜色变化进行转录组信息分析,确定颜色变化的主控基因。本研究对建兰花发育过程花朵进行转录组测序,为挖掘次生代谢产物合成及其调控的相关基因等研究提供数据。

1 材料与方法

1.1 试验材料

福建省农业科学院花卉种质资源圃种植的建兰(3年生),品种为素君荷,采集花发育的3个不同时期,置液氮中冷冻,-80℃储存。 3个花发育时期分别为:花蕾初期(Early bud stage)、花蕾中期(Midbud stage)、始花期(Anthesis stage)。

1.2 建蘭3个时期花RNA的提取

收集花发育的3个时期的整朵花进行转录组测序。使用通用RNA提取试剂盒(百泰克)提取总RNA。应用NanoDrop 2000 UVvis分光光度计(Thermo Scientific,USA)和Agilent 2100生物分析仪(Agilent Technologies,USA)进行RNA质量和浓度测定。

1.3  建兰基因文库构建和转录组测序

文库构建由北京百迈克生物科技有限公司(中国北京)进行。基于边合成边测序(Sequencing By Synthesis,SBS)技术,使用Illumina Hiseq高通量测序平台对cDNA文库进行测序。

1.4 建兰基因组数据组装和功能注释

收集3组样品的raw reads,并去除低质量reads。 应用Trinity软件[8]通过重叠区域将高质量clean reads延伸为更长的conings,通过对端连接进一步组装成transcripts,然后聚类成unigenes。 通过序列相似性,将所有组装的unigenes与公共数据库进行比对,E值阈值为10-5。八大数据库包括Nr(NCBI nonredundant protein)、Nt(nonredundant nucleotide databases)、GO、KOG(eukaryotic orthologs groups)、KEGG、clusters of COG(orthologous groups of proteins)、Pfam(SwissProt protein database,protein family)和eggNOG(orthologous groups of genes)。

1.5 建立基因文库差异基因聚类及KEGG分析

应用FPKM(fragments per kilobase of transcript per million mapped reads)计算每个基因的表达计数(read counts)。应用DESeq软件鉴定文库中的差异基因。绝对错误率<0.01和倍数变化值≥2作为阈值以确认表达水平的显著差异。

对筛选出的差异表达基因做层次聚类分析,将具有相同或相似表达行为的基因进行聚类,用于展示不同试验条件下基因集的差异表达模式。不同的列代表不同的样品,不同的行代表不同的基因。颜色代表了基因在样品中的表达量FPKM以2为底的对数值。

KEGG数据库是关于Pathway的主要公共数据库,对差异基因进行KEGG注释分析。

1.6 建立转录组简单重复序列(SSRs)特征检测

使用MISA软件对建兰转录组进行SSRs搜索,对Unigenes进行SSRs检测。

2 结果与分析

2.1 建兰基因文库构建和转录组测序

对建兰花发育过程中的花蕾前期、花蕾中期、盛花期整朵花进行转录组测序,共得到120.86 Gb clean reads,各样品Q30碱基百分比均不小于93.29%,GC含量为46.74%,说明测序结果质量良好,可用于后续分析。

2.2 建兰基因组数据组装和功能注释

2.2.1 数据组装 通过组装获得56804个Unigenes,平均长度为1502 bp,N50为2526 bp,其中27086条Unigenes长度在1000 bp以上,占全部Unigenes的47.7%,14931条Unigenes长度超过2000 bp,占全部Unigenes的26.3%,说明组装的转录本质量较高(图1)。

2.2.2 功能注释 将组装得到的Unigenes进行八大数据库注释,共有34324条 Unigenes获得注释,占所有Unigene的60.43%。其中33908 条Unigenes在Nr数据库中得到注释,占所有Unigene的59.69%;在GO数据库中获得注释的Unigenes为18459条,注释率为32.50%;13145条Unigenes在KEGG中注释,占比为23.14%(表1)。

在Nr 数据库中,转录组数据与石斛Dendrobium catenatum的同源数量最多,达54.48%;其次是蝴蝶兰Phalaenopsis equestris,同源比例达到19.88%;再次是玉米Zea mays,同源性达13.46%;与深圳拟兰Apostasia shenzhenica和葡萄Vitis vinifera的同源性相对较低,分别为1.5%和0.58%。有10.11%的Unigene属于其他物种(图2)。

通过GO数据库比对,共有18459个Unigene获得注释,这些Unigene分布在细胞组分(Cellular component)、分子功能(Molecular function)、生物过程(Biological process) 3个大类和 50个小类中。细胞组分中,细胞(Cell)和细胞部分(Cell part)Unigene数量最多;分子功能中,催化活性(Catalytic activity)和結合(Binding)基因数量最多;生物进程中,参与代谢过程(Metabolic process)和细胞过程(Cellular process)的Unigene数量最多(图3)。

KEGG通路分析中,共注释到13145条Unigene,其中11662条注释到129个KEGG通路中。糖酵解(Glycolysis)代谢通路的Unigene数量最多,有482条;其次是柠檬酸循环(Citrate cycle)和磷酸戊糖途径(Pentose phosphate pathway),分别有442条和394条(表2)。

在此基础上进一步分析KEGG次生代谢通路,共有16个通路,结果见表3。这些次生代谢通路中,咖啡因代谢(Caffeine metabolism)的Unigene 数量最多,有168条;其次是苯丙氨酸代谢(Phenylalanine metabolism)通路,有107条;卟啉与叶绿素代谢(Porphyrin and chlorophyll metabolism)、萜类骨架生物合成(Terpenoid backbone biosynthesis)、吲哚生物碱生物合成(Indole alkaloid biosynthesis)和单萜生物合成(Monoterpenoid biosynthesis)分别有54、53、53和 53条,这些数据为进一步研究建兰次生代谢途径及分子机制提供了基础。

2.3 建兰基因文库差异基因聚类及KEGG分析

采用主流的层次聚类对花蕾前期和盛花期基因的FPKM值进行聚类分析,共得到7873个差异基因,其中上调表达的有3934个,下调表达的有3939个,说明随着花的发育可能有更复杂的生物代谢(图4)。

对差异表达基因的Pathway注释分析有助于进一步解读基因的功能。随着花的发育,核糖体(Ribosome)、氨基酸的生物合成(Biosynthesis of amino acids)和植物激素信号转导(Plant hormone signal transduction)差异基因最多,分别有118、84和83个。说明随着花的发育这3个代谢途径更活跃。在次级代谢中,苯异丙烷生物合成(Phenyipropanoid biosynthesis)、脂肪酸代谢 (Fatty acid metabolism)和α亚麻酸代谢(alphaLinolenic acid metabolism) 差异及基因最多,说明随着花的发育,花香相关代谢被启动(图5)。

2.4 建兰转录组SSRs特征分析

Unigene序列中,利用MISA软件筛选得到19737个SSRs位点,其中单核苷酸重复 SSRs 数量最丰富,有13291个,占总量的67.34%;二核苷酸重复次之,有3374个,占百分比为17.09%; 三核苷酸重复有1942个(9.84%);复合型SSRs和有重叠的复合型SSRs分别为 999个和 21个,四核苷酸重复、五核苷酸重复和六核苷酸重复分别为91、7和11个(图6)。

3 讨论与结论

非模式植物中,通过高通量测序技术获得该物种基因序列,对鉴定基因功能具有重要作用[9-11]。本研究对建兰的转录组数据进行分析,得到120.86 Gb Clean reads,组装获得56804个Unigenes,平均长度为1502 bp。N50值越大,说明长片段越多,组装效果越好[12],本研究的N50为2526 bp,说明组装结果良好,这为后续基因注释和差异表达分析提供良好的数据基础。

KEGG数据库是能系统分析基因的代谢途径及其功能的数据库,在建兰KEGG注释中共发现129条代谢通路。其中14条为次级代谢通路,随着花的发育,这些基因与建兰的咖啡因、苯丙氨酸、叶绿素和萜类等次生代谢活动有关,为建兰次生代谢分子生物学研究奠定基础。差异基因的KEGG数据分析表明,随着花的发育,花香相关代谢差异基因数多,代谢活跃,可能随着花的发育,花香挥发物释放量有显著变化。

简单重复序列SSRs是一类由几个核苷酸(一般为1~6个)为重复单位组成的长达几十个核苷酸的串联重复序列,广泛分布于真核生物基因组中[13-15]。本研究使用软件MISA筛选得到19737个SSRs位点,其中单核苷酸为主要重复类型,其次为二核苷酸重复和三核苷酸重复。SSRs标记信息为后续建兰种质资源鉴定、遗传多样性分析提供基础。

参考文献:

[1]刘清涌.中国兰花名品珍品鉴赏图典[M].福州:福建科学技术出版社,2004.

[2]WU T Q, LUO S B, WANG R, et al.The first Illuminabased de novo transcriptome sequencing and analysis of pumpkin (Cucurbita moschata Duch.) and SSR marker development[J].Mol Breeding,2014,34(3):1437-1447.

[3]WARD J A,PONNALA L,WEBER C A.Strategies for transcriptome analysis in nonmodel plants[J].Am J Bot,2012,99(2):267-276.

[4]FAN R, CHEN Y, YE X, et al.Transcriptome analysis of Polianthes tuberosa during floral scent formation[J].PLoS ONE,2018,13(9):e0199261.

[5]石桃雄,黎瑞源,黃娟,等.甜荞根转录组SSR位点特征分析[J].江西农业学报,2021,33(8):1-5.

[6]YUE Y,YU R,FAN Y.Transcriptome profiling provides new insights into the formation of floral scent in Hedychium coronarium[J].BMC Genomics,2015,16:470.

[7]XU L,YANG P,FENG Y,et al.Spatiotemporal transcriptome analysis provides insights into bicolor tepal development in Lilium “Tiny Padhye”[J].Front Plant Sci, 2017,8:398.

[8]LANGMEAD B, TRAPNELL C, POP M, et al.Ultrafast and memoryefficient alignment of short DNA sequences to the human genome[J].Genome Biology Italic,2009,10(3):25.

[9]陈艺荃,方能炎,叶秀仙,等.基于转录组测序的文心兰花香形成分析[J].核农学报, 2022, 36(3): 578-588.

[10]林兵,陈艺荃, 钟淮钦,等.荷兰鸢尾'玉妃'花色变异关键结构基因分析[J].中国农业科学,2021,54(12):2644-2652.

[11]FAN R H,LIN B,FANG N Y,et al.Transcriptomesequencing analyses reveal flower color formation in Strelitzia reginae[J].Biologia plantarum,2020,64:717-724.

[12]HUANG M, FAN R, Ye X, et al.The transcriptome of flower development in Freesia hybrida provides insight into floral scent formation[J].Plant growth regulation,2018,86(1):93-104.

[13]刘艺平,倪梦辉,吴芳芳,等.荷花花器官性状与SSR标记的关联分析[J].园艺学报,2023,50 (1):103-115.

[14]吴超,郭方其,徐丹彬,等.多头菊头状花序转录组SSR特点分析[J].分子植物育种,2022,20(18):6067-6075.

[15]陈岳,张微微,莫海波,等.ESTSSR标记构建莲(Nelumbo Adans.)遗传连锁图谱[J].分子植物育种, 2017, 15(6): 2265-2273.

(责任编辑:柯文辉)

猜你喜欢

转录组生物信息学分析建兰
母亲
卜算子·惜缘
建兰、寒兰花表型分析
基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
雷公藤贝壳杉烯酸氧化酶基因的全长cDNA克隆与表达分析
金钗石斛转录组SSR位点信息分析
人参属药用植物转录组研究进展
羊种布氏杆菌3型Omp25基因序列及其表达蛋白生物信息学分析
西藏牦牛NGB基因克隆及生物信息学分析
地黄纤维素合酶基因的克隆与生物信息学分析