APP下载

重要食药同源植物余甘子转录组微卫星特征分析

2019-03-19刘雄芳李太强李正红万友名刘秀贤

植物研究 2019年2期
关键词:基元碱基多态性

刘雄芳 李太强 张 序 李正红 万友名 安 静 刘秀贤 马 宏

(中国林业科学研究院资源昆虫研究所,昆明 650224)

余甘子(PhyllanthusemblicaL.)是叶下珠科(Phyllanthaceae)叶下珠属(Phyllanthus)的一种落叶乔木或灌木,主要分布于热带和亚热带地区,包括从喜马拉雅山到斯里兰卡、马六甲海峡以及中国南部等广大地区[1]。同时它也是一种重要的食药同源经济树种,已被世界卫生组织列为在世界范围内推广种植的三种保健植物之一[2]。其叶片、茎皮、根和果实因含有多种药用成分如维生素C、鞣质、羽扇豆醇、没食子酸、余甘子酚和超氧化物歧化酶等而被许多少数民族作为日常用药,多种治疗功效在现代医药学研究中也已被证实[3~5]。其木材常被作为建筑、农具和家具用材,又是优良的薪炭柴[6]。20世纪80年代以来,由于不合理的开发利用,我国余甘子野生资源锐减,自然生境破碎化严重,至今很难见到林相整齐的野生余甘子林[2]。为了有效保护和合理开发利用这一兼具重要食用、药用和经济价值的野生植物资源,亟需对其遗传多样性进行研究。

遗传多样性是生物适应多变环境的基础,对物种的合理利用和保护有赖于了解其遗传多样性的分布、分化及影响因素[7]。微卫星(microsatellite or simple sequence repeat,SSR)标记被用于余甘子遗传多样性研究中,为制定余甘子遗传资源保护策略具有重要参考价值。Pandey和Changtragoon[6]利用开发的6个SSR标记分析了泰国两个余甘子居群的遗传结构并进行了种源鉴定,为制定有效的就地保护和异地保护方法提供了重要依据。Mawalagedera等[8]利用SSR标记对斯里兰卡三个不同地区余甘子种质资源进行遗传多样性分析并鉴定出与果实大小等性状相关联的SSR标记,为保护和培育遗传优势品种奠定了基础。但目前余甘子中可利用的SSR标记仅有6个,大大限制了其在余甘子种质资源评价中的应用。鉴于此,本研究利用Illumina Hiseq 4000平台,对余甘子叶片进行转录组测序,从获得的Unigenes序列中对SSR位点进行搜索,并对其分布特征、碱基组成和变异规律进行分析,以期为下一步大量EST-SSR标记的开发提供遗传学资料,进而为余甘子遗传多样性和遗传结构的研究奠定基础,亦为余甘子野生资源的保护和合理开发利用提供参考依据。

1 材料与方法

1.1 试验材料

本研究以云南省宾川县(25°45′59″N,100°26′29″E)野生余甘子为研究对象,于2017年6月采集余甘子植株的幼嫩叶片,立即置于液氮中,带回实验室于-80℃冰箱中保存备用。

1.2 转录组测序及拼接组装

余甘子总RNA的提取参照Kumar and Singh[9]的方法,质检合格后使用Illumina HiSeq 4000进行转录组测序。测序完成后先对原始数据进行过滤,然后使用Trinity软件进行de novo组装,最后使用CD-HIT进行聚类得到最终的Unigenes。

1.3 SSR位点的搜索与统计分析

使用软件MISA(http://pgrc.ipk-gatersleben.de/misa/)对余甘子转录组的所有Unigenes进行搜索,查找Unigenes中潜在的1~6 bp的SSR位点,配置参数为:单碱基、二碱基、三碱基、四碱基、五碱基、六碱基的最小重复数分别为12、6、5、4、4、4,复合型SSR间隔在100 bp之内。采用Excel软件统计余甘子SSR位点的数量、出现频率、分布的平均距离、重复单元类型和比例、重复单元碱基组成、基元重复次数以及序列长度变异等,并结合SSR和CDS的在Unigenes上的位置信息统计SSR在编码区的分布,全面了解余甘子转录组SSR的序列特征。

2 结果与分析

2.1 余甘子转录组测序组装结果及统计

测序共产生10.95 Gb的Raw reads,过滤后获得10.52 Gb的Clean reads,Q20为98.47%,GC含量为43.29%,所得序列的数量、质量和精确性均较高。通过De novo组装共获得97 628条转录本;进一步聚类去冗余得到76 881条Unigenes,总长度为54 842 061 bp,平均长度为713 bp(表1)。

表1余甘子转录组测序组装结果

Table1AssemblysequencingresultsoftranscriptomeofP.emblica

总数Total总长Total length(bp)N50长度N50 length(bp)平均长度Mean length(bp)转录本Transcripts97628632988431116648非冗余的Contig unigenes76881548420611257713

2.2 余甘子转录组SSR位点的数量和分布特征

利用MISA软件在余甘子转录组76 881条Unigenes中搜索1~6 bp的SSR位点,共获得9 991个SSR,位于9 538条Unigenes上,其中包含454个复合型SSR,含有1个以上SSR的Unigenes有680条。SSR的发生频率(含有SSR位点的Unigenes占Unigenes总数的百分比)为12.41%,包含SSR的一致序列出现频率(所得SSR总数占Unigenes总数的百分比)为13.00%;SSR的分布密度为0.182 SSRs/kB,平均每5.49 kB出现1个SSR位点;搜索到的SSR序列拼接总长度为180 175 bp,占整个余甘子转录组序列的0.33%(表2)。

表2 余甘子转录组SSR各重复类型的分布特征

图1 余甘子转录组SSR不同重复类型各基元的比例 Others表示未列出的其余基元的统称Fig.1 Motif proportions of each types of repeat in P.emblica transcriptome Others:the rest of all repeat motifs unlisted in the bar.

进一步分析可知(表2),在获得的余甘子转录组所有SSR中,以单碱基重复类型最多,达4 226个,占总数的42.30%;其次是二碱基和三碱基重复类型,分别占30.79%和19.75%;四碱基、五碱基和六碱基重复类型所占比例均较低且呈递减趋势。若单碱基重复类型不予考虑,余甘子转录组SSR主要集中分布在二、三碱基重复类型上,两者总量占单碱基重复外的总SSR数量的87.58%。另外,各重复单元类型的出现频率、平均距离及分布密度变化也较大。其中,出现频率、分布密度与SSR含量变化规律一致,表现为:单碱基>二碱基>三碱基>四碱基>五碱基>六碱基;与此相反的是,平均距离以六碱基最大,为507.80 kB,以单碱基最小,为12.98 kB,且两者差异达39倍,即余甘子转录组序列中每出现39个单碱基重复类型才出现1个六碱基重复类型。

2.3 余甘子转录组中SSR在编码区中的分布特征

在余甘子转录组的42 953条CDS(编码区)所在Unigenes中共发现6 535个SSR位点,其中位于编码区的SSR位点仅有1 731个,而位于非编码区的位点有4 563个,另外还有241个位点跨越了编码区和非编码区。余甘子转录组编码区SSR的出现频率(编码区SSR个数与CDS总长度之比)为0.039 SSRs/kB,而在非编码区SSR出现频率为0.103 SSRs/kB,说明非编码区SSR的出现频率大约是编码区的2.6倍。在基因编码区中,所占比例最高的是三碱基重复(788,45.52%),其次是单碱基重复(460,26.57%)和二碱基重复(289,16.70%);而在非编码区以单碱基重复为主(1 928,42.25%),其次是二碱基重复(1 463,32.06%)。

2.4 余甘子转录组中SSR重复基元碱基组成

在考虑到碱基互补的情况下,余甘子转录组SSR中共有169种重复基元,其中单碱基、二碱基、三碱基、四碱基、五碱基和六碱基重复基元数分别为2、4、10、31、56和66种。不同重复类型各基元所占比例差异较大(图1),其中单碱基重复类型中以A/T基元占优势,占该类型的99.53%;二碱基重复类型中各基元所占比例依次为:AG/CT(74.42%)>AT/AT(14.56%)>AC/GT(10.92%)>CG/CG(0.10%);三碱基重复类型中以AAG/CTT最多(26.35%),其次是ATC/GAT(13.38%)、AGG/CCT(13.28%)和ACC/GGT(11.86%);四碱基重复类型中AAAG/CTTT和AAAT/ATTT基元所占比例较高,分别为23.45%和22.60%;五碱基、六碱基重复类型中较多的基元分别是AAAAG/CTTTT(11.81%)和AAAAAT/ATTTTT(7.41%)。

整体来看,在余甘子转录组的169种重复基元中,出现频率最高的前5种分别是A/T、AG/CT、AAG/CTT、AT/AT和AC/GT,分别占SSR总数的42.10%、22.91%、5.02%、4.48%和3.36%。另外,在植物转录组中较少出现的CG/CG基元在余甘子转录组中有3个,在大多数单子叶植物中较常见而在双子叶植物中很少见的CCG/CGG基元在余甘子转录组中有83个。

2.5 余甘子转录组中SSR基元重复次数

余甘子转录组中SSR各重复类型的重复次数变化范围介于4~75次,且多数集中于4~20次,总体表现为重复次数随着各重复单元碱基数的增加而减少,其中单碱基重复12~75次,二碱基重复6~36次,三碱基重复5~26次,四碱基重复4~12次,五、六碱基均重复4~6次。总体来看,SSR的重复次数以4~10次居多(51.95%),11~20次的占45.36%,重复次数大于20次的SSR仅占2.69%,表现为随着重复次数的增加SSR出现的频率降低(图2)。

图2 余甘子转录组SSR各重复类型不同重复次数分布频率Fig.2 Percentage of various repeat types with different number of repeats in P.emblica transcriptome

2.6 余甘子转录组中SSR序列长度分布

余甘子转录组SSR重复片段长度波动于12~78 bp,平均长度为16.77 bp,正态性检验结果显示不符合正态分布(Kolmogorov-Smirnov检验结果P=0.00<0.05,峰度(Ku)=5.87>0,偏度(Sk)=45.96>0)。在各重复类型中,单碱基重复和三碱基重复长度变化范围较大,分别为12~75和15~78 bp,其次是二碱基重复(12~72 bp);在各重复基元中,以(A/T)n基元长度变化范围最大(12~75 bp),其次是(AG/CT)n(12~72 bp)和(AAG/CTT)n(15~72 bp)。单、二、三、四、五、六碱基重复的平均长度分别为14.61、17.69、18.72、17.66、21.57和24.87 bp(表2),除四碱基重复长度略有降低外,各重复类型长度变化表现出片段的平均长度随重复类型碱基数的增加而增加的趋势;而且各碱基重复类型均表现为SSR出现频率随各碱基重复区段片段长度的增加而降低,即重复区段碱基片段长的,对应的SSR数量较少。在全部碱基中,长度为12 bp的SSR在余甘子转录组中所占比例最高,为20.78%,其次是15 bp(14.69%)、14 bp(11.47%)和16 bp(10.32%),有21.20%的重复区段片段长度≥20 bp,且以低级重复类型为主(74.43%),而重复区段片段长度≥30 bp的仅占8.95%(图3)。

图3 余甘子转录组中SSR的长度分布Fig.3 Length distribution of SSR in P.emblica transcriptome

对余甘子转录组SSR不同重复类型长度变异情况进一步统计分析可知(图4),单碱基重复类型的长度变异程度最高,有43种不同长度,其次是二碱基重复类型,有28种;三碱基、四碱基、五碱基和六碱基重复类型片段长度的变异程度依次降低,其中五、六碱基均只有3种变化长度。通过SPSS软件对余甘子转录组SSR重复片段长度与出现频率进行Person相关性分析,发现二者在0.01水平上显著负相关(P=0.00<0.01),相关系数为-0.561,具有中等程度相关性。

3 讨论

本研究利用MISA软件对余甘子叶片转录组测序组装得到的76 881条Unigenes进行SSR位点查找与分析,共搜索到9 991个SSR位点,涵盖了从单碱基重复到六碱基重复类型以及复合型SSR共7种类型,SSR的发生频率为12.41%,包含SSR一致序列出现频率为13.00%,SSR的分布密度为0.182 SSRs/kB,平均每5.49 kB出现1个SSR位点。余甘子转录组SSR的分布密度与大多数双子叶植物如短丝木犀(Osmanthusserrulatus)(0.183 SSRs/kB)[10]、文冠果(Xanthocerassorbifolia)(0.186 SSRs/kB)[11]和青檀(Pteroceltistatarinowii)[12](0.189 SSRs/kB)等相近,而低于拟南芥(Arabidopsisthaliana)(0.357 SSRs/kB)、高粱(Sorghumbicolor) (0.646 SSRs/kB)和水稻(Oryzasativa)(0.739 SSRs/kB)等单子叶植物[13],这可能是由于物种之间的趋异进化使得双子叶植物SSR分布密度偏低[14],也有可能与不同物种之间SSR所在基因的表达丰度、SSR序列的搜索来源、搜索软件及设定的参数不同有关。

图4 余甘子转录组不同长度重复单元SSR长度变异情况 饼图每一扇区对应不同长度的SSR标注于所占比例上部括号内,若对应长度SSR频率≤1%,则一起合并在黑色扇区内。Fig.4 Length diversification of SSR in P.emblica transcriptome SSR in different lengths are demonstrated in separate slices. If the corresponding percentage≤1%,slices were combined for percentages(black slices).

在所获得的余甘子转录组所有SSR中,优势重复类型为单碱基重复,占42.30%,其次为二碱基重复(30.79%)和三碱基重复(19.75%)。通常认为,低级重复单元的大量存在暗示着该物种进化水平较高,而高级重复单元出现频率高的物种具有较短的进化时间和较低的变异频率[15~16]。余甘子单碱基、二碱基和三碱基重复类型占全部碱基重复类型的92.84%,可能预示着这一物种进化时间较长或变异频率较高。而在余甘子基因编码区中,主要重复类型为三碱基重复,占编码区SSR总数的45.52%,比例超过单碱基重复(26.57%)和二碱基重复(16.70%),表现出较高的富集水平。这可能是密码子选择作用的结果,与其它几种重复类型相比,三碱基重复次数的变化一般不改变基因读码框,使得其在编码区序列中的容受性较好,对基因表达产物的影响较小,进而有利于物种的生存和延续,这也说明SSR三碱基重复类型的富集是基因编码区SSR在基因组中得以保存的重要机制,因此在生物长期选择过程中,三碱基重复类型更易在基因编码区中发生富集[17~18]。大量三碱基重复SSR的富集对生物体来说具有重要的生物学意义,如在人类基因组的研究中发现三碱基重复SSR与某些疾病的发生相关[19];将余甘子转录组获得的所有Unigenes比对到KEGG蛋白数据库中,发现了203条与人类疾病相关的Unigenes,并且利用PRGdb数据库预测到3 806条编码抗性基因的Unigenes,这些是否与余甘子基因编码区出现大量的三碱基重复有关,对余甘子生长发育和抗逆性有何意义,还有待进一步深入研究。

不同重复类型中各重复基元所占比例不尽相同。在余甘子转录组单碱基重复类型中以A/T重复基元为主,在其它重复类型中AT出现频率也较高,二至六碱基重复类型中AT/AT、AAT/ATT、AAAT/ATTT、AAAAT/ATTTT和AAATT/AATTT以及AAAAAT/ATTTTT基元含量也相对较高,表现出一定的AT优势,这种趋势可能与碱基所含的能量有关[20]。但是在主要重复类型二、三碱基重复类型中分别以AG/CT和AAG/CTT居多,分别占SSR总数的22.91%和5.02%,与碧桃(Prunuspersicacv.duplex)[21]、枣(Ziziphusjujuba)[22]、长梗杜鹃(Rhododendronlongipedicellatum)[16]等植物转录组SSR的研究结果一致。在余甘子转录组三碱基重复类型中,AAG/CTT、ATC/GAT和AGG/CCT所占比例最高,与Blanca等[23]和李炎林等[24]分别报道的西葫芦(Cucurbitapepo)和红豆杉(Taxuschinensis)转录组SSR三碱基重复类型中的优势基元AAG、AGC、ATC和AGG相似,对多个树种的统计也表明三碱基重复类型中AAG、AGC和AGG较多[25],这些重复基元可能普遍存在于EST序列中,也可能是在大多数植物中的优势蛋白或DNA家族[26]。有研究表明GC重复基元可能与植物的某些特定功能有关,如植物的抗逆性、转录调控、信号转导等[27~28],在余甘子转录组中发现了一定量的GC,如单碱基重复中的G/C、二碱基重复中的CG/CG、三碱基中的AGC/GCT、CCG/CGG等,这些重复基元在余甘子的生命活动中是否具有特定功能还需要进一步研究。但是在余甘子转录组SSR中的GC含量很少,有研究认为GC重复基元少是因为基因组DNA中的CpG甲基化导致碱基C易突变为T,但较少的GC含量可维持DNA的稳定性[29],这些将为余甘子转录组SSR引物的开发提供重要的启示。

SSR的多态性是判断其是否可用于分子标记开发研究的重要依据,而SSR重复次数和序列长度又是影响其多态性高低的重要因素,这种多态性被认为是由复制过程中的滑动引起的[30]。SSR重复单元长度越长,所受选择压力将会越大,则拷贝数(重复次数)越少,因此重复单元碱基数较少的SSR变异速率较快,重复单元碱基数较多的变异速率较慢,相对较稳定[31];而SSR重复次数越多,变异性越大,其多态性潜力就越高[32],特别是当重复次数达到12次以上时,SSR引物表现出较高多态性[33]。本研究发现余甘子转录组SSR重复次数波动于4~75次,且多数集中于4~20次,且表现为重复次数随各重复单元碱基数的增加而减少(其中单碱基容易发生错配不考虑在内)。结合上述两种观点可知,余甘子转录组SSR中的二、三碱基重复类型的变异性较大,多态性潜力较高,而且在我们前期开展的余甘子20对EST-SSR标记开发研究中已经证实了这一点[34],在今后SSR标记大规模开发研究中应优先考虑这两种类型。从SSR序列长度来看,长度≥20 bp时多态性较高,长度于12~20 bp时具中等程度多态性,长度<12 bp时多态性极低[35];本研究在SSR筛选过程中已过滤掉12 bp以下的SSR,最终发现余甘子转录组SSR序列长度变化范围在12~78 bp,平均长度为16.77 bp,Person相关性分析表明余甘子转录组SSR序列长度与其发生频率在0.01水平上呈显著负相关(相关系数为-0.561),其中≥20 bp的高多态SSR占21.20%,其比例高于碧桃(12.13%)[21]、短丝木犀(13.47%)[10]、杨树(16.63%)[17]等大多数植物,且当≥20 bp时以低级重复类型为主(二、三碱基重复类型占61.00%),这些高多态性SSR在余甘子分子标记开发中将具有极大利用价值。

4 结论

本研究利用MISA软件在余甘子转录组Unigenes中查找SSR序列,共搜索到9 991个SSR位点,并对其进行SSR位点数量、在转录组和编码区中的分布特征、重复单元类型、重复基元碱基组成、重复次数及其序列长度分布情况等统计分析。研究结果表明余甘子转录组大多数SSR位点多态性潜能较高,用于遗传多样性分析的潜力较大,为下一步大规模开发余甘子SSR分子标记提供了重要的数据信息和可靠依据,尤其是分布于编码区的SSR将有助于功能标记的开发,进而为余甘子种质资源分类与鉴定、分子标记辅助育种等方面的研究奠定基础。

猜你喜欢

基元碱基多态性
单核苷酸多态性与中医证候相关性研究进展
面向异构履带车辆的统一运动规划方法
MTHFR C677T基因多态性与颈动脉狭窄及其侧支循环形成的关系
RANTES及其受体CCR5基因多态性及环境因素在昆明汉族T2DM发生中的交互作用
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
基于多重示范的智能车辆运动基元表征与序列生成
应用思维进阶构建模型 例谈培养学生创造性思维
有级转向履带车辆的驾驶员操控行为模型
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员