APP下载

基于金钗石斛EST的短串联重复序列的挖掘

2011-11-20陈莉莉李洪清

关键词:金钗基序石斛

梁 山,陈莉莉,李洪清

(广东省植物发育工程重点实验室,华南师范大学生命科学学院,广东广州 510631)

基于金钗石斛EST的短串联重复序列的挖掘

梁 山,陈莉莉,李洪清*

(广东省植物发育工程重点实验室,华南师范大学生命科学学院,广东广州 510631)

利用计算机程序搜索了金钗石斛EST上的短串联重复位点,共获得2 122个基序长度2~7 bp,STR长度不小于12 bp且重复次数不小于3的STR位点.其中,3 bp-STR最为丰富,而 2 bp和6 bp基序的STR位点在可表达基因中富集.金钗石斛基因组存在439个基因特异分布的STR位点,暗示这些STR位点可能与特定的功能基因共进化.

金钗石斛; 短串联重复; 表达序列标签

短串联重复序列(STR),也称微卫星(microsatllite),或Simple Sequence Repeat(SSR),是由长度为1~6bp的基序头尾相接形成的串联重复序列,多数重复10~100次.STR广泛分布于基因组中,多见于非编码区域,也有分布于具有编码意义的外显子区域.EST-STR就是在编码序列中的STR分子标记.与基因组STR相比,EST-STR与功能基因连锁,其多态性可能反应基因功能的变异和进化.HÖFTE等提出,通过EST发掘拟南芥的分子标记有助于候选基因的突变体构建和图位克隆[1].然而大多数的非模式物种与拟南芥不同,其研究由于基因组数据的缺失和遗传操作的困难而面临困境.近几年,利用EST数据快速发掘分子标记成为了基因组研究的重要手段之一.EST-STR作为有效的分子标记已被用于非模式物种的基因组[2-3]、遗传多样性[4-5]和基因功能的研究[6-7].

金钗石斛(Dendrobiumnobile)属兰科石斛属,是多年生单子叶植物,常用于药用,也是深受喜爱的观赏花卉.目前,对金钗石斛的研究主要集中在药用成分的分离和药效药理研究[8]、与近缘种属的遗传多样性等[9],也有调查石斛属物种的染色体数目和类型的报道[10-11].鲜有对金钗石斛基因和基因组的研究.本研究利用生物信息学手段,对前期工作获得的金钗石斛EST数据进行挖掘,搜索STR/STR位点,为进一步为研究金钗石斛和近缘种属的基因组提供基础.

1 材料和方法

1.1EST数据源

EST序列数据为本室通过前期研究收集获得,一共包括13 098条EST序列(未发表数据).

1.2STR的搜索

将EST序列以FASTA格式保存于同一个文件中,利用STR Finder[12]搜索序列长度大于或等于12bp的短串联重复序列(Simple Sequence Repeat,STR).设置参数为:Percentage cutoff=100,Min.base length=12,Max.motif size=7,即搜索重复基序长度小于或等于7 bp,且STR长度不小于12 bp的完全匹配的STR位点.

2 结果与分析

2.1金钗石斛中EST-STR的主要类型和特征

利用STR Finder[12],依据2个标准,本研究对13 098个金钗石斛EST Cluster的一致(consensus)序列上基序长度为2~7bp的STR位点进行了搜索.根据筛选标准1(STR长度≥12 bp,重复次数≥2),共筛选到6 544个STR位点(表 1),分布于3 772个(0.29%)EST序列中.EST-STR的数量按基序长度6 bp→3 bp→7 bp→2 bp→5 bp→4 bp的次序逐渐降低.根据标准2(STR长度≥12 bp,且重复次数≥ 3)筛选时,6 bp和7 bp基序的STR 数量急剧减少,STR总数仅为2 122个(表 1).EST-STR的数量按基序长度3 bp→2 bp→4 bp→6 bp→5 bp→7 bp的次序降低.

表1 金钗石斛STR的统计Table 1 Summary of D.nobile STRs

注:N为EST-STR位点的数量;P为EST-STR的百分数含量(下表同).

一般而言,金钗石斛中短基序的EST-STR的位点较多,而长基序STR较少.短基序(2~4 bp)占金钗石斛EST-STR总数的29.86% (标准1)或92.08%(标准2)(表 1),其中3 bp的STR是短基序重复中的主要类型.5~7 bp长基序的STR中,6 bp基序为主要类型,其含量远高于5 bp和7 bp基序的STR序列.金钗石斛EST中最常见即分布最广泛的STR基序包括了4种2 bp基序,5种3 bp基序(表 2).基序为AAGGTG的6 bp-STR较为常见,但以重复次数为2的STR最突出(表 2).

在金钗石斛EST-STR序列中,高度重复(不少于10次)的STR较少,而低度重复(小于10次)的STR较多.以2 bp-STR为例,低度重复(6~9次)的STR最多,占2 bp-STR的60.79%;重复次数高于25次的STR仅占1.37%.随着重复度的增加,相应的STR的数量急剧减少(图1).

各种长度的基序中均出现基因特异的基序类型,即仅在1个EST中存在的基序类型.7 bp基序类型中,基因特异的基序类型占72%,而6 bp基序中占70.59%,5、4、3 bp基序中分别占89.47%、41.12%、10.34%,2 bp基序中仅发现1个基因特异的基序类型GC.

表2 金钗石斛中10种最常见的STR基序Table 2 The top ten STR motifs in D.nobile EST

图1 不同长度的2 bp-STR的丰度比较

Figure 1 Comparison on the abundance of 2 bp-STR in various lengths

2.2不同长度基序的STR的主要特征

2.2.1 2 bp-STR的特征 理论上,以4种脱氧核糖核苷酸(本文简写为A、T、G、C)中的2种可组成12种不同排列的2 bp的基序(如:以A、G构成的基序为例,本研究将AG和GA视为2种不同基序),然而仅在金钗石斛的EST序列中发现11种,缺乏CG排列的STR基序.不同基序类型的2 bp-STR的分布极不平衡.含量最丰富4种2 bp基序为GA、AG、TC、CT,占87.16%(表 2,图 2).

图2 2 bp-STR的基序类型

分析高含量的2 bp-STR结果表明:(1)它们在转录产物上的分布较广,分别位于97~194个EST上(图 2);(2)均单独由嘌呤或嘧啶核糖核苷酸组成.其它基序类型的2 bp-STR由嘌呤和嘧啶脱氧核糖核苷酸组合构成.由G、C构成基序的STR极少,仅在1个EST上发现1个GC基序的STR,而未发现CG基序的2 bp-STR位点;(3)STR位点的丰度随着其基序重复次数的增加而逐渐降低(图1).计数表明,含有低度重复(10次重复以下)的2 bp-STR位点的EST数量较多,如重复数为6的2 bp-STR位点分布在152个EST上,重复数为10的2 bp-STR位点有40个,而重复数高达24的2 bp-STR的位点只有4个,而具有最高重复数的基序是AC,只有1个EST上含有长度高达98 bp(重复39次)的STR序列;(4)具有丰富的STR长度多样性.以(AG)n为例,不同n值则代表不同长度的STR序列,而n值的分布(即某一个基序的长度的分布)可以指示这种基序在基因组上的扩展程度.在金钗石斛EST中,含量丰富的4种基序,各有16~21种STR类型,重复次数n介于6~35之间,显示出丰富的长度多样性;n≥25的基序也以4种常见类型为主.非常见基序构成的STR长度的多样性也较低,限制在1~6种,以n<11次的重复为主,少数基序可形成较高度的重复(如AC最高可重复39次).这表明不同基序的扩展能力有差异.

2.2.2 3 bp-STR的特征 金钗石斛的EST中共发现58种3 bp基序,为常见的类型,其中含量最丰富的5种基序是GAA、AAG、GAT、CGT和GGT.这5种常见的3 bp基序的有以下特征:(1)分布广,均在多于40个EST上存在(表 3);(2)重复次数n值较低,介于4~9次(表4),这与2bp-STR的常见基序的特征不同.另有6种基序(rare motif)仅在1个EST上存在,表现出基因特异性的分布模式(表3).

表3 3 bp基序在EST上的分布范围Table 3 Distribution range of 3 bp motifs

注:*表示高重复次数的基序(下表同).

表4 6 bp基序在EST上的分布范围Table 4 Distribution range of 6 bp motifs

3 bp-STR的基序重复次数较2 bp基序的低,介于4~14之间(表 5).重复次数n≥10次的基序分布在11~34个EST之间.n值越小,基序类型越多.值得注意的是,5种常见基序类型的重复次数仅为4~9次;而基因特异的3 bp基序均仅重复4次,构成12 bp长度的STR.

2.2.3 6 bp-STR的特征 重复次数n为2的6 bp-STR是金钗石斛STR的主要类型(表1).若仅考虑重复次数n>2时,可观察到68种6 bp基序.EST上6 bp基序分布范围较窄.在68中基序类型中,48种仅分布在1个EST上,13种分布在2个不同的EST位点上,而剩余的7种则分布在3~7个EST位点上(表4).可见,与2 bp和3 bp基序的STR比较,6 bp基序的基因特异性分布模式较为常见.基序AAGGTG虽然分布很广,在43个EST上均有发现(表2),但是其重复次数仅有2次.

另一方面,6 bp基序的重复次数普遍较低,最高重复次数仅为6次 (表6);且重复次数低的基序类型占多数(表6).在所观察到的6 bp-STR中,重复次数最高(n=6~5)的基序在EST上的分布受到限制,一般仅分布在1~2个EST中.

表5 不同重复次数的3 bp基序Table 5 Size distribution of 3 bp-STR

注:#指示5种最常见的基序,而△则指示罕见基序(下表同).

表6 不同重复次数的6 bp基序Table 6 Size distribution of 6bp-STR

3 讨论

3.1金钗石斛EST-STR以多态性的短基序串联重复为主

使用不同的分析方法和标准时,通过生物信息学手段搜索STR位点的结果可能不同[13-14].本研究的结果表明,使用较为宽松的标准(表1,标准1),从0.29%的金钗石斛EST上可搜索到6 549个STR位点,然而其中大多数长基序STR的重复次数很低,多为2次,即使个别6 bp-STR的重复次数达到39次,这种高度重复的长基序STR在金钗石斛EST中非常稀少.不同于长基序STR,短基序则可以达到较高的重复次数,如2 bp基序可重复6~35次,表明这种短基序易于在可转录基因中扩展.这种长、短基序STR的差异是由于STR扩展过程中基序滑动和复制的难易差异造成的[15].短基序(如2 bp基序),容易通过滑动错配复制形成STR,而长基序则较为困难;另一方面,重复次数高的STR的滑动效率高,有利于滑动复制,易造成STR的形成和扩展[15-16].由于上述原因,精确且高度重复的长基序STR稀少,为对短基序STR的偏爱性.

3.23 bp和6 bp-STR是金钗石斛EST主要的微卫星类型

金钗石斛EST-STR中3 bp和6 bp基序的类型是除2 bp-STR以外的主要类型,这种现象同样也可以在拟南芥、水稻、小麦和大麦等植物[17-18]和其它真核生物[19-20]的编码区或EST中观察到.STR序列的扩展导致所在位点的突变,因此位于功能基因编码区或表达调控区域的STR的扩展也会引起蛋白质结构和活性的改变,而非3整倍数比3整倍数的STR的扩展可引起更严重的突变后果.因此,进化过程中,3整倍数扩展的STR序列更容易被保留下来,而非3整倍数的STR扩增则容易被选择性地清除.这可能是3 bp-STR和6 bp等具有3整倍数基序长度的STR在EST中含量丰富的原因之一.

3.3金钗石斛基因特异的STR

本研究从金钗石斛EST中分离到439种基因特异的STR基序类型.但是,由于EST数据的局限,本研究可能过高估计了基因特异的STR位点数.这些STR位点的重复次数均较低;且基序长度越长,相应的基因特异基序类型的比例越高.此外,由于不同STR基序扩展的不均衡性,高度重复的长基序STR应该十分稀少; 如果同时考虑进化压力的影响,STR的数量还可能进一步降低.那么,那些基因特异分布的且具有较高重复度的长基序STR(如GGCAAGA重复4次构成的28 bp的STR)在金钗石斛中得以保留,这种现象是否与基因的结构和功能的进化密切相关?这是值得关注的问题.

本研究结果为进一步分析金钗石斛基因组提供了一个有益的起点.所得数据可用于不同物种基因组之间的共线性分析、控制特定性状的连锁分析和基因位点的图位克隆;也可用于遗传多态性分析,检测相关基因位点的进化和功能变异,解释物种性状的进化,为物种进化研究提供线索.

[1] HÖFTE H,DESPREZ T,AMSELEM J,et al.An inventory of 1152 expressed sequence tags obtained by partial sequencing of cDNAs fromArabidopsisthaliana[J].Plant J,1993,4:1051-1061.

[2] MOEN T,HAYES B,BARANSKI M,et al.A linkage map of theAtlanticsalmon(Salmo salar) based on EST-derived SNP markers[J].BMC Genomics,2008,9:223.

[3] STUDER B,KÖLLIKER R,MUYLLE H,et al.EST-derived STR markers used as anchor loci for the construction of a consensus linkage map in ryegrass (Loliumspp.) [J].BMC Plant Biology,2010,10:177.

[4] CARUSO M,FEDERICI C T,ROOSE M L.EST-STR markers for asparagus genetic diversity evaluation and cultivar identification[J].Molecular Breed,2008,21(2):195-204.

[5] LURO F L,COSTANTINO G,TEROL J,et al.Transferability of the EST-SSRs developed onNulesclementine(Citrus clementina Hort ex Tan) to other citrus species and their effectiveness for genetic mapping[J].BMC Genomics,2008,9:287.

[6] ERCAN S,ERTUGRUL F,AYDIN Y,et al.An EST-STR marker linked with yellow rust resistance in wheat[J].Biologia Plantarum,2010,54:691-696.

[7] BLANCO A,GADALETA A,CENCI A,et al.Molecular mapping of the novel powdery mildew resistance gene Pm36 introgressed fromTriticumturgidumvar.dicoccoides in durum wheat[J].Theor Appl Genet,2008,117:135-142.

[8] YANG H,SUNG S H,KIM Y C.Antifibrotic phenanthrenes ofDendrobiumnobileStems[J].J Nat Prod,2007,70:1925-1929.

[9] 虞泓,和锐,倪念春,等.石斛属4 种植物的AFLP 分析[J].中草药,2004,35(7):808-810.

YU Hong,HE Rui,NI Nianchun,et al.Fingerprinting analysis of plants ofDendrobiumSWby AFLP[J].Chinese Traditional and Herbal Drugs,2004,35(7):808-810.

[10] 程式君,胡志衡,李秀兰,等.国产石斛属染色体研究初报[J].园艺学报,1985,12 (2) :119~124.

CHEN Shijun,HU Zhiheng,LI Xiulan,et al.A preliminary study on the chromosome ofDendrobiumin China[J].Acta Horticulturae Sinica,1985,12(2):119-124.

[11] TANAKA R,KAMEMOTO H.Chromosomes in orchids:counting numbers[C]∥Orchid biology,reviews and perspectives.Ithaca:Cornell University Press,1984:323-412.

[12] GAO L F,TANG J F,LI H W,et al.Analysis of microsatellites in major crops assessed by computational and experimental approaches[J].Mol Breed,2003,12:245-261.

[13] CARDLE L,RAMSAY L,MILBOURNE D,et al.Computational and experimental characterization of physically clustered simple sequence repeats in plants[J].Genetics,2000,156:847-854.

[14] MORGANTE M,HANAFEY M,POWELl W.Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes[J].Nature Genetics,2002,30:194-200.

[15] SCHLÖTTERER C,TAUTZ D.Slippage synthesis of simple sequence DNA[J].Nucleic Acids Res,1992,20:211-215.

[16] LEVINSON G,GUTMAN G A.Slipped-strand mispairing:a major mechanism for DNA sequence evolution[J].Mol Biol Evol,1987,4:203-221.

[17] LAWSON M J,ZHANG L Q.Distinct patterns of STR distribution in theArabidopsisthalianaand rice genomes[J].Genome Biol,2006,7:R14.

[18] ROTA L M,KANTETY R V,YU J K,et al.Nonrandom distribution and frequencies of genomic and EST-derived microsatellite markers in rice,wheat,and barley[J].BMC Genomics,2005,6:23.

[19] METZGAR D,BYTOF J,WILLS C.Selection against frameshift mutations limits microsatellite expansion in coding DNA[J].Genome Res,2000,10:72-80.

[20] TOTH G,GASPARI Z,JURKA J.Microsatellites in different eukaryotic genomes:Survey and analysis[J].Genome Res,2000,10:967-981.

Keywords:Dendrobiumnobile; short tandem repeat (STR); EST

【责任编辑 成 文】

EST-STRMININGFROMDENDROBIUMNOBILE

LIANG Shan, CHEN Lili, LI Hongqing*

( Guangdong Key Lab of Biotechnology for Plant Development, School of Life Science, South China Normal University, Guangzhou 510631, China)

Dendrobiumnobileis a herb and floral plant, but the studies at the genomic scale on this species are rare.Through the computer-facilitated data mining, a total of 2 122 short tandem repeat (STR) loci that contain motifs in length ranged from 2bp to 7bp and with 3 or more repeats were identified from an EST collection ofDendrobiumnobile.Analysis on the STR frequency indicates that group of 3bp-STR is most abundant, while those with 2bp- and 6bp-motif also enriched in expressed genes.Generally, the number of repeats and the distribution range of STRs decreases with the length of motif.A total of 439 STRs are gene-specific hosted, suggesting a co-evolution between these STR loci and the specific functional genes.These results will facilitate the comparative studies betweenDendrobiumnobileand other plants at the genomic scale.

2010-11-09

国家自然科学基金-广东省联合基金项目(u0731006),广东省博士启动基金项目(10451063101005250),广东省植物发育重点实验室开放基金项目

*通讯作者,hqli@scnu.edu.cn

1000-5463(2011)02-0113-06

Q785

A

猜你喜欢

金钗基序石斛
带TRS基序突变的新型冠状病毒威胁更大
飞鼠与石斛
芥蓝Aux/IAA家族基因生物信息学与表达分析
鼠伤寒沙门菌小RNA GcvB 靶基因筛选和验证分析
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
35 种石斛兰观赏价值评价
金钗石斛化学成分的研究
金钗石斛中生物碱与多糖含量的测定
金钗石斛多糖减轻大鼠脑缺血再灌注损伤
正交设计在观赏石斛种胚离体培养中的应用