APP下载

小麦SBP基因家族生物信息学分析

2019-01-09吕亮杰陈希勇胡梦芸刘玉平孙丽静

华北农学报 2018年6期
关键词:进化树同源拟南芥

吕亮杰,陈希勇,胡梦芸,刘玉平,孙丽静,马 乐,李 辉

(河北省农林科学院 粮油作物研究所,河北省作物遗传育种实验室,河北 石家庄 050035)

SBP(Squamosa promoter binding protein)基因家族是植物所特有的一类重要转录因子,含有一段保守的核苷酸序列(SBP-box),编码的蛋白质序列(SBP-domain)含79个氨基酸残基,并具有高度保守性,最初在金鱼草(AntirrhinummajusL.)植物中发现[1]。SBP基因家族的蛋白具有锌指结构,能识别并结合MAD-box基因SQUAM-OSA (SQUA)启动子,参与植物生长发育、抗逆以及多种生理生化过程。通过与启动子区域的顺式元件相互作用,转录因子能够激活或者抑制下游基因表达。1996年首次在金鱼草中发现SBP基因[2],后续在玉米[3-4]、拟南芥[5-6]、大豆[7]、番茄[8]、水稻[9-10]、土豆[11]和葡萄[12]等植物物种中也发现该基因家族成员[13-14]。SBP作为绿色植物特有的转录因子,在植物花和果实的发育[11]、赤霉素介导的发育[15]以及铜应答过程[16]的调控中发挥重要作用。Cardon等[17]在拟南芥的花和叶片中发现,SBP基因(SPL3)高度表达。Gandikota等[18]发现,SPL8基因参与拟南芥花粉发育的调控,SPL3、SPL4和SPL5中含有mi R156的调控位点。Moreno等[19]研究发现,SBP转录因子Liguleless1(LG1)对玉米舌叶和叶耳的发育有较大影响,LG1基因的缺失导致不能形成舌叶和叶耳。Lännenpää等[20]研究发现,BpSPL1基因特异结合BpMADS5启动子参与白桦树的花发育过程。曹雪等[21]发现葡萄的SBP基因(SPL9、SPL10)在不同组织的表达存在消长关系。Manning等[11]发现在番茄植株生发育长过程中SBP基因(LeSPL-CNR)是控制番茄果实成熟的关键基因。

随着模式植物拟南芥、水稻、小麦等重要农作物基因组数据的释放,通过生物信息学方法剖析基因家族序列特征和进化关系成为研究热门[22-23]。小麦是我国重要的粮食作物之一,小麦的产量和品质严重影响了我国小麦的发展。因此,研究小麦SBP家族对于研究小麦的生长发育具有重要意义。小麦基因组是由3个亚基因组整合在一起形成的异源六倍体(AABBDD),其基因组大小约为17 Gb,重复序列达85%。高质量的小麦基因组序列已释放(http://www.wheat genome.org/)[24],小麦A基因组供体乌拉尔图小麦(Triticumurartu)和D基因组供体粗山羊草(Aegliopstauschii)的基因组测序工作也已由中国完成[25-27],这为筛选小麦生长发育基因及其进化过程奠定了基础。目前,小麦中还未见关于SBP基因家族生物信息学和表达谱分析的报道,因此,有必要利用最新公布的小麦基因组数据对SBP基因家族进行系统研究分析。

本研究利用最新的小麦基因组数据通过生物信息学方法对小麦SBP基因进行筛选,并对其基因结构、蛋白结构、染色体分布、分子进化、串联重复片段及表达谱进行分析,旨在为进一步探讨小麦SBP基因的功能奠定基础,为利用分子生物学技术改良小麦性状提供理论依据。

1 材料和方法

1.1 小麦TaSBP基因家族的鉴定

从EnsemblPlants数据库(http://plants.ensembl.org/index.html/)下载小麦的基因组序列、基因注释和蛋白序列文件,利用NCBI(National center for biotechnology information) (https://www.ncbi.nlm.nih.gov/) Blast已报道的SBP蛋白序列并与Pfam数据库(http://pfam.xfam.org/)进行比对(e-value<1e-5),获得SBP基因家族的Pfam ID及其序列。搜索小麦SBP基因家族的同源蛋白,删除重复序列,利用在线软件Pfam(http://www.sanger.ac.uk/Software/Pfam/search.shtml)进行保守结构域分析验证[28],剔除冗余蛋白。将SBP基因家族成员按照染色体顺序编号命名并映射到不同染色体上,将散在的非染色体序列合并为U染色体。同时Blast各物种的蛋白序列与相应基因家族Pfam进行比对,得到每个物种SBP基因家族序列和蛋白序列。借助ProtParam(https://web.expasy.org/protparam/)对SBP基因家族蛋白进行分子量、等电点、氨基酸信息预测[29]。

1.2 小麦TaSBP基因家族结构分析

根据EnsemblPlants数据库中的DNA数据库检索小麦SBP基因的内含子、外显子、染色体位置等信息,利用GSDS 2. 0(Gene Structure Display Server)(http://gsds. cbi.pku.edu.cn /)在线绘制SBP基因的内含子和外显子组成及基因家族进化树[30]。利用Inparanoid分析小麦的同源蛋白(Orthologous groups,OG),使用circos基于基因注释信息对OG关系进行作图,删除OG聚类过程中没有同源关系的基因,使得同源基因在图片中显示。

1.3 小麦TaSBP基因家族的分子进化树构建

从EnsemblPlants数据库下载大麦(Hordeumvulgare)、拟南芥(Arabidopsisthaliana)、二穗短柄草(Brachypodiumdistachyum)、水稻(Oryzasativa)、玉米(Zeamays)、高粱(Sorghumbicolor)基因组和蛋白序列数据;利用 MUSCLE对小麦、大麦、短柄草、水稻、玉米、高粱、拟南芥SBP蛋白序列进行多重比对,将结果输入MEGA 7.0[31],采用邻接法(Neighbor-joining,NJ)分别构建小麦SBP基因家族进化树及小麦、大麦、短柄草、水稻、玉米、高粱、拟南芥的系统进化树,其中,校验参数(Bootstrap)设置为1 000,其余均为默认值[22]。借助FigTree绘制小麦SBP基因家族进化树及小麦、大麦、短柄草、水稻、玉米、高粱、拟南芥的系统进化树。

1.4 小麦TaSBP基因家族motif结构和三级结构预测分析

基于The MEME suite的在线工具MEME(http://meme-suite.org/tools/meme)对小麦SBP基因家族的 motif序列进行分析;小麦的SBP基因家族的蛋白质空间模型利用在线软件ExPaSy提供的SWISS-MODEL(https://swissmodel.expasy.org/interactive)进行三维结构同源建模。

1.5 小麦TaSBP基因的表达谱分析

利用已公布的小麦RNA-seq数据,检索小麦SBP基因的表达谱(http://www.plexdb.org/modules/tools/plexdb_blast.php)。数据库中提供了Chinese Spring的13个不同组织器官的表达数据,包括胚芽鞘、胚芽根、胚乳、根、花冠、叶、幼穗、花苞、雌蕊、花药、3~5 DAP颖果、22 DAP胚、22 DAP胚乳,FPKM(Fragments Per Kilobase of transcript per Millionmapped reads)值作为SBP基因的表达谱数据,用Heatmapper构建基因表达热图(http://www.heatmapper.ca/)。

2 结果与分析

2.1 小麦TaSBP基因家族鉴定及蛋白特性分析

经EMBL-EBI确认,SBP基因家族的Pfam号为PF03110,利用HMM程序搜索得到小麦的SBP基因家族,结合已报道的水稻SBP基因、拟南芥SBP基因和葡萄SBP基因序列在Ensembl Plants数据库中进行BlastP比对,得到71个小麦候选SBP基因;利用Pfam(http: //www.ranger.ac.uk/Soft-ware/Pfam/search.shtml)分析比对的蛋白质序列保守结构域,剔除非典型SBP结构域的冗余蛋白后,获得50个家族成员,按照染色体顺序分别命名为TaSBP1~TaSBP50(表1)。对50个TaSBP基因综合分析发现,这50个小麦SBP基因分布于除4B、4D染色体外的其余19条染色体上,7D、7A、7B上含有的基因数目最多,分别为8,7,5个,其次为6A、6B、6D和2D,均为3个,1A、3A、4A、5A、1B、3B、1D和3D上含有的SBP基因数目最少,仅有1个。序列分析显示,50个TaSBP基因编码长度为192~1 104个氨基酸的蛋白质,其中TaSBP26所含氨基酸数目最多(1 104个),而TaSBP2和TaSBP18最少(192个);蛋白质的相对分子质量为20 117.43~120 626.35 ku,TaSBP26的相对分子质量最大(120 626.35 ku),而TaSBP32最小(20 117.43 ku);等电点为5.73~9.87,TaSBP5预测的等电点最低(5.73),而TaSBP2和TaSBP18的等电点最高(9.87)(表1)。

2.2 小麦TaSBP基因家族同源进化分析

片段复制和串联重复是家族基因扩张的主要模式,为了分析小麦SBP家族基因与祖先材料的同源进化关系,采用生物信息学方法将SBP基因定位到不同染色体,并对串联重复片段进行分析,具有同源关系的基因进行相关的连线说明(图1)。从同源关系来看,TaSBP1、TaSBP2、TaSBP7、TaSBP8等26个基因具有同源关系,而TaSBP3、TaSBP4、TaSBP16、TaSBP19等基因与其他染色体上的基因没有同源对应关系。7A染色体上的TaSBP12、TaSBP14基因与7B染色体上的TaSBP27、TaSBP28基因和7D染色体上的TaSBP41、TaSBP42基因串联重复,说明这6个基因具有一定的同源关系。1A染色体的TaSBP1、2A染色体的TaSBP2和6A染色体的TaSBP9仅有一个串联重复,分别对应1B染色体的TaSBP17、2B染色体的TaSBP18和6B的染色体的TaSBP23,说明这3类SBP基因分别在D基因组没有拷贝。

表1 50个小麦TaSBP基因的基本信息Tab.1 The basic information of 50 wheat TaSBP genes

表1(续)

图1 小麦TaSBP基因同源进化分析Fig.1 Homologous evolution analysis of TaSBP genes in wheat

2.3 小麦SBP基因家族蛋白进化树及基因结构分析

利用本研究中小麦TaSBP全长蛋白序列构建小麦系统进化树,结果显示(图2),在50个编码小麦TaSBP蛋白的基因中检测到了11个旁系同源基因对,即TaSBP30和TaSBP47、TaSBP15和TaSBP49、TaSBP27和TaSBP43、TaSBP7和TaSBP25、TaSBP40和TaSBP24、TaSBP11和TaSBP28、TaSBP37和TaSBP5、TaSBP26和TaSBP44、TaSBP20和TaSBP4、TaSBP36和TaSBP6、TaSBP12和TaSBP29。基因结构分析表明,小麦50个SBP基因外显子数量变化从2个(TaSBP2、TaSBP18、TaSBP32)到11个(TaSBP5、TaSBP11、TaSBP26、TaSBP28、TaSBP37、TaSBP42),小麦TaSBP基因家族蛋白进化树显示,同一类之间的结构较为相似。总体来看,SBP基因家族结构较为简单,多数还有2~3个外显子,这些基因可能产生或分化的时间较晚,推测其功能相对专一。具有相似外显子和内含子的结构,在蛋白进化树上也具有很高的同源性,表明亲缘关系近的基因在进化过程中其外显子、内含子具有一定的相似性。小麦(50个)、大麦(16个)、短柄草(18)、玉米(102个)、水稻(18个)、高粱(39个)及拟南芥(17个) SBP基因的系统进化树分析表明,来自7种作物的260个SBP基因分为4个类别(图3),而本研究中得到的50个小麦TaSBP基因可以归于3个类别(图2)。

图2 小麦TaSBP基因家族的蛋白系统进化树和基因结构Fig.2 Phylogenetic tree and gene structures of wheat TaSBP genes family

图3 小麦与其他物种SBP基因的系统进化树Fig.3 The phylogenetic analysis of SBP genes in wheat and other species

2.4 小麦TaSBP基因家族的蛋白结构

模体(motif)是蛋白质分子结构中介于二级结构与三级结构之间的结构层次,又称超二级结构,是蛋白质分子具有特定功能或作为独立结构域一部分的二级结构聚合体。基因家族所有的或者大多数成员共有的motif极可能是该家族执行重要功能或组成结构不可缺少的部分,如一些具有序列特异性的蛋白的结合位点(转录因子)或者是涉及重要生物过程的RNA起始、终止、剪切等。识别基因家族共同的motif就能刻画该基因家族的特征,从而可以利用这些特征来进行发掘基因家族新成员,所以,motif的识别对基因家族尤为重要。本研究中,小麦50个TaSBP基因家族含有10个motif,其中,TaSBP30、TaSBP13、TaSBP45等10个基因含有最多的motif结构(9个),其次,TaSBP39、TaSBP9、TaSBP23分别含有7,6,6个motif,最少的27个TaSBP基因都含有3个motif;50个TaSBP都含有motif1、motif2、motif4模型,仅TaSBP11、TaSBP37、TaSBP1等11个基因含有motif5,仅TaSBP30、TaSBP39、TaSBP13等11个基因含有motif7和motif9,且motif7和motif9大多数都是一起出现(图4)。分析结果说明,TaSBP基因家族应都含有motif1、motif2、motif4,TaSBP30、TaSBP13、TaSBP45、TaSBP39、TaSBP9、TaSBP23是TaSBP基因家族具有特异性功能的基因。这个预测有助于发现TaSBP基因家族的新成员。

本研究通过对小麦50个TaSBP基因家族的氨基酸序列进行三维结构同源建模,利用Swiss-Model分析显示,50个TaSBP氨基酸序列的三级结构相似性较高。从中选取4条最具代表性的序列(TaSBP5、TaSBP12、TaSBP15、TaSBP31)进行同源三级结构建模(图5)。这4种序列都至少含有1个α-螺旋和2个β-折叠,但其三级结构不完全相同,TaSBP12、TaSBP15都含有2个α-螺旋和3个β-折叠,TaSBP31含有1个α-螺旋和3个β-折叠,而TaSBP5含有9个α-螺旋和2个β-折叠。这些α-螺旋、β-折叠的长度不同及无规则卷曲不同可能导致它们功能上相似或不同。

图4 小麦TaSBP基因家族的motif分析Fig.4 motif analysis of the wheat TaSBP genes family

A.TaSBP12;B.TaSBP15;C.TaSBP31;D.TaSBP5.

2.5 小麦TaSBP基因的表达谱分析

小麦品种Chinese Spring 13个组织器官的RNA-seq数据分析结果显示,50个TaSBP基因都在13个组织器官中检测到了转录本。如图6所示,TaSBP8、TaSBP31、TaSBP1、TaSBP26、TaSBP17、TaSBP44在13个组织器官中均具有较高的表达量,TaSBP30、TaSBP45、TaSBP38、TaSBP47、TaSBP49在13个组织器官中均具有较低的表达量;TaSBP19、TaSBP43、TaSBP32等42个基因在幼穗和花苞均具有最高的表达量,这与Manning等[11]研究的SBP基因(LeSPL-CNR)是控制番茄果实成熟的结果基本一致。除TaSBP5、TaSBP21、TaSBP24、TaSBP37、TaSBP40在花药中表达较低外,其他45个基因均具有较高的表达量,这与Schmid等[32]研究拟南芥SBP基因(SPL8)参与花粉发育的调控的结果基本一致,说明小麦的TaSBP基因可能与小麦的籽粒发育相关;TaSBP19、TaSBP43、TaSBP32等31个基因在22 DAP胚乳中均具有较低的表达量,说明小麦的TaSBP基因可能在小麦籽粒成熟后期表达量较低;TaSBP9、TaSBP14、TaSBP29等45个TaSBP基因在叶中的表达均不低,这与Moreno等[19]研究的SBP转录因子LG1能够影响玉米舌叶和叶耳的发育结果基本一致。

1.胚芽鞘;2.胚芽根;3.胚乳;4.根;5.花冠;6.叶;7.幼穗;8.花苞;9.雌蕊;10.花药;11.3~5 DAP颖果;12.22 DAP胚;13.22 DAP胚乳。1.Coleoptile; 2.Seed root; 3.Embryo; 4.Root; 5.Crown; 6.Leaf; 7.Immature inflorescence; 8.Floral bracts; 9.Pistil; 10.Anthers; 11.3-5 DAP caryopsis; 12.22 DAP embryo; 13.22 DAP endosperm.

3 讨论

高等植物中存在数千种转录因子,其中部分已被证明与生长发育[33]、抗逆性相关,调控高盐、低温、干旱、激素及发育相关的转录因子相继被克隆[34],这些转录因子增加植物的逆境抵抗力和适应力,调控果实生长发育。小麦SBP基因家族的研究起步较晚,但对其功能的研究受到广泛重视。目前,SBP基因家族在模式植物拟南芥中的研究较为深入,同时构建了拟南芥转录因子数据库(DATF),为小麦转录因子的研究提供了很多经验和信息资源。从小麦最新数据库中筛选SBP转录因子相应的蛋白序列,结合生物信息学网站和分析软件,对小麦SBP家族基因结构、染色体定位和系统进化树等进行分析,得到小麦SBP基因家族不同成员之间的相互关系和演化历程。

利用NCBI Blast已报道的SBP蛋白序列并与Pfam数据库进行比对,获得SBP基因家族的Pfam ID及其序列。搜索小麦SBP基因家族的同源蛋白,删除重复序列,利用在线软件Pfam进行保守结构域分析验证,剔除冗余蛋白,最终在拟南芥、玉米和高粱中分别得到 17,102,39个SBP 基因。前人研究发现,拟南芥、高粱[35]和玉米[3]中分别有 16,18,42 个SBP基因。二者比较显示,本研究鉴定的 SBP 基因较多,原因是本研究采用最新的基因组数据库,进行全基因组多序列比对和隐马尔科夫模型查找。与拟南芥、大麦和水稻中的SBP基因相比,小麦中含有更多SBP基因,说明小麦SBP基因家族可能经历丢失、扩张以及进化导致基因家族成员增加。系统进化分析表明,小麦与拟南芥SBP基因间具有较高的保守性,同一类之间的结构较为相似,不同类间氨基酸组成和蛋白结构的区别可能导致SBP基因家族成员功能上的差异。在小麦基因组中存在 11对SBP旁系同源基因,并对具有代表性的SBP蛋白进行三维结构建模,这可为小麦全基因组加倍事件提供有利证据。本研究通过生物信息学的方法对小麦SBP基因家族进行分析,预测基因的结构与功能,并进行了相关的同源进化分析,这为SBP基因在小麦生长发育过程中基因的挖掘和利用提供了理论与试验依据,为下一步研究小麦SBP转录因子的生物学功能提供参考。

猜你喜欢

进化树同源拟南芥
基于“乙癸同源”理论辨治股骨头缺血性坏死
基于心理旋转的小学生物进化树教学实验报告
以同源词看《诗经》的训释三则
拟南芥栽培关键技术研究
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
同源宾语的三大类型与七项注意
福州2009—2014年甲型H1N1流感病毒株HA基因进化分析
艾草白粉病的病原菌鉴定
拟南芥
口水暴露了身份