APP下载

番茄热激转录因子HSF家族的系统进化分析

2017-05-17王婷婷仇有文王沛文陈宏宇杨俊颖

江苏农业科学 2016年1期
关键词:生物信息学番茄

王婷婷 仇有文 王沛文 陈宏宇 杨俊颖 王窦逗 伍淼 王傲雪

摘要:热激转录因子(heat Shock factors)普遍存在于整个生物界中,在调控植物生长发育以及对环境的响应中起重要作用。目前,已经对多个物种的HSF基因进行生物信息学分析,但未见对番茄中HSF基因家族的分析报道。通过番茄基因组数据库,鉴定和分析番茄HSF转录因子家族,获得24个HSF基因家族成员。多重序列比对发现番茄HSF基因具有保守的DBD结构域和广泛的保守基序。根据与拟南芥基因系统进化分析将这些基因分类,分成Ⅰ、Ⅱ、Ⅲ支,又将1支分成A、B、C 3个亚支,并且存在5对旁系同源蛋白和10对直系同源蛋白。染色体分布和遗传分析结果表明,番茄HSF基因存在于10条染色体上,呈不均匀分布。

关键词:番茄;热激转录因子(HSF);基因家族;生物信息学;系统进化

中图分类号:S641.203 文献标志码:A 文章编号:1002—1302(2016)01—0048—05

转录因子又称反式作用因子,其主要功能是激活或抑制基因的转录,在调控植物生长发育及对环境的响应中起重要作用。热转录因子(heat factor HSFs)是近年来在植物中发现的一类重要的转录因子,广泛分布于植物细胞内,在热胁迫响应基因的中心元件,在植物热胁迫信号转导以及耐热性调控中起着关键作用。热激转录因子(heat shock factor,HSF)在本质上是具有转录调节活性的蛋白质,植物遭受高温胁迫的时候热激基因迅速增加,导致热激蛋白快速累积,热激蛋白作为分子伴侣帮助相关蛋白重新折叠、组装、分配和降解,对受损蛋白进行修复起着极其重要的作用。热激转录因子是信号转导途径的末端组分,通过调节基因活性对热激和其他胁迫作出响应。这些经热激而活化的热激转录因子可以识别并特异性结合在热激蛋白(heat shock protein,HSP)基因启动子区热激元件(heat shock element,HSE)的保守基序上,从而调控热激蛋白基因的开启与关闭,诱导HSPs的转录,完成其相应的生物学功能。20世纪80年代,自研究者首次在酵母中克隆HSF基因以來,多种哺乳动物HSF基因相继被克隆。然而植物的第1个HSF基因是在番茄中克隆得到的,随着基因组测序工作的不断进行,在拟南芥和水稻中也克隆得到相应的HSFs基因,随后研究者在大豆,玉米等植物分别发现至少具有52,30个HSFs基因,由此可知,植物HSFs基因是一个大的基因家族,而且对植物耐热具有重要意义。

典型的热激转录因子一般包括4个部分:N端的DNA结合域(DNA binding domain,DBD)、寡聚化结构域(HR-A/B)、细胞核定位信号(nuclear localizationsignal,NLS)、细胞核输出信号(nuclear export signal,NES),少数还具有1个C端激活域(C-terminal activation domain,CTAD)。植物热激因子通过形成回文发卡结构,特异地结合高度保守的热激元件,从而控制热激蛋白的表达。根据保守DBD和HR-A/B区的结构特点,热激转录因子又可以分为A、B、C 3类。这3类基因主要区别表现为:B类基因HR-A/B结构域中A、B结构域之问只有7个氨基酸残基,在A类、C类中,除了这7个氨基酸,还分别有21个和7个氨基酸的插入;另外,CTAD和NES的结合区域是A类HSFs所特有的结构,B类、C类均不包含CTAD结构域。

番茄是一种重要的蔬菜作物,在夏季栽培或保护地生产中,高温是影响其产量和品质的主要非生物胁迫因素之一。番茄全基因组测序工作的完成,为其遗传育种及相关基因的生物功能鉴定提供重要的信息参考。本研究利用生物信息学方法,在番茄基因组数据库中搜索HSFs基因,分析这些基因的数量、序列特征、染色体定位以及进化关系等,研究结果不仅有助于鉴定番茄HSFs基因家族的功能,还可进一步为培育番茄耐热新品种提供理论基础和基因信息。

1材料与方法

1.1番茄bZIP家族成员的确定

从拟南芥基因组数据库TAIR(http:∥www.arabidopsis.org/)获得已经鉴定的21个拟南芥HSF蛋白序列,将其在番茄基因组数据库SGN(hnp:∥www.sgn.comell.edu/)上进行同源性搜索,E值设定为1×10-10;以关键词“HSF"在SGN数据库中进行搜索,合并2次搜索结果,去除重复,下载候选番茄HSF核苷酸序列、氨基酸序列及其内含子一外显子等信息。通过CELLO(http:∥cello.1ife.nctu.edu.tw/)进行亚细胞定位分析。利用在线工具Pfam(http:∥pfam.janelia.org/)和SMART(http:∥smart.embl-heidelberg.de/)对获得的候选番茄HSF蛋白家族成员的氨基酸序列进行保守HSF蛋白结构域预测。利用ExPASy Proteomic Server(ht-tp:∥expasy.org/tools/protparam.html)对所有番茄HSF蛋白氨基酸序列进行分子质量、等电点预测。

1.2系统进化树的构建及保守motif的分析

利用拟南芥和番茄的HSF氨基酸全序列构建系统发育树,用以研究HSF基因家族成员的进化关系。使用ClustalX2.0程序对氨基酸序列进行多序列联配,将结果输出到MEGA 6.0软件中,使用邻接法(Neighbor-Joiningmethod)构建拟南芥和番茄的HSF基因家族的系统发育树,Pairwise Deletion处理缺失数据,P-distance模型,Boot-strap检验1 000次,去除Bootstrap支持率低于50%的节点。通过MEME(http:∥meme.nbcr.net/meme/)在线分析番茄HSF基因的保守motif,motif的长度设置2~200 bp,最多检测25个motif。

1.3番茄保守基序分析

通过MEME工具(http:∥meme.nbcr.net/meme/)在线分析番茄HSF基因的保守motif,保守基序最小长度为6,最大长度为50。最大发现数目为15个,其他为默认数值。

1.4染色体定位分析

根据下载的番茄基因组数据库的染色体数据,绘制番茄染色体图;在利用获得的番茄HSF基因信息通过MapDrawV2.1绘制HSF基因在染色体的定位图。

2結果与分析

2.1番茄HSF基因家族的鉴定

通过对番茄基因组的比对分析,获得24条番茄HSF基因家族成员(HSF01~HSF80)(表1),以蛋白质生化属性分析结果表示。

2.2番茄热激转录因子基因家族的鉴定

为了全面获得番茄HSF基因及其蛋白序列分别对番茄基因组数据库SGN进行了搜索,将得到的候选基因在Pfam和SMART数据库中检测其是否含有HSF结构域,同时为了验证获得HSF基因的准确性将其蛋白质序列在数据库MAR-COIL(http:∥toolkit.tuebingen.mpg,de/sections/seqanal)进行HSF基因专有的卷曲结构检测,最后鉴定获得了24个番茄HSF基因分别将其命名为solyHSF01~solyHSF24.番茄HSF基因蛋白质编码的长度介于142(solyHSFl4)~527(SolyHSF01)氨基酸之间;理论等电点位于4.68~9.44之间,最高的是SolyHSF14,高达9.44,最低等电点为SolyHSF07,只有4.68,这些蛋白从碱性到酸性分布都有。分子量位于7.7 ku(SolyHSF01)~16.62 ku(SolyHSF14)之间。通过亚细胞定位软件分析HSF基因分布在细胞外、细胞周质、细胞膜外及细胞质(表1)。

2.3番茄HSF基因的多重序列比对分析

为了揭示番茄HSF基因家族的成员之间序列保守性特征,本研究将获得的24条HSF基因的氨基酸序列进行多序列比对,结果发现在所有参加比对的氨基酸序列中包含高度保守的DNA结构域(DNA bing-domain)。DBD结构域位于HSF基因的Ⅳ端,包含3个α螺旋(α1~α3,)和4个β折叠(β1~β4)具有特异性识别和精确定位热应激元件的功能,在其他植物中均发现类似现象。采用ClustalW在线比对对番茄DBD结构域进行多重序列比对,结果(图1)表明,24个番茄HSF蛋白都具有高度保守的DBD结构域。氨基酸残基在75~81之间,最多的是Soly02g078340。但是也有少数基因发生了碱基的缺失,其中除了Solyc02g078340、Solyc09g009100外其他基因在β1和β3均有缺失,这种缺失可能是番茄HSF基因的遗传多样化的原因。

2.4番茄HSF基因系统发育树的构建及分析

为了揭示番茄HSF基因在进化过程中的同源关系,将番茄的24条HSF氨基酸序列与模式植物拟南芥的条氨基酸序列进行聚类分析。结果(图2)表明,所有的HSF基因可以分为3大类(Ⅰ、Ⅱ、Ⅲ),其中1分支可分为3个亚类(A、B、C)。在A类中番茄的Solye08g005170、Solye08g076590与拟南芥中的AT1G32330、AT4G17750具有较高的同源性而聚集在一起,其中Solyc08g005170、Solye08g076590为旁系同源蛋白,而Solyc03g097120、Solye06g072750分别与拟南芥AT5G16820、AT3G02990为直系同源蛋白。在B类和C类中Solyc12g007070、Solyc09g059520、Solyc12g098520分别与拟南芥AT3G24520、AT3G24520、AT4G13980为直系同源蛋白,Solyc02g072000与Solyc03g006000为旁系同源蛋白,番茄Solyc07g055710与Solye03g006000、Solyc02g072000,拟南芥AT4G18880、AT5G45710有很高的同源性聚集在一起。在Ⅱ分支中,Solye09g082670、AT3G51910分别与Solyc06g053960、AT3G63350为旁系同源蛋白,AT2G26150与Solyc08g062960为直系同源蛋白。在Ⅲ分支中,Solyc04g078770、Solyc02g090820、Solyc08g080540、Solyc03g026020分别与AT1G46264、AT4G36990、AT4G11660、AT5G62020为直系同源蛋白。番茄Solyclog079380与Solyc04g016000为旁系同源蛋白。在番茄的24个HSF基因有10对直系同源蛋白,5对旁系同源蛋白。通过进化关系可以说明HSF基因在2个物种中经历了不同的进化过程。

2.5番茄HSF基因的保守基序分析

对番茄24个HSF保守基序的分析结果(图3)表明,24个HSF基因具有15个保守基序,长度为6~50个氨基酸(表2);进一步分析了15个保守基序在番茄HSF蛋白中的分布情况,结果无一包含所有15个保守基序,所有基因中均不同程度存在保守基序的缺失,每个基因保守基序为4~13个。其中,基因Solyc06g053960.2.1保守基序缺失最多,只包含4个保守基序,Solyc08g005170.2.1、Solyc08g076590.2.1、Solyc03g097120.2.1含有保守基序最多,包含13个保守基序。发现4个基序(Motif1、Motif2、Motif3、Motif4)在所有HSF基因中是完全保守的,这些HSF基因家族之间具有较高保守型。

2.6番茄HSF基因染色体定位

根据番茄基因组测序的数据信息,分析24个HSF基因在染色体上的分布情况。结果(图4)表明,24个HSF基因可以定位在10条染色体上,24条HSF基因在染色体上的分布并不均匀,其中8、9号染色体分布最多均为4个,10、11号染色体分布最少均为1个,2、3号染色体上有3个HSF基因,4、6、7、12号染色体均有2个HSF基因。

3讨论与结论

随着基因组的深入研究,转录因子调控植物基因表达的研究成为现今植物基因功能研究的热点,随着全球变暖气温上升,高温成为影响植物生长及产量的重要因素之一。高温胁迫也为番茄的周年生产带来了困难,选育耐热品种是解决这一难题的主要途径,深入了解和挖掘植物耐热基因是途径之一。近年来,番茄基因组的测序完成为我们在基因组水平上分析热激转录因子奠定了基础。

通过对番茄基因组进行Blast搜索共鉴定出24个具有典型HSF结构域的热激转录因子,分为3个分支,分别包含10个、6个、8个HSF基因,每个组中的基因数目都是有差异的,表明番茄HSF基因家族成员分布不均匀,他们之间存在着广泛的多样性。这些基因的差异性与多样性可能造成HSF基因功能的多样性,从而为番茄HSF基因研究提供了资源。

HSF转录因子N端的DBD结构域主要负责HSF识别热激元件并与其正确结合,番茄HSF基因的DBD结构域具有高度的保守性,二级结构具有3个α结构和4个B折叠组成。从拟南芥与番茄HSF基因的系统发育关系发现存在10对直系同源蛋白和5对旁系同源蛋白,表明这些基因家族大部分成员在番茄和拟南芥基因组中按照它们的物种特异性的方式进行了扩展,这种现象在植物其他基因家族中也普遍存在。研究发现番茄HSF基因以分散的形式存在于10条染色体上,表明它们在进化过程中存在片段重复。

近年来,相关研究表明,HSF不仅参与热胁迫,还参与其他逆境胁迫,本研究通过对番茄HSF蛋白基因家族24个成员进行生物信息学分析,及与拟南芥HSF基因家族聚类分析,为进一步揭示其功能奠定了基础。

猜你喜欢

生物信息学番茄
番茄炒蛋
秋茬番茄“疑难杂症”如何挽救
番茄果实“起棱”怎么办
冬天的番茄为啥不太好吃
番茄炒蛋做成功啦
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用