APP下载

人类组成型和可变外显子的密码子偏性及聚类分析

2014-09-10张占军邢永强王成爱

湖北农业科学 2014年11期
关键词:偏性内含子密码子

张占军+邢永强+王成爱

摘要:通过计算人类组成型外显子和可变外显子的RSCU值,对两种外显子的RSCU值进行了比较。结果表明,除了UAG、UGA、UAA 3个终止密码子外,两种外显子的密码子偏性都是相同的。对30条可变外显子和30条组成型外显子序列的RSCU值进行聚类分析,聚类结果不能把两种外显子区别开,证明两种外显子之间的密码子偏性是相同的。对这60条序列的HI进行了聚类分析,聚类结果没有把两种外显子分开。所以外显子序列中没有组成型剪接和可变剪接的信息。

关键字:人类;组成型外显子;可变外显子;密码子偏性;聚类

中图分类号:Q52文献标识码:A文章编号:0439-8114(2014)11-2675-04

Codon Bias and Cluster Analysis of the Constitutive Exons and

the Alternative Exons of Human

ZHANG Zhan-jun,XING Yong-qiang,WANG Cheng-ai

(School of Mathematics, Physics and Biological Engineering,Inner Mogolia University of Science &

Technology,Baotou 014010, Inner Mogolia,China)

Abstract: RSCU of the constitutive exons and alternative exons of human were calculated. Two kinds of exons RSCU values were compared. The results showed that every codon bias was the same in two kinds of exons, except three stop codons(UAG,UGA,UAA). 30 constitutive exon sequences and 30 alternative exon sequences were selected to calculate RSCU values of them. The cluster analysis did not distinguish two kinds of exons, proving that the codon biases were the same between the two kinds of exons. HI of the 60 sequences were calculated and used to cluster analysis. It was not able to separate the two kinds of exons. It is indicated that there is no constitutive splicing and alternative splicing information in the exon sequences.

Key words: human;constitutive exons;alternative exons;codon bias;clustering

基金项目:国家自然科学基金项目(61271448)

可变剪接是多细胞真核生物蛋白质多样性的主要来源,且由于可变剪接的存在使得剪接机制变得异常复杂[1]。基于深度测序技术,估计超过95%的人类多外显子基因存在可变剪接现象。可变剪接主要包括5种类型:可变5剪接(Alternative 5 splicing)、可变3剪接(Alternative 3 splicing)、外显子跳跃(Exon skipping)、内含子保留(Intron retention)、互斥外显子(Mutually exclusive exons)。如果把外显子分为两类,可以分为组成型外显子(Constitution exons)和可变外显子(Variable exons)。上述5种外显子均属于可变外显子。

密码子具有简并性,即组成蛋白质的每个氨基酸可能由一个到多个密码子编码。在基因中, 同义密码子的使用并不是完全均匀的。在不同物种、不同生物体中,密码子的使用存在很大的差异[2]。在一些单细胞生物中,如在大肠杆菌和酵母中,高表达的基因密码子使用的偏性一般比较大,主要是由于基因的碱基组成和mRNA翻译时tRNA的选择造成的。

目前,对于组成型和可变外显子的研究主要集中在用IDQD、SVM以及自由能等进行分类。有些研究认为密码子偏性与诸多因素有关, 如氨基酸组分[3]、mRNA的二级结构[4]、翻译起始效应、G+C含量、基因长度[5,6]、tRNA的丰度[7]、蛋白质的结构[8]等。

鉴于此,笔者研究了组成型外显子和可变外显子的密码子偏向性、非均匀性及其聚类。研究组成型外显子和可变外显子的密码子偏向性,以及通过RSCU值和HI值聚类检验其是否可以聚成两类,有助于分析发生可变剪接的序列信息是在外显子中还是在内含子中,以及分析剪接的具体机制。

1材料与方法

所用的可变剪接的数据来源于ASTD数据库(Release3)(ftp://ftp.ebi.edu.au/pub/databases/astd/altsplice /human/release3_36.35i/)[9,10],人类基因CDS序列数据来源于Ensembl(http://asia.ensembl.org/biomart/martview/04fb71801495bc0713760267933b

b8c3)。

1.1组成型外显子和可变外显子的来源

由ASTD库的AltSplice-rel3.exon.txt库、AltSplice-rel3.events.txt库以及AltSplice-rel3.genes.txt库得到4 624条人类的组成型外显子序列;由Ensembl下载得到人类基因的CDS序列211 776条。对以上两组序列进行比对,确定出具有三周期读码框的人类组成型外显子3 847条。

由ASTD库的AltSplice-rel3.events.txt库和AltSplice-rel3.genes.txt库分别得到盒式外显子序列8 049条、内含子保留序列5 926条、互斥外显子序列1 509对、可变3′外显子序列6 320对、可变5′外显子序列3 391对。这5种序列都是可变外显子序列。由上述5种可变外显子序列库和人类基因的CDS库比对得到具有三周期读码框的可变外显子9 738条。在组成型和可变外显子密码子偏向性分析时,确定了两类外显子的三周期读码框。

1.2密码子偏向性计算

1.2.1密码子使用的相对概率计算密码子偏性常用的指标有密码子使用的相对概率、密码子有效数、密码子偏好参数、GC3s值等。其中密码子使用的相对概率(Relative synonymous codon usage,RSCU) 是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率[11]。密码子使用的相对概率RSCUij的计算公式为:

RSCUij=(1)

式中,RSCUij表示第i个外显子序列、第j个密码子的相对使用概率,obsij表示密码子j在外显子i中出现的次数,aaij表示密码子j编码的氨基酸在外显子i编码的氨基酸序列中出现的次数,k表示与密码子j同义的密码子个数。

RSCU值等于1,表示这个密码子没有偏向性,大于1表示这个密码子是使用较多的密码子,小于1表示这个密码子使用较少。RSCU值越大表示密码子的偏向性越大。

1.2.2组成型外显子和可变外显子的RSCU值计算把“1.1”得到的组成型外显子和可变外显子分别连接起来,用CodonW软件分别计算其RSCU值。

1.3用RSCU值进行聚类分析

1.3.1聚类分析使用的数据从“1.1”所述的具有三周期读码框的人类组成型外显子3 847条,随机选取超过大小500 bp的组成型外显子30条,作为正集;随机选取盒式外显子6条、互斥外显子6条、可变5′外显子6条、可变3′外显子6条、内含子保留序列6条,序列长度都超过500 bp,共30条,把这些作为可变外显子,作为负集。分别将上述组成型外显子序列编号为1-30,可变外显子序列编号为31-60。

1.3.2聚类方法对外显子密码子使用概率进行聚类分析,将每个外显子序列作为研究对象,将密码子的相对使用概率统计值作为变量。由于AUG(编码蛋氨酸的密码子)、UGG(编码色氨酸的密码子)的RSCU值始终为1,所以除去这两个密码子,同时除去3个终止密码子,剩下59个密码子,用这59个密码子的RSCU值进行聚类分析。

这里外显子间的距离规定为密码子使用相对概率的欧拉平方距离。欧拉平方距离dij的计算公式为:

dij=(RSCUik-RSCUjk)2 (2)

式中,dij表示外显子i与外显子j之间的距离。RSCUik表示第i个外显子的第k个密码子的RSCU值,RSCUjk表示第j个外显子的第k个密码子的RSCU值。

1.3.3聚类分析用CodonW软件分别计算这60条序列的RSCU值,并用公式(2)计算出其距离矩阵。用SPSS 13.0软件进行聚类分析。

1.4用非均匀指数(HI)进行聚类

1.4.1非均匀指数(HI)非均匀指数(HI)定义为:

HI=(3)

式中,N?琢(α=1、2、3、4)表示序列的4种碱基A、G、T、C;N=N?琢为序列长度;N(l)(l=1、2、3)为3个子序列的长度;N(l)=N/3;Nα(l)为第l个子序列中第α种碱基数[12]。利用该参数研究碱基的非均匀分布。

1.4.2用非均匀指数聚类所使用的距离用非均匀指数聚类所使用的距离定义为:

dij=HIi-HIj(4)

式中,dij表示第i条外显子和第j条外显子的距离,HIi表示第i条外显子序列的非均匀指数,HIj表示第j条外显子序列的非均匀指数。

1.4.3聚类分析用公式(3)计算“1.3.1”中所述的60条序列的HI值,然后用公式(4)计算其距离矩阵,最后用SPSS 13.0软件进行聚类分析。

2结果与分析

2.1组成型和可变外显子密码子偏性结果

将找到的所有符合条件的组成型外显子连成一条序列,计算其RSCU值,同时把找到的所有符合条件的可变外显子连接成一条序列,计算其RSCU值。在计算结果中,剔除了UAA、UAG、UGA 3个终止密码子,绘制折线图,如图1所示。从图1中可以看出,组成型外显子和可变外显子之间偏性是相同的。每个外显子的RSCU值稍有差异,可能是统计误差的原因。

2.2用RSCU值对组成型外显子和可变外显子聚类的结果

1-30号序列为组成型外显子,31-60号序列是可变外显子,利用这60条序列的RSCU值,采用SPSS 13.0软件进行聚类分析(通过计算距离矩阵),结果如图2所示。由图2可知,聚类结果没有把组成型外显子和可变外显子区别开,进一步确认了组成型和可变外显子的密码子偏性是相同的。

2.3用HI指数对组成型外显子和可变外显子聚类的结果

计算了1-30号组成型外显子和31-60号可变外显子序列的HI指数,并用HI指数对它们进行聚类分析,聚类结果如图3所示。由图3可知,聚类结果没有把组成型外显子和可变外显子区别开,说明组成型外显子和可变外显子之间序列的不均匀性是相同的。

3结论与讨论

本研究结果表明,组成型外显子和可变外显子的密码子偏性是相同的。组成型外显子和可变外显子的非均匀性是相同的。可以推断,组成型剪接和可变剪接与外显子序列的特异性关系不大,或者组成型外显子和可变外显子在密码子偏性或不均匀性上不存在特异性。

组成型外显子和可变外显子在密码子的使用上没有偏性,可以得出在剪接的时候外显子一端是否发生剪接的信息不在外显子里。为什么某个位点发生的是组成型剪接,而不是可变剪接,而另一个位点发生的是可变剪接,而不是组成型剪接,可能是大量的剪接信息是在内含子序列、剪接因子、pre-mRNA、DNA大分子、非编码RNA等的互相作用中产生的。

结合组成型外显子和可变外显子之间的密码子偏性相同的信息进一步猜测,有可能由于进化的选择,外显子中的碱基序列是用来编码蛋白质的,这些序列已经有了编码蛋白质的功能,不适合有太多的剪接信息;而就平均长度来说,内含子比外显子长得多,而且不需要编码蛋白质,适宜于放置可变剪接的调控模体——剪接信息。

参考文献:

[1] SMITH C W, VALCARCEL J. Alternative pre-mRNA splicing: The logic of combinatorial control[J].Trends Biochem Sci,2000,25(8):381-388.

[2] GRANTHAM R, GAUTIER C, GOUY M, et al.Codon catalog usage and the genome hypothesis[J]. Nucleic Acids Research,1980,8(1):49-62.

[3] ONOFRIO G D, MOUCHIROUD D, AISSANIi B ,et al. Correlations between the compositional properties of human genes, codon usage, and amino acid composition of proteins[J].J Mol Evol,1991,32(6):504-510.

[4] ZAMA M. Codon usage and secondary structure of mRNA[J]. Nucleic Acids Symp Ser,1990,22(3):93-94.

[5] EYRE-WALKER A. Synonymous codon bias is related to gene length in Escherichia coli:Selection for translational accuracy?[J]. Mol Biol Evol,1996,13(6):864-872.

[6] MORIYAMA E N, POWELL J R. Gene length and codon usage bias inDrosophila melanogaster, Saccharomyces cervisiae and Escherichia coli[J].Nucleic Acids Res,1998,26(13):3188-3193.

[7] BUCHAN J R, AUCOTT L S, STANSFIELD I. tRNA properties help shape codon pair preferences in open reading frames[J]. Nucleic Acids Res,2006,34(3):1015-1027.

[8] GUPTA S K, MAJUMDAR S K, BHATTACHARYA T, et al. Studies on the relationships between the synonymous codon usage and protein secondary structural units[J].Biochem Biophys Res Commun, 2000,269(3): 692-696.

[9] THANARAJ T A, STAMM S, CLARK F, et al. ASD: The alternative splicing database[J]. Nucleic Acids Res, 2004,32(1):64-69.

[10] STAMM S, RIETHOVEN J J, LE TEXIER V, et al. ASD: A bioinformatics resource on alternative splicing[J]. Nucleic Acids Res, 2006,34(S1):46-55.

[11] COMERON J, AGUADE M. An evaluation of measure of synonymous codon usage bias[J]. Journal of Molecular Evolution, 1998, 47(2): 268-274.

[12] 晋宏营,李 宏. 核酸序列非均匀指数(HI)的约化[J].内蒙古大学学报(自然科学版),2002,33(3):283-287.

RSCUij=(1)

式中,RSCUij表示第i个外显子序列、第j个密码子的相对使用概率,obsij表示密码子j在外显子i中出现的次数,aaij表示密码子j编码的氨基酸在外显子i编码的氨基酸序列中出现的次数,k表示与密码子j同义的密码子个数。

RSCU值等于1,表示这个密码子没有偏向性,大于1表示这个密码子是使用较多的密码子,小于1表示这个密码子使用较少。RSCU值越大表示密码子的偏向性越大。

1.2.2组成型外显子和可变外显子的RSCU值计算把“1.1”得到的组成型外显子和可变外显子分别连接起来,用CodonW软件分别计算其RSCU值。

1.3用RSCU值进行聚类分析

1.3.1聚类分析使用的数据从“1.1”所述的具有三周期读码框的人类组成型外显子3 847条,随机选取超过大小500 bp的组成型外显子30条,作为正集;随机选取盒式外显子6条、互斥外显子6条、可变5′外显子6条、可变3′外显子6条、内含子保留序列6条,序列长度都超过500 bp,共30条,把这些作为可变外显子,作为负集。分别将上述组成型外显子序列编号为1-30,可变外显子序列编号为31-60。

1.3.2聚类方法对外显子密码子使用概率进行聚类分析,将每个外显子序列作为研究对象,将密码子的相对使用概率统计值作为变量。由于AUG(编码蛋氨酸的密码子)、UGG(编码色氨酸的密码子)的RSCU值始终为1,所以除去这两个密码子,同时除去3个终止密码子,剩下59个密码子,用这59个密码子的RSCU值进行聚类分析。

这里外显子间的距离规定为密码子使用相对概率的欧拉平方距离。欧拉平方距离dij的计算公式为:

dij=(RSCUik-RSCUjk)2 (2)

式中,dij表示外显子i与外显子j之间的距离。RSCUik表示第i个外显子的第k个密码子的RSCU值,RSCUjk表示第j个外显子的第k个密码子的RSCU值。

1.3.3聚类分析用CodonW软件分别计算这60条序列的RSCU值,并用公式(2)计算出其距离矩阵。用SPSS 13.0软件进行聚类分析。

1.4用非均匀指数(HI)进行聚类

1.4.1非均匀指数(HI)非均匀指数(HI)定义为:

HI=(3)

式中,N?琢(α=1、2、3、4)表示序列的4种碱基A、G、T、C;N=N?琢为序列长度;N(l)(l=1、2、3)为3个子序列的长度;N(l)=N/3;Nα(l)为第l个子序列中第α种碱基数[12]。利用该参数研究碱基的非均匀分布。

1.4.2用非均匀指数聚类所使用的距离用非均匀指数聚类所使用的距离定义为:

dij=HIi-HIj(4)

式中,dij表示第i条外显子和第j条外显子的距离,HIi表示第i条外显子序列的非均匀指数,HIj表示第j条外显子序列的非均匀指数。

1.4.3聚类分析用公式(3)计算“1.3.1”中所述的60条序列的HI值,然后用公式(4)计算其距离矩阵,最后用SPSS 13.0软件进行聚类分析。

2结果与分析

2.1组成型和可变外显子密码子偏性结果

将找到的所有符合条件的组成型外显子连成一条序列,计算其RSCU值,同时把找到的所有符合条件的可变外显子连接成一条序列,计算其RSCU值。在计算结果中,剔除了UAA、UAG、UGA 3个终止密码子,绘制折线图,如图1所示。从图1中可以看出,组成型外显子和可变外显子之间偏性是相同的。每个外显子的RSCU值稍有差异,可能是统计误差的原因。

2.2用RSCU值对组成型外显子和可变外显子聚类的结果

1-30号序列为组成型外显子,31-60号序列是可变外显子,利用这60条序列的RSCU值,采用SPSS 13.0软件进行聚类分析(通过计算距离矩阵),结果如图2所示。由图2可知,聚类结果没有把组成型外显子和可变外显子区别开,进一步确认了组成型和可变外显子的密码子偏性是相同的。

2.3用HI指数对组成型外显子和可变外显子聚类的结果

计算了1-30号组成型外显子和31-60号可变外显子序列的HI指数,并用HI指数对它们进行聚类分析,聚类结果如图3所示。由图3可知,聚类结果没有把组成型外显子和可变外显子区别开,说明组成型外显子和可变外显子之间序列的不均匀性是相同的。

3结论与讨论

本研究结果表明,组成型外显子和可变外显子的密码子偏性是相同的。组成型外显子和可变外显子的非均匀性是相同的。可以推断,组成型剪接和可变剪接与外显子序列的特异性关系不大,或者组成型外显子和可变外显子在密码子偏性或不均匀性上不存在特异性。

组成型外显子和可变外显子在密码子的使用上没有偏性,可以得出在剪接的时候外显子一端是否发生剪接的信息不在外显子里。为什么某个位点发生的是组成型剪接,而不是可变剪接,而另一个位点发生的是可变剪接,而不是组成型剪接,可能是大量的剪接信息是在内含子序列、剪接因子、pre-mRNA、DNA大分子、非编码RNA等的互相作用中产生的。

结合组成型外显子和可变外显子之间的密码子偏性相同的信息进一步猜测,有可能由于进化的选择,外显子中的碱基序列是用来编码蛋白质的,这些序列已经有了编码蛋白质的功能,不适合有太多的剪接信息;而就平均长度来说,内含子比外显子长得多,而且不需要编码蛋白质,适宜于放置可变剪接的调控模体——剪接信息。

参考文献:

[1] SMITH C W, VALCARCEL J. Alternative pre-mRNA splicing: The logic of combinatorial control[J].Trends Biochem Sci,2000,25(8):381-388.

[2] GRANTHAM R, GAUTIER C, GOUY M, et al.Codon catalog usage and the genome hypothesis[J]. Nucleic Acids Research,1980,8(1):49-62.

[3] ONOFRIO G D, MOUCHIROUD D, AISSANIi B ,et al. Correlations between the compositional properties of human genes, codon usage, and amino acid composition of proteins[J].J Mol Evol,1991,32(6):504-510.

[4] ZAMA M. Codon usage and secondary structure of mRNA[J]. Nucleic Acids Symp Ser,1990,22(3):93-94.

[5] EYRE-WALKER A. Synonymous codon bias is related to gene length in Escherichia coli:Selection for translational accuracy?[J]. Mol Biol Evol,1996,13(6):864-872.

[6] MORIYAMA E N, POWELL J R. Gene length and codon usage bias inDrosophila melanogaster, Saccharomyces cervisiae and Escherichia coli[J].Nucleic Acids Res,1998,26(13):3188-3193.

[7] BUCHAN J R, AUCOTT L S, STANSFIELD I. tRNA properties help shape codon pair preferences in open reading frames[J]. Nucleic Acids Res,2006,34(3):1015-1027.

[8] GUPTA S K, MAJUMDAR S K, BHATTACHARYA T, et al. Studies on the relationships between the synonymous codon usage and protein secondary structural units[J].Biochem Biophys Res Commun, 2000,269(3): 692-696.

[9] THANARAJ T A, STAMM S, CLARK F, et al. ASD: The alternative splicing database[J]. Nucleic Acids Res, 2004,32(1):64-69.

[10] STAMM S, RIETHOVEN J J, LE TEXIER V, et al. ASD: A bioinformatics resource on alternative splicing[J]. Nucleic Acids Res, 2006,34(S1):46-55.

[11] COMERON J, AGUADE M. An evaluation of measure of synonymous codon usage bias[J]. Journal of Molecular Evolution, 1998, 47(2): 268-274.

[12] 晋宏营,李 宏. 核酸序列非均匀指数(HI)的约化[J].内蒙古大学学报(自然科学版),2002,33(3):283-287.

RSCUij=(1)

式中,RSCUij表示第i个外显子序列、第j个密码子的相对使用概率,obsij表示密码子j在外显子i中出现的次数,aaij表示密码子j编码的氨基酸在外显子i编码的氨基酸序列中出现的次数,k表示与密码子j同义的密码子个数。

RSCU值等于1,表示这个密码子没有偏向性,大于1表示这个密码子是使用较多的密码子,小于1表示这个密码子使用较少。RSCU值越大表示密码子的偏向性越大。

1.2.2组成型外显子和可变外显子的RSCU值计算把“1.1”得到的组成型外显子和可变外显子分别连接起来,用CodonW软件分别计算其RSCU值。

1.3用RSCU值进行聚类分析

1.3.1聚类分析使用的数据从“1.1”所述的具有三周期读码框的人类组成型外显子3 847条,随机选取超过大小500 bp的组成型外显子30条,作为正集;随机选取盒式外显子6条、互斥外显子6条、可变5′外显子6条、可变3′外显子6条、内含子保留序列6条,序列长度都超过500 bp,共30条,把这些作为可变外显子,作为负集。分别将上述组成型外显子序列编号为1-30,可变外显子序列编号为31-60。

1.3.2聚类方法对外显子密码子使用概率进行聚类分析,将每个外显子序列作为研究对象,将密码子的相对使用概率统计值作为变量。由于AUG(编码蛋氨酸的密码子)、UGG(编码色氨酸的密码子)的RSCU值始终为1,所以除去这两个密码子,同时除去3个终止密码子,剩下59个密码子,用这59个密码子的RSCU值进行聚类分析。

这里外显子间的距离规定为密码子使用相对概率的欧拉平方距离。欧拉平方距离dij的计算公式为:

dij=(RSCUik-RSCUjk)2 (2)

式中,dij表示外显子i与外显子j之间的距离。RSCUik表示第i个外显子的第k个密码子的RSCU值,RSCUjk表示第j个外显子的第k个密码子的RSCU值。

1.3.3聚类分析用CodonW软件分别计算这60条序列的RSCU值,并用公式(2)计算出其距离矩阵。用SPSS 13.0软件进行聚类分析。

1.4用非均匀指数(HI)进行聚类

1.4.1非均匀指数(HI)非均匀指数(HI)定义为:

HI=(3)

式中,N?琢(α=1、2、3、4)表示序列的4种碱基A、G、T、C;N=N?琢为序列长度;N(l)(l=1、2、3)为3个子序列的长度;N(l)=N/3;Nα(l)为第l个子序列中第α种碱基数[12]。利用该参数研究碱基的非均匀分布。

1.4.2用非均匀指数聚类所使用的距离用非均匀指数聚类所使用的距离定义为:

dij=HIi-HIj(4)

式中,dij表示第i条外显子和第j条外显子的距离,HIi表示第i条外显子序列的非均匀指数,HIj表示第j条外显子序列的非均匀指数。

1.4.3聚类分析用公式(3)计算“1.3.1”中所述的60条序列的HI值,然后用公式(4)计算其距离矩阵,最后用SPSS 13.0软件进行聚类分析。

2结果与分析

2.1组成型和可变外显子密码子偏性结果

将找到的所有符合条件的组成型外显子连成一条序列,计算其RSCU值,同时把找到的所有符合条件的可变外显子连接成一条序列,计算其RSCU值。在计算结果中,剔除了UAA、UAG、UGA 3个终止密码子,绘制折线图,如图1所示。从图1中可以看出,组成型外显子和可变外显子之间偏性是相同的。每个外显子的RSCU值稍有差异,可能是统计误差的原因。

2.2用RSCU值对组成型外显子和可变外显子聚类的结果

1-30号序列为组成型外显子,31-60号序列是可变外显子,利用这60条序列的RSCU值,采用SPSS 13.0软件进行聚类分析(通过计算距离矩阵),结果如图2所示。由图2可知,聚类结果没有把组成型外显子和可变外显子区别开,进一步确认了组成型和可变外显子的密码子偏性是相同的。

2.3用HI指数对组成型外显子和可变外显子聚类的结果

计算了1-30号组成型外显子和31-60号可变外显子序列的HI指数,并用HI指数对它们进行聚类分析,聚类结果如图3所示。由图3可知,聚类结果没有把组成型外显子和可变外显子区别开,说明组成型外显子和可变外显子之间序列的不均匀性是相同的。

3结论与讨论

本研究结果表明,组成型外显子和可变外显子的密码子偏性是相同的。组成型外显子和可变外显子的非均匀性是相同的。可以推断,组成型剪接和可变剪接与外显子序列的特异性关系不大,或者组成型外显子和可变外显子在密码子偏性或不均匀性上不存在特异性。

组成型外显子和可变外显子在密码子的使用上没有偏性,可以得出在剪接的时候外显子一端是否发生剪接的信息不在外显子里。为什么某个位点发生的是组成型剪接,而不是可变剪接,而另一个位点发生的是可变剪接,而不是组成型剪接,可能是大量的剪接信息是在内含子序列、剪接因子、pre-mRNA、DNA大分子、非编码RNA等的互相作用中产生的。

结合组成型外显子和可变外显子之间的密码子偏性相同的信息进一步猜测,有可能由于进化的选择,外显子中的碱基序列是用来编码蛋白质的,这些序列已经有了编码蛋白质的功能,不适合有太多的剪接信息;而就平均长度来说,内含子比外显子长得多,而且不需要编码蛋白质,适宜于放置可变剪接的调控模体——剪接信息。

参考文献:

[1] SMITH C W, VALCARCEL J. Alternative pre-mRNA splicing: The logic of combinatorial control[J].Trends Biochem Sci,2000,25(8):381-388.

[2] GRANTHAM R, GAUTIER C, GOUY M, et al.Codon catalog usage and the genome hypothesis[J]. Nucleic Acids Research,1980,8(1):49-62.

[3] ONOFRIO G D, MOUCHIROUD D, AISSANIi B ,et al. Correlations between the compositional properties of human genes, codon usage, and amino acid composition of proteins[J].J Mol Evol,1991,32(6):504-510.

[4] ZAMA M. Codon usage and secondary structure of mRNA[J]. Nucleic Acids Symp Ser,1990,22(3):93-94.

[5] EYRE-WALKER A. Synonymous codon bias is related to gene length in Escherichia coli:Selection for translational accuracy?[J]. Mol Biol Evol,1996,13(6):864-872.

[6] MORIYAMA E N, POWELL J R. Gene length and codon usage bias inDrosophila melanogaster, Saccharomyces cervisiae and Escherichia coli[J].Nucleic Acids Res,1998,26(13):3188-3193.

[7] BUCHAN J R, AUCOTT L S, STANSFIELD I. tRNA properties help shape codon pair preferences in open reading frames[J]. Nucleic Acids Res,2006,34(3):1015-1027.

[8] GUPTA S K, MAJUMDAR S K, BHATTACHARYA T, et al. Studies on the relationships between the synonymous codon usage and protein secondary structural units[J].Biochem Biophys Res Commun, 2000,269(3): 692-696.

[9] THANARAJ T A, STAMM S, CLARK F, et al. ASD: The alternative splicing database[J]. Nucleic Acids Res, 2004,32(1):64-69.

[10] STAMM S, RIETHOVEN J J, LE TEXIER V, et al. ASD: A bioinformatics resource on alternative splicing[J]. Nucleic Acids Res, 2006,34(S1):46-55.

[11] COMERON J, AGUADE M. An evaluation of measure of synonymous codon usage bias[J]. Journal of Molecular Evolution, 1998, 47(2): 268-274.

[12] 晋宏营,李 宏. 核酸序列非均匀指数(HI)的约化[J].内蒙古大学学报(自然科学版),2002,33(3):283-287.

猜你喜欢

偏性内含子密码子
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
独行菜抗逆相关转录因子LaDREB密码子偏性与进化分析
密码子与反密码子的本质与拓展
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
更 正
内含子的特异性识别与选择性剪切*
10种藏药材ccmFN基因片段密码子偏好性分析
密码子偏性分析方法及茶树中密码子偏性研究进展
茶树CsActin1基因密码子偏性分析
烟草叶绿体密码子的偏好性及聚类分析