基于一种新的伪氨酸组成预测蛋白质折叠速率

2015-04-20单萌萌白凤兰

大连交通大学学报 2015年3期

关键词：二肽氨酸多肽

单萌萌，白凤兰

(大连交通大学理学院，辽宁大连 116052)

基于一种新的伪氨酸组成预测蛋白质折叠速率

单萌萌，白凤兰

(大连交通大学理学院，辽宁大连 116052)

以chou等人提出的伪氨酸组成方法为基础，从蛋白质序列的氨基酸组成信息和顺序信息着手，提出一种新的伪氨酸组成方法，即利用新伪氨酸序列的自相关函数、氨基酸的平均中程接触和氨基酸频率构造了23维向量来描述蛋白质序列，进而建立多元线性回归函数对蛋白质折叠速率进行预测，经jackknife检验相关系数达到了0.84.并与其他两种方法进行比较使本文的结论得到较好的验证. 同时验证了本文提取的特征参数对蛋白质折叠速率有一定的影响.

蛋白质折叠；伪氨酸；线性回归函数

0 引言

蛋白质折叠问题的研究是计算分子生物学和生物信息学中的重要内容，对于理解蛋白质的折叠机理和分析蛋白质折叠的决定性因素来说，能够精确的预测出蛋白质的折叠速率就显得非常重要，只有当蛋白质折叠成正确的具有三维结构的天然构象时才能发挥其正确的物理属性.尽管蛋白质的总体结构非常复杂，但是在化学上它们都是由20种天然氨基酸按照特定的顺序并且通过肽键连接而成的具有有限长度的多肽链.蛋白质之间最根本的差别就在于其组成多肽链的氨基酸序列和长度有所不同.从不同生物体中发现的氨基酸已有180多种，但是参与蛋白质组成的常见的氨基酸只有 20 种，即常见的天然氨基酸.近年来，许多科学家开始从蛋白质氨基酸序列着手预测蛋白质折叠速率，chou等人提出了经典的伪氨酸组成方法[1]来描述蛋白质序列的顺序信息.本文在chou等人工作的基础上，从氨基酸的顺序信息和组成信息着手，提出一种新的伪氨酸组成方法，即利用伪氨酸序列的自相关函数、氨基酸的平均中程接触等特征参数构造空间向量来描述蛋白质序列，进而建立多元线性回归函数对蛋白质折叠速率进行预测.

1 材料

从Guo[3-4]、Xing[5]、Cheng[6]等大量文章中选取已知实验折叠速率的89个蛋白质，去掉重复蛋白和文章标识长度与蛋白质数据库长度不符的蛋白质，最终得到65个蛋白质，其中36个二肽蛋白，29个多肽蛋白，氨基酸序列信息均从数据库(http://www.rcsb.org/pdb/home/home.do)中获得.

2 原理和方法

2.1 伪氨酸组成

对于蛋白质序列S=s1s2…sL

其中氨基酸si∈ψ(i=1,2,…,20),ψ={A,W,C,D,E,F,G,H,I,Y,K,L,M,N,V,P,Q,R,S,T}，考虑其在序列S中的位置，

其中，l代表氨基酸残基在序列Sw中所在的位置，l∈[1,L].

这样，我们把蛋白质序列S转换成20维的特征向量，表示为：

V(S)=(V1,V2,…,V20)

新的伪氨酸组成定义如下：

其中:

其中,spi(i=1,2,3,…,L)表示氨基酸极性值，氨基酸极性索引值如表1.

2.2 蛋白质的平均属性

对于蛋白质序列S=s1s2…sL

其平均属性定义如下：

其中,qi为第i氨基酸的某个物理化学性质，N为氨基酸残基的个数.

本文取氨基酸的平均中程接触Nm，其索引值见表1.

2.3 实验结果分析

为确定λ的取值，我们分别取λ从1～30从而得到30个向量φ1=(R1),φ2=(R1,R2)，……，φ30=(R1,R2,…,R30)，依次加入到特征向量V(S)中，得到向量(V(S),φ1), (V(S),φ2),……，(V(S),φ30)，进行30次试验，结果见图1.

图1 阶数λ对预测结果的影响

由图1可以看出，当λ取2时相关系数达到0.82，固选取λ值为2.

由以上伪氨酸的组成方法使原来的蛋白质序列S=s1s2…sL变成新序列F=F1F2…F22.

在建序列F的基础上添加向量Veve，得到23维向量Vlast=(F,Veve),建立关于折叠速率与Vlast的多远线性回归函数：

利用式(6)计算了36个二肽蛋白和29个多肽蛋白的折叠速率预测值，并对预测值进行jackknife检验.回归分析及jackknife检验结果见表2,预测值与实验值散点图见图2.

表2 相关系数r和p值

由表2结果可知对于二肽蛋白，jackknife检验相关系数为0.48，p≤0.05，对于多肽蛋白，jackknife检验相关系数仅为0.30，且p≥0.05，由图2也可以看出二肽蛋白质的实验值与预测值具有较显著的线性关系，多肽蛋白质的实验值与预测值的线性关系不显著，但是二肽和多肽混合蛋白质的实验值与预测值的线性关系显著，jackknife检验相关系数达到0.84，p≤0.05.

图2 预测值与实验值散点图注：□为二肽蛋白○为多肽蛋白

本文所提出的伪氨酸构造方法预测蛋白质折叠速率具有一定的可行性，由对多肽蛋白质检验结果的p值可以推测更试用于二肽蛋白.

3 与其他方法对比

本文方法和其他两种方法进行比较结果见表3(由jackknife检验得到).

表3 相关系数、p值、F值、标准误差

注：方法Fold-rate来源于网站http://www.csbio.sjtu.edu.dn/bioinf/FoldingRate/;方法CI来源于网站http://sdbi.sdut.edu.cn/FDserver.

观察表3可得，本文方法通过jackknife得到的相关系数r和F均大于其他两种方法，而P值和标准误差σ均小于其他两种方法，这说明本文的方法优于其他两种方法，由此可以推测蛋白质序列中氨基酸的物化属性及位置信息对蛋白折叠有一定的影响.

4 结论

本文主要从蛋白质的一级结构出发，以chou等人提出的伪氨酸组成方法为基础，从蛋白质序列中氨基酸的顺序信息和组成信息着手，提出一种新的伪氨酸组成方法，即利用新伪氨酸序列的自相关函数、氨基酸的平均中程接触构造了23维向量来描述蛋白质序列，进而建立多元线性回归函数对蛋白质折叠速率进行预测，通过散点图的描述可以直观看出通过预测方程所得预测值与实验值具有显著的线性关系.本文选择应用jackknife检验方法对预测模型的可行性进行检验，结果显示二肽蛋白相关系数为0.48，多肽蛋白相关系数为0.30，全部蛋白相关系数达到0.84，并与其他两种方法进行比较使本文的结论得到较好的验证.但是本文方法的不足之处在于对于多肽蛋白没有通过jackknife检验(p≥0.05)，说明本文所选取的特征参数对于多肽蛋白质折叠速率影响不大.寻找对多肽蛋白质折叠速率有影响的特征参数值得进一步去研究.

[1]CHOUK.Predictionofproteincellularattributesusingpesudo-aminoacidcomposition[J].Proteins,2001,43: 246-255.

[2]GROMIHAMM,THANGAKANIAM,SELVARAJS.FOLD-RATE:predictionofproteinfoldingratesfromaminoacidsequence[J].NucleicAcidsResearch,2006,34(suppl2):70-74.

[3]GUOJianxiu,RAONini,XUShanglei,etal.Predictingproteinfoldingratesusingpseudoaminoacidcomposition[J].BioinformaticsandBiomedicalEngineering，2010(1):1-4.

[4]GUOJIANIU,ZHANGHY.Directcorrelationbetweenprotein’foldingratesandtheiraminoacidcompositions:anabinitiofoldingratepredition[J].Proteins,2006,65(2):362-372.

[5]邢达杰,褚绮,林广周,等.从序列预测蛋白质折叠速率[J].天津理工大学学报,2008,24(6):18-21.

[6]CHENGXIANG,XIAOXUAN,WUZHICHENG,etal.SWFoldRate:Predictingfoldingratesfromaminoacidsequnencewithsliding[J].Proteins,2012,81(1):140-148.

Prediction of Protein Folding Rates based on new Pseudo-Acid Composition

SHAN Mengmeng,BAI Fenglan

(School of Mathematics and Physics,Dalian Jiaotong University,Dalian 116028,China)

Based on Pseudo-acid composition,by chou a new pseudo-acid composition is proposed from the amino acid composition information and the order of the protein sequence.Combining the autocorrelation function with the Nm and frequency of amino acids,23-dimensional vector is constructed,and a protein sequence can be described by the 23-dimensional vector and to create multiple linear regression function to predicte protein folding rate.By jackknife test,the correlation coefficient is 0.84.Comparison proves that the new method is batter than the other two methods.

predicte protein folding rate;Pseudo-acid;linear regression function

1673-9590(2015)03-0113-03

2014-05-20

单萌萌(1989-),女,硕士研究生;白凤兰(1963-)，女，教授,博士，主要从事蛋白质折叠速率预测方面的研究E-mail:liaimeng214@126.com.