APP下载

基于理化性质局部并行融合的蛋白质相互作用预测方法

2021-04-11陈春燕吕俊龙

梧州学院学报 2021年6期
关键词:特征向量特征提取准确率

陈春燕,吕俊龙

(1.蚌埠医学院 卫生管理学院,安徽 蚌埠 233000;2.蚌埠学院 计算机工程学院,安徽 蚌埠 233000)

蛋白质相互作用预测研究在生物学领域具有重要的意义,当前预测方法主要分为2种:实验方法和计算方法。传统的实验方法需花费大量的人力、物力,计算方法逐渐成为研究者关注的热点。文献[1]对蛋白质原始序列的PSSM矩阵,进行了局域编码,提出了串行多特征融合的特征提取方法,并设计了有监督和半监督的分类器;文献[2]提出了氨基酸理化性质组成编码、氨基酸组成编码及自协方差编码的多特征融合提取方法;文献[3]充分考虑了蛋白质序列对发生相互作用较为复杂的特点,提出了自协方差编码方式,在酿酒酵母数据集上达到了88.09%的准确率。然而,蛋白质结构复杂,对原始序列进行编码提取特征向量,预测精度有待提高[4]。因此,本研究先将原始序列转化为位置特异性得分矩阵 (Position-Specific Scoring Matrix, PSSM ),然后根据理化性质对PSSM进行分区,并行融合为新的矩阵[5],提取特征向量,分类器选择多项式核和高斯核组合核支持向量机,以期提高蛋白质相互作用预测的准确率。

1 特征提取

1.1 蛋白质序列表示方法

蛋白质序列的基本组成单位是氨基酸,其由20种不同的氨基酸混合组成,表示为下:

P=p1p2…pi…pL

其中,pi表示序列中第i个氨基酸,L是蛋白质序列的长度。

1.2 蛋白质数值化表示方法

使用PSSM矩阵将一维蛋白质原始序列进行数值化表示,转换为二维矩阵[6]。使用PSI-BLAST程序得到包含蛋白质序列位置信息和蛋白质进化信息的PSSM矩阵。PSI-BLAST程序的详细信息[7],可以在网络获取,网址为https://blast.ncbi.nlm.nih.gov/Blast.cgi。

PSSM矩阵定义如下:

该结构是L×20的矩阵,L是蛋白质序列的长度,每列代表1种氨基酸,20种氨基酸共20列[8]。pi,j表示生物进化过程中,i残基突变为氨基酸j的可能性。pi,j的值>0,说明突变可能性较大,突变可能性与pi,j的值呈正相关关系。pi,j的值<0,说明发生突变的可能小,且是保守的,pi,j的值越小越保守[9]。图1是原始序列转为PSSM矩阵的示意图。

图1 蛋白质序列转换为PSSM矩阵示意图

1.3 构建特征向量

采用Expasy在线分析工具,获得蛋白质的6种理化特性,分别是带正电残基总数、带负电残基总数、消光系数、不稳定指数、脂肪族指数和亲水性平均值。

根据蛋白质的6种理化特征,将氨基酸进行重组,在得到的6种理化特征中,选择其中3种作为1组,剩下的3种作为3组,可以得到4组氨基酸[10]。因此,可以将PSSM矩阵分为A、B、C、D4个区域。每个区域生成1个新的PSSM矩阵,并将4个矩阵进行并行融合,生成基于理化特征的新的NPSSM矩阵。

蛋白质序列用特征向量VA表示。由于在蛋白质序列中,氨基酸残基的保守性与其在序列中的位置相关,所以将每条蛋白质序列划分为若干个局部区域,而每个局部区域的长为固定值,即20种氨基酸表示为20列[11]。将每条蛋白质序列分割成15个非交叉局部区域,因此重新划分后的NPSSM矩阵可以通过公式(1)来表示每个区域的特征信息,而NPSSM矩阵的特征向量VA(k)是k×20的向量。若k=15,因此会得到每条序列的一个1×300维的特征向量。

(1)

1.4 主成分分析法提取关键特征

蛋白质序列的特征向量VA是一个1×300维的特征向量,维数较高会使预测模型失去泛化能力,从而降低预测精度[12]。主成分分析(Principal Component Analysis, PCA)方法主要用于数据降维。本研究用主成分分析法PCA提取其中最具辨别力的新特征子集。在既保证预测精度,又不影响运算效率的前提下,经过反复试验,我们把降维后的维度设定为25,主成分的贡献率可以达到90%。

蛋白质相互作用预测是判断蛋白质序列对之间是否存在相互作用,因此将两条蛋白质序列的特征向量结合起来,表示蛋白质对的特征向量。对于蛋白质序列A和B,分别对A、B的特征向量VA和VB进行降维,降维后的向量分别为VA’和VB’,蛋白质对的特征向量用VAB表示,采用适量拼接方式,即VAB= VA’⨁ VB’。

1.5 特征提取流程

蛋白质序列经过数值化表示,转化为PSSM矩阵,根据6种理化特征进行分区,构建特征向量的过程见表1。

表1 构建特征向量的过程

具体的特征向量构建流程如图2所示。

图2 构建特征向量流程

2 基于支持向量机的预测模型构建

2.1 组合核支持向量机

在数据集相同的情况下,组合核函数具有比单一核函数更好的预测性能。多项式核函数如果阶数较高,则会引起参数过多,计算复杂度会增加。高斯核函数在局部区域可以将输入的向量映射到更高维的空间,并且参数较少,对于样本大小不敏感,表现出良好的分类性能。因此,本研究选择全局二次多项式核和局部高斯核作为组合核函数,起到优势互补的作用。

二次多项式核和高斯核的组合核函数数学描述如公式(2~4):

K=λG(xi,yj)+(1-λ)P(xi,yj

(2)

(3)

(4)

其中xi,yj是数据集中的样本点,并引入了核参数λ、σ1、σ2,当λ=0或λ=1时,组合核函数就变为单一核函数。

2.2 模型构造

蛋白质相互作用预测是典型的二分类问题,预测结果只有2种情况:蛋白质对之间存在相互作用或不可能发生相互作用。因此,分类器选择二分类模型支持向量机(Support Vector Machines,SVM)。然而,根据蛋白质序列的PSSM矩阵得到的特征向量不会是一个简单的线性关系,因此引入核函数使支持向量机能够适应高维非线性数据[13]。本模型选取二次多项式核和高斯核作为组合核函数,不但优化了单一核函数运行模式预测精度低的问题,还兼顾了蛋白质之间相互作用发生位置的局部性和全局性的特定特征。

本研究采用LIBSVM进行SVM分类,LIBSVM中的惩罚系数C和核函数参数λ的最优值用网格搜索法求解。本研究采取5折交叉验证(5-Fold Cross-Validation)来保证预测方法的精度。选取正、负样本中80%的数据作为训练集, 20%作为测试集,最后用预测得到的标签与真实的标签作对比,正样本标签判定为正、负样本标签判定为负,预测正确的样本数量所占总样本数量的比例(%)作为模型的预测准确率。预测模型流程如图3所示。

图3 预测模型流程

3 结果与分析

3.1 试验数据

本研究数据集选取蛋白质相互作用数据库DIP(The Database of Interacting Proteins)中的酿酒酵母(Yeast)数据集。在进行试验之前,首先要构建正、负样本数据集,构建正样本数据集,必须剔除数据集中的冗余数据,即剔除长<50的序列,并且剔除相似性≥40%的序列。构建与正样本数据基本平衡的负样本数据,共计5 594个正样本和5 594个负样本。

3.2 性能评价

本研究采用5次试验结果的预测准确率、灵敏度、精度和马修斯相关系数的平均值来评价预测方法的性能,各性能评价指标数学描述见公式(5~8):

(5)

(6)

(7)

(8)

3.3 试验结果

3.3.1 预测结果

5次试验预测结果见表2,可知本研究提出的预测方法的准确率最高达到95.11%,平均为93.98%;灵敏度最高达到95.14%,平均为93.13%;精度最高达到94.57%,平均为93.79%;马修斯相关系数最高达到89.41%,平均为88.67%。

表2 酿酒酵母数据集测试效果 %

3.3.2 与其他方法对比

为了验证本研究方法优于其他特征提取方法,特将本研究方法与其他3种特征提取方法作比较,特征提取方法及英文简称,见表3。

表3 特征提取方法及英文简称

4种方法的平均预测性能见表4,本研究方法PCPSMF的预测准确率、灵敏度、精度及马修斯相关系数平均值分别达到93.98%、93.13%、93.79%、88.67。PPSMF的预测准确率、灵敏度、精度及马修斯相关系数平均值分别达到90.34%、91.68%、91.66%、86.17%;PGS的预测准确率、灵敏度、精度及马修斯相关系数平均值分别达到86.41%、88.05%、87.21%、84.36%;PCLS的预测准确率、灵敏度、精度及马修斯相关系数平均值分别达到91.23%、90.17%、90.54%、85.49%。PCLS的预测准确率要比PGS高一些,原因在于PGLS根据理化性质提取了局部信息,PPSMF对特征向量降维,所以使SVM表现出了更好的性能。

本研究的方法PCPSMF在预测准确率上优于其他方法,原因在于PCPSMF首先提取了原始序列的PSSM矩阵,又利用了蛋白质的理化性质进行了二次编码,为了弥补SVM对高维数据分类性能欠佳的缺陷,使用PCA提取了关键特征信息。

3.3.3 模型泛化性验证

从DIP数据库中选取其他4个数据集进行模型的泛化验证,结果见表5。本方法对human数据集的预测正确率为91.61%,pylori数据集的预测正确率也超过了90%,对其他两个数据集的预测正确率也接近90%。测试结果表明,基于理化性质局部编码的特征提取方法,配合使用组合核函数作为SVM的核函数,这种方法对未知数据有较好的分类性能,外推能力较好,进一步对模型的泛化性进行了有效的评估。

表5 不同数据集测试结果

4 结束语

本研究提出了基于理化性质局部编码的蛋白质相互作用预测方法,先把蛋白质原始序列转化为PSSM矩阵,再根据理化性质将氨基酸进行重组,重新计算PSSM矩阵,构建每条蛋白质序列的特征向量,采用主成分分析法进行降维处理。在分类器的选择上,使用组合核支持向量机。试验结果表明,本研究方法正确但是存在一定的局限性,下一步,在特征提取方法上可以尝试多特征融合方法来进一步完善本研究的模型。

猜你喜欢

特征向量特征提取准确率
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
高速公路车牌识别标识站准确率验证法
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用