APP下载

基于时空图卷积神经网络的蛋白质复合物识别方法

2022-07-18盛江明

南方医科大学学报 2022年7期
关键词:复合物卷积动态

一个生物体内所有蛋白质的相互作用被称为蛋白质相互作用网络(PPIN),简称蛋白质网络。其中,在相同时间和空间内由若干个蛋白质通过相互作用共同组成的一种多分子结构称为蛋白质复合物(PC),简称复合物。在蛋白质网络中精准地识别复合物是计算生物学中的一个重要问题,然而由于蛋白质之间的相互作用具有动态性,蛋白质网络的拓扑结构会随着时间、生物环境、蛋白质的存在和降解等因素的变化而变化,这极大地增加了复合物识别的难度。此外,蛋白质相互作用数据中不可避免存在的假阳性和假阴性也给复合物识别算法设计带来了额外的挑战。李敏等通过整合时间进程基因表达数据和亚细胞位置信息构建了时空活性蛋白质相互作用网络(ST-APIN),采用聚类算法MCL在ST-APIN上进行复合物识别,提升了识别的敏感性和特异性,找到了更多具有生物学意义的复合物。有研究引入网络嵌入技术来捕获动态蛋白质网络的结构特性,提出了一种半监督网络嵌入模型(SSNEM)来检测网络中存在的稠密连接子图,即蛋白质复合物。另有研究则提出了一系列基于深度学习技术的方法来识别蛋白质复合物,雷秀娟等提出了基于拓扑势加权的蛋白质复合物挖掘方法。然而现有的方法仍然缺乏对于动态蛋白质网络中信息表征的能力,复合物的检测精度还存在不足。为此,文中充分考虑动态蛋白质网络的时间动态信息和空间动态信息,将复合物识别建模为动态图中的节点分类问题,提出了一种基于时空图卷积的复合物识别算法,并在多个公开的生物数据集上进行了全面的仿真实验。

1 材料和方法

1.1 动态蛋白质网络建模

为了精确地识别出真正有生物意义的复合物,对动态蛋白质进行建模。下面先给出网络构建中用到的一些相关术语:

定义1 动态蛋白质网络(DPN)它是一个时间上具有相关性的多个静态蛋白质网络的序列,可表示为:=(,,...,G)。其中G=(V,E,A)表示第个时刻的蛋白质网络的快照∈{1,2,...,}。

在定义1中,V表示中的蛋白质集合;E表示中存在的蛋白质相互作用关系集合;A表示的邻接矩阵。如果两个蛋白质(v)和(v)之间存在相互作用,则(A)=1,否则(A)=0。

④出院随访:患者出院以后应定期进行随访,积极了解患者的各种相关计划执行状况和相关效果,要针对性对患者的护理方案进行调整并作出修整,最大程度上提高患者护理工作说起这个效果。如果在护理过程当中遭遇困难,需要发挥患者家属的相关作用,提升患者家庭护理的有效性。

二是科技基础设施建设滞后,不能充分满足区域创新需求。近年来,东营市科技基础设施建设虽然取得了长足进步,建成一批国家大学科技园和国家级、省级的示范生产力促进中心、创业服务中心,但普遍存在建设水平不高的问题,能够为科技企业、研发机构和科技人员提供的有效服务较少。

其中,()和()分别指蛋白质和的邻居集合。

定义3 边强度(_e)指在时刻的中蛋白质和蛋白质之间相互作用关系强弱的度量,可表示为:

其中,(·)是蛋白质节点的度;n中的蛋白质总数。

本工程根据BIM模型建立动态的施工平面布置模型,将本工程划分为地下结构工程、主体结构工程及装饰装修工程三个施工阶段,根据不同阶段的进度及资源需求,分别规划施工平面布置图,在动态模型里可进行各种生产要素管理。

算法1 动态蛋白质网络构建算法

1.2.3 时间图卷积算子设计 蛋白质网络具有随时间变化而动态变化的特性,因此,有效地提取出蛋白质节点之间的时序信息是识别蛋白质复合物的关键环节之一。对于任意给定的第个时刻的动态蛋白质网络,GCN可以通过图谱卷积来提取网络上的时间特征,实现对时序信息的聚合。文中提出基于希尔伯特-黄(HHT)变换来重新定义图谱卷积。设是第个时刻蛋白质节点的输入特征,基于的能量边际谱和时频图定义出如下的时间图卷积算子提取中节点之间的时间特征:

第一个关键点就是把传统的电视媒体与当下流行的网络媒体两者之间进行有效结合,也就是在网络媒体之中也要根据实际情况为电视直播节目建立起一个合适的平台,这对于从事电视新闻采编相关工作的工作人员来说,工作的困难程度进一步增强,与此同时,要进一步确保新闻信息是真实准确的,在素材被采集完毕以后正式进行节目制作工作过程中的一些操作也十分烦琐,但是通过网络媒体进行直播进一步保证了新闻信息的实时性,使电视节目随着人们生活方式的改变而与时俱进,并且在此基础之上还能够保证人民群众获得到信息的真实程度。

Step4.输出=时刻的网络快照;

在水泥水化放热过程中,放热速度与放热最高峰时释放出来的热量,会对水泥水化反应过程的进度产生重要的影响[2]。一般来讲,温度升高会促进水泥的水化反应,而水化反应的加快会进一步放出热量,这样会导致混凝土的内外温差大,最终因为热胀冷缩而产生裂缝。裂缝对混凝土强度和密实度的影响很大,并最终影响到工程的整体结构安全和使用功能。所以,控制水泥的水化速度至关重要。

1.2 蛋白质复合物识别

输入:包含个蛋白质的PPI数据

由仿真结果图2,可知与节点的初始部署相比,在算法迭代运行200次以后,节点分布更加均匀,网络覆盖率都有显著地提高,网络覆盖质量有了很大的提高并且网络覆盖率都是随着算法迭代次数的增加而增大。初始部署时,节点的覆盖率为72.64%,在算法运行200次以后,仅考虑网络覆盖率的单目标覆盖优化算法能够提高网络覆盖率到98.53%,而考虑安全连通度以及网络覆盖率的粒子群多目标优化算法和改进的粒子群多目标优化算法能够提高网络覆盖率分别到95.94和97.69%。

输出:动态蛋白质网络

其中,Ω 是时频图的拉普拉斯矩阵;g=diag(),是由Ω 的特征向量所对应的特征值构成的对角矩阵。将上式扩展至GCN中,则GCN的第+1层输出为:

1.2.4 空间图卷积算子设计 GCN的空间卷积层通过聚合函数从邻居节点聚合特征来更新当前节点的特征。以图2所示的中心节点为目标节点,在聚合过程中,中心节点首先对其阶邻居(红色节点)进行随机采样,得到相关节点集合。然后将聚合函数作用在相关节点的特征表达上,并用聚合结果作为中心节点的特征表达。

文中在聚合目标节点的邻居信息时,不是考虑目标节点的所有邻居,而是通过随机采样获得它的阶邻居。然后基于注意力机制来确定阶邻居节点对目标节点的重要性,提取出目标节点的局部结构信息。为此,定义出如下的空间图卷积算子:

其中,(·)是一个LeakReLu激活函数;Ψ 是一个可学习的参数向量。Softmax函数确保节点的所有邻居的注意权值之和为1。该式通过端到端的神经网络结构隐式地捕获a的权重,使更重要的节点获得更大的权重,提高了捕获隐藏的空间相关性的表达能力。

1.2.5 模型训练 模型的优劣直接关系到从网络中学习到的蛋白质特征是否准确,对于后续复合物的识别性能具有重大影响。本文使用目前性能表现最好的自适应矩估计(Adam)算法对蛋白质网络数据进行批训练,采用指数衰减策略来动态地调节学习率,采用如下的交叉熵函数作为损失函数:

算法2 CR-STGC的训练

试验配方中表活剂为非离子表面活性剂,聚合物为聚丙烯酰胺。前期开展的室内实验主要包括聚合物流变性实验、聚合物及表面活性剂吸附实验和注入体系的相对渗透率实验,对应的实验结果见图2~5。

输入:动态蛋白质网络;学习率;训练轮次Epoch;交叉熵损失函数;生物实验测定的蛋白质复合物;输出:更新后的模型所有参数。

艾滋病是一种具有极高危害性的传染性疾病,主要通过性途径、血液传播,是可控可防的[1-3]。15~24岁人群大多处于在校学习阶段[4],当前国内加大对大专、本科院校的“禁毒防艾”宣传,本研究探究健康教育对高职院校学生艾滋病知识水平及防艾生活技能的影响,为提高高职院校学生防艾能力提供理论依据,报道如下。

Step1.构建数据集:采用折交叉验证法对一共个时刻的动态蛋白质网络进行划分,其中,将-个时刻动态蛋白质网络作为训练集(),={,,...,} ;(≪) 个时刻的动态 蛋白质网络作为测试集(' ),'={,,...,};

定义6 蛋白质复合物()时刻的动态蛋白质网络特征图上的蛋白质复合物可用一个指示矩阵Im(∈R)表示:

1.2.2 模型架构 在第2节构建得到的动态蛋白质网络的基础上,文中基于图卷积神经网络来学习网络中蛋白质的特征,进而采用谱聚类来识别蛋白质复合物,识别模型如图1所示。GCN由输入层、若干隐藏层和输出层组成(图1),GCN的层间传播规则可描述为:

从中随机选择一批样本作为输入,利用Adam算法来最小化和预测结果'之间的交叉熵损失,直到训练完所有样本;利用指数衰减策略调整;Until 满足精度要求为止。

(2)水稳定性。当沥青路面中存在水时,在温湿循环及重复车辆荷载作用下,使得集料与胶结料之间的黏结力降低,沥青胶结料本身黏聚力下降[2],在重复车辆荷载作用下,导致路面结构性破坏和使用功能降低,并诱发其他病害。因此,本文通过浸水马歇尔试验评价TPS排水沥青混合料的水稳定性,TPS排水沥青混合料水稳定性试验结果如表5所示。

1.2.6 基于谱聚类的复合物识别 文中在上文获得的动态蛋白质网络特征图的基础上,定义了模块函数对特征图进行谱划分,提出了基于谱聚类的复合物识别算法,可有效检测出动态蛋白质网络中存在的复合物。

Step2.模型的训练:

其中,(CP)是时刻蛋白质复合物CP中连边的数目;E中边的总数目;(CP,V)是时刻CP中所有结点的连边数目。值越大,则中复合物的划分越好。根据定义6和定义7可知,上的复合物识别问题可以建模成连续时间内求的最大值问题。为了对进行优化求解,文中首先使用一种时间平滑框架来表示蛋白质复合物的演变规律:

其中,CP是当前时刻获得的复合物;CP是当前时刻的复合物与前一时刻的复合物的相似性;是时间调节因子。然后,文中基于式(14)的时间平滑框架来优化,可将识别蛋白质复合物的代价表示为:

根据文献[21]可知,的最大化问题可以表示为:

算法3 基于谱聚类的蛋白质复合物识别

2.3 不同年龄的三维CT结果 低年龄组藏族患儿脱位高度显著高于汉族患儿(P<0.05)。高年龄组患儿髋臼指数及脱位高度两民族比较差异有统计学意义(P<0.05),见表3。 藏族组,年龄≥36个月的患儿髋臼指数、脱位高度、颈干角与<36个月患儿相比,差异有统计学意义(P<0.05)。汉族组,年龄≥36个月患儿的颈干角、脱位高度与<36个月患儿相比,差异有统计学意义(P<0.05)。见表4。

Step5.=+1;重复Step3-4,当=时算法结束。

Step1.对于每一个时刻,计算矩阵Γ的个特征值对应的特征向量={,,...,u};

国际分工视角下产业升级内涵界定与演进研究..................................................................................................................刘会政 陈 奕 杨 楠(34)

Step2.以[,,...,u]构造矩阵Im,对于任意给定的参数(2 ≤≤),重复执行:(a)生成Im的首个列的矩阵U;(b)采用谱聚类算法聚类U的行向量;

Step3.重复执行Step2中的(a)和(b),当C达到最大值时,输出值所对应的各个蛋白质复合物;

Step4.算法结束,返回。

Thereare certaindifficultiesinengineeringpracticetoimplementtheaboveimprovementmeasurements,soonlythesimulation results of those methods are presented in this paper,and an improved motor and hydraulic pump are in the design.Further experimental verification is the next main work.

2 结果

2.1 不同识别算法的查全率、查准率和F值

采用Anaconda 的最新版本作为集成开发环境,PyTorch作为深度学习框架,用Python语言编码实现了CR-STGC模型。为了验证该模型的有效性,我们采用同样的开发环境、同样的语言编码和同样的硬件环境实现了几个目前较为典型的复合物识别算法(ST-APIN、

SSNEM、VGAE、NOCD、GE-CFI、DPCMNE和MPC-TPW),并将它们在多个公开的生物数据集上进行了对比实验,采用查全率、查准率、Fmeasure值、鲁棒性和时间等多个指标来评价不同算法的性能表现。其中,表1和表2分别给出了不同识别算法在DIP数据集和MIPS数据集上的识别结果。

2.2 不同识别算法的鲁棒性

真实环境下获取生物数据的来源、手段和条件经常存在着差异,因此可获得的蛋白质相互作用数据很大程度上都会包含假阳性和假阴性,这给复合物识别算法的性能提出了额外的挑战,为了测试所提算法的可靠性,有必要进一步分析和比较不同算法在包含了虚假数据的生物数据集中识别复合物的性能。为此,以MIPS数据集为实验对象,图3和图4给出了不同识别算法在MIPS数据集上的鲁棒性表现。其中,图3是在构建出初始蛋白质网络的基础上,随机地人为增加网络中边的比例,从而构建出多个具有不同程度假阳性的蛋白质网络,随后得出的测试结果。图4是在构建得到初始网络的基础上,随机地人为删除网络中边的比例,得到多个具有不同程度假阴性的蛋白质网络,随后得出的测试结果。

3 讨论

各种算法在2种数据集上的特异性、敏感性和Fmeasure值都较高(表1、2),CR-STGC算法的识别性能在两种数据集上都要优于其他各种算法。仔细分析其原因:(1)蛋白质具有随着生物体内、外部环境变化而变化的动态特性,通过定义边强度、节点强度和边存在概率等指标来对不同时刻下的蛋白质网络进行动态建模,准确地拟合了动态蛋白质网络发展变化的趋势,为蛋白质复合物的识别提供了可靠基础;(2)提出复合物识别模型,新颖地设计了时间图卷积算子和空间图卷积算子来对网络中蛋白质的特征进行学习,准确地获得了蛋白质数据之间的时间相关性和空间相关性,为下一步通过谱聚类来识别蛋白质复合物创造了条件;(3)将动态蛋白质网络中的复合物识别问题看作时间平滑框架下的图聚类问题,并定义了模块函数来对聚类结果进行优化,从而保证了识别结果的准确性。

结合城市总体规划及各区绿色建筑重点发展潜力分布图,明确广州各区绿色建筑空间分布潜力高的区域。以黄埔区为例,黄埔区“十三五”期间需累计完成新建绿色建筑总面积为1310万m2,占全市绿色建筑发展目标比重为16%,其中二星及以上绿色建筑总面积为200万m2。主要集中分布于黄埔临港经济区、广州开发区、中新广州知识城(图8)。

此外,随着网络中假阳性的增强,所有的识别算法的F-measure 值都明显下降(图3),但总体来看,CRSTGC算法的识别性能始终更好。当网络中边的增加比例超过30%后,大多数识别算法的性能趋于稳定,表明这些算法都有不错的抗噪能力,能够较好地应对网络中存在的假阳性,过滤掉虚假复合物。接下来仍然以MIPS数据集为实验对象,在构建得到初始网络的基础上,随机地人为删除网络中边的比例,得到多个具有不同程度假阴性的蛋白质网络。重复之前的复合物识别性能测试,随着网络中假阴性的增强,所有识别算法的性能都在急剧下降(图4),这主要是因为网络中删除的边数越多,可能破坏的蛋白质之间的真实相互作用也越多,从而导致复合物的丢失,文中的各种算法都能很好地模拟和应对这一点。但综合来看,CR-STGC算法的F-measure值始终要优于其他的算法,即使在假阴性数据增加到50%,CR-STGC算法的F-measure值仍然可以维持在0.7左右,这都充分体现了CR-STGC算法的可靠性。

蛋白质网络是一种典型的超大规模复杂网络,在这样的网络环境下是否能够既准确又快速地找到有生物学意义的复合物是评价复合物识别算法是否具有实际价值的主要指标之一。我们以算法的效率为评价指标,分别在DIP数据集和MIPS数据集上测试了不同算法识别复合物的效率(图5)。

DPCMNE算法在2种数据集上的识别时间最长,GE-CFI算法次之,ST-APIN算法的运行时间最短,而CR-STGC 算法的识别时间位居第5 位。相比于DPCMNE、GE-CFI、VGAE和NOCD等4种识别算法,CR-STGC算法在2种数据集上的识别效率分别平均提高了约34.5%、28.7%、25.4%和17.6%,但比SSNEM、MPC-TPW和ST-APIN等识别算法的效率要略低。这主要是因为CR-STGC算法的运行时间还包含了动态蛋白质网络的构建开销,此外在识别复合物过程中,CR-STGC算法综合考虑了网络的时序信息和结构信息来提取网络特征,并通过谱聚类来完成复合物的识别,以牺牲部分时间代价来换取识别精度的提升。总体来看,CR-STGC算法的运行效率仍然是可以接受的,实现了识别质量和识别效率的折中,完全可以应用到大规模蛋白质网络的复合物识别问题中去。

猜你喜欢

复合物卷积动态
基于全卷积神经网络的猪背膘厚快速准确测定
国内动态
国内动态
基于图像处理与卷积神经网络的零件识别
国内动态
基于深度卷积网络与空洞卷积融合的人群计数
碳富勒烯水溶性复合物固体材料的制备
卷积神经网络概述
ZnO/大孔碳复合材料的一步合成及其光催化性能(英文)
ZnO/大孔碳复合材料的一步合成及其光催化性能(英文)