APP下载

基于图卷积神经网络的多药副作用预测方法研究

2022-04-20蔡皓宇姚国田安晟毅李硕涵王晓燕

科学技术创新 2022年11期
关键词:解码器副作用编码器

蔡皓宇 姚国田 安晟毅 李硕涵 颜 旭 王晓燕*

(吉林大学,吉林 长春 130015)

1 概述

多药治疗(相对于单一药物或单一疗法)的风险取决于任何特定病例的特定组合和诊断。在药理学中广为接受的是,如果不对试验对象的特定药物组合进行研究,就不可能准确预测药物组合的副作用或临床效果。了解所讨论的单个药物的药理学特征并不能确保准确预测这些药物组合的副作用,因为在不同药物的相互作用下,药物的活性会发生难以预料的变化。多种药物不一定是不明智的,但在许多情况下会导致负面结果或治疗效果不佳,通常弊大于利,或者风险太大而收益太少。因此,卫生专业人员认为这种情况需要进行监测和审查,以验证是否所有药物仍然是必要的。

因此我们需要计算机化决策支持来为多药治疗措施提供参考。Decagon 即是一种模拟多药副作用的图卷积神经网络方法。通过对大量的边类型的多模态图处理,经过多模式网络进行关系链接的预测。

本文利用来自吉林大学第一医院的临床数据,使程序读入补充的蛋白质之间的相互作用、药物对蛋白质的作用的扩展数据同时结合基础数据,进行对多种可能的多药副作用的评估。

2 实验设置

2.1 数据读取

读入编码后的补充药物-蛋白质相互作用(图1)以及蛋白质-蛋白质物理结合(图2)数据,编码规则及基础数据依照SIDER(副作用资源)数据库以及OFFSIDE 数据库。

图1 药物- 蛋白质相互作用(部分)

图2 蛋白质- 蛋白质物理结合(部分)

2.2 数据建模

将多药副作用数据建模作为编码药物、蛋白质和副作用关系的多模态图上的多关系链接预测问题。这些关系用图G=(V,R) 表示,有N 个节点(蛋白质、药物)和标记的边(vi,r,vj),r 作为边(关系)类型。类型包括:两种蛋白质之间的物理结合、药物和蛋白质之间的靶标关系、两种药物之间的特定类型的副作用,图3 为一个多药副作用关系图示例。

图3 多药副作用关系图示例

多药副作用的预测需要针对药物对和副作用关联进行考察。最重要的是每一种单独的药物副作用需要对这种关联产生限制。通过使用图G 来对位于药物节点间的标记的边进行预测。我们对于每个药物对(vi,vj)进行边成立的可能性确认,即药物vi和vj的共用与患者群体中r型多药副作用有关的可能性。

所以我们应用由斯坦福大学开发,可以处理具有大量边类型的多模态图的非线性多层卷积图神经网络模型Decagon,使Decagon 在图G 上运行。Decagon 主要由编码器和解码器组成。编码器模型将图G 和附加节点特征向量作为输入xi并产生一个节点d 嵌入对于图中的每个(药物、蛋白质)节点。图中跨区域的信息经由模型进行共享,每一种关系类型都有自己独立的通道进行处理。对每一个节点而言,邻居的特征向量由Decagon 进行变换和聚合。这样,Decagon 只考虑节点的一阶邻域,并对图中的所有位置应用相同的变换。该神经网络模型的单层采用以下形式:

编码器将每个节点vi∈V映射到一个嵌入,一个实值的向量表示z i∈Rd,其中d 是节点表示的维数。接着描述系统的解码器组件。解码器的目标是通过学习节点嵌入和对每个标签(边类型)进行不同的处理,在G 中重构标记边。解码器通过一个函数g 得到一个有关(vi,r,v)j的分数,其目标是分配一个分数g(vi,r,vj)表示药物vi和vj经关系/副作用类型相互作用的可能性有多大。使用嵌入系统的编码器和zi和zj返回的节点i 和j,解码器通过阶乘运算预测候选边缘(vi,ri,v)j:

然后应用函数σ来计算边的概率:

接下来,通过区分以下两种情况来区分系统的解码器:

当vi和vj为药物节点时,解码器g 假设药物-药物相互作用的全局模型(即R),其在多种药物副作用中的变化和重要性由副作用特定的对角因子(即Dr)来描述。这里,R 是一个形状为d×d 的可训练参数矩阵,它可以在所有可能的多药副作用中模拟全部药物相互作用。此外,在系统中,每个代表不同多药副作用的关系R 都与一个对角d×d 矩阵Dr相关联,它模拟了zi中每个维度对副作用R 的重要性。然而,系统的一个显著特征是对编码器的依赖。而经典的张量分解在训练中直接使用节点表示进行优化,用端到端的方式计算它们,节点嵌入与张量因数分解一起进行优化。

当vi和vj都不是药物节点时,解码器g 采用双线性形式对节点嵌入的边缘进行解码。更准确地说,在这种情况下,解码函数g 与形状d×d 的可训练参数矩阵Mr相关联,该矩阵模拟了zi和zj中每两个维度之间的相互作用。然后用双线性形式计算预测的边缘概率,然后应用σ函数。

系统构造的解码器可以被看作是不同关系类型之间有效的参数共享的一种形式。特别是、涉及药物对的关系类型使用相同的全局药物-药物相互作用模型(即矩阵R),其模式适用于所有药物相关类型。期望这种解码参数化可以减轻罕见副作用的过度适应,因为参数是由罕见出现的副作用(例如髓炎或鼻息肉)和频繁出现的副作用(例如低血压或贫血)共同组成的。其次,要g(vi,r,vj)来表示一个药物组合(vi,vj)和一个副作用r 之间的关联,这个副作用r 不能单独归因于vi或vj。因此十分重要的是,预测系统通过R 允许i 和j 的嵌入中的任意两个维度之间的非零交互。

模型训练:在模型训练过程中,利用交叉熵损失对模型参数进行优化:

为了激励模型将更高的概率分配给观测到的边(vi,r,vj) 而不是随机的非边。对于图中的每一个药物边(vi,r,vj)(即正例),通过随机选择节点vn来抽样一个随机边(vi,r,vn)(即反例)。这是通过将边(vi,r,vj) 中的节点vj替换为节点vn来实现的,节点vn是据抽样的分布而任意的选择。最终,在考虑所有边后,得到了损失函数为:

2.3 输出结果

根据1309 种副作用类型,设置经过20 个Epoch(训练次数),512 个batch_size(训练大小),dropout 率为0.1的训练后,得到关于AUROC、AUPRC、AP@50 的输出结果如图4。

图4 输出结果(部分)

2.4 方法比较

将Decagon 的性能与其他方法进行比较。从表1 的结果中我们看到,考虑到多模式网络表示和对大量不同的副作用进行建模,Decagon 的性能大大优于其他方法。在964 种副作用类型中,Decagon 优于替代方法 19.7%(AUROC)、22.0% (AUPRC) 和36.3% (AP@50)。Decagon的改进相对于张量分解方法尤其明显,其中Decagon 超过基于张量的方法高达68.7% (AP@50)。这一发现突出了直接优化张量分解的潜在限制(即普通的 RESCAL和DEDICOM),不依赖于图结构的卷积编码器。我们还将Decagon 与其他两种方法进行了比较,我们将其用于多关系链接预测任务。我们观察到,与基于张量的方法相比,DeepWalk 神经嵌入和级联药物特征实现了9.0%(AUROC) 和20.1% 的增益(AUPRC)。然而,这些方法采用两阶段管道,由药物特征提取模型和链接预测模型组成,两者都是单独训练的。此外,他们不能考虑我们展示的包含有用信息的不同副作用的相互依赖性。

表1 方法比较

3 结论

本文使用Decagon 方法构建模型,并用来自吉林大学吉林大学第一医院的临床数据作为补充输入,利用AUROC、AUPRC 和AP@50 评估训练结果,从而为可能的多药副作用类型进行数据支持。该研究为多药副作用的预测方法投入到临床应用的可行性提供了基础。

猜你喜欢

解码器副作用编码器
融合CNN和Transformer编码器的变声语音鉴别与还原
徐长风:核苷酸类似物的副作用
科学解码器(一)
科学解码器(二)
科学解码器(三)
舞台机械技术与设备系列谈(二)
——编码器
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
基于双增量码道的绝对式编码器设计
药物副作用,到底怎么解?
安眠药可以这样吃