APP下载

基于异构图推断的疾病与药物相关性预测研究

2021-04-25伍智刘洋周茂林

电脑知识与技术 2021年9期

伍智 刘洋 周茂林

摘要:研发药物的过程非常耗时且费用昂贵,以现有药物为基础确定和发展新的治疗效果有利于降低药物的开发成本。而以往的预测方法数据的要求单一,较少考虑到疾病药物相关数据的稀疏性,因此,该篇文章提出了一种基于异构图推断的疾病与药物相关性预测方法(Drug-disease relevant predicted by heterogeneous graph,DDRPGH)。该方法通过将药物相似性和疾病语义相似性与余弦相似性相结合,再通过WKNKN与已知的疾病与药物的关联融合到异构图中,揭示潜在的药物与疾病的关系。在两个数据集的十折交叉验证中,该方法AUC(F:0.923;C:0.939)优于另外三个对比方法,证明了这个方法在疾病与药物的预测方面是可行有效的。

关键词:异构图;余弦相似性;关系预测;十折交叉验证;WKNKN

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2021)09-0037-04

开放科学(资源服务)标识码(OSID):

Prediction of Disease and Drug Correlation Based on Heterogeneous Graph Inference

WU Zhi1, LIU Yang2, ZHOU Mao-ling2

(1. Guangdong University of Technology, Guangzhou 510006, China; 2. Guangzhou Silinjie Technology Company Ltd, Guangzhou 510000, China)

Abstract: The process of developing drugs is very time-consuming and expensive. Determining and developing new therapeutic effects based on existing drugs is helpful to reduce the cost of drug development. However, the data of previous prediction methods are simple, and the sparsity of disease drug-related data is less considered. Therefore, this paper proposes a prediction method of disease-drug correlation based on heterogeneous graph inference(Drug-disease correlation predicted by heterogeneous graph,DDRPGH). By combining drug similarity and disease semantic similarity with cosine similarity, the method reveals the potential relationship between drugs and diseases by merging WKNKN with known disease and drug associations into heterogeneous maps. In the 10-fold cross validation of two data sets the AUC value of this algorithm is 0.923 and 0.939 which are better than the other three contrast methods. The AUC prove this method is feasible and effective in disease and drug prediction.

Key words: heterogeneous graph; semantic similarity; correlation predicted; 10-fold cross validation; WKNKN

1 背景

药物的研发通常经过研究和开发两个阶段,每个阶段又有多個过程,是一个长期、艰难和昂贵的过程,尽管近年来药物研发的投入越来越高,平均而言,开发一种药物需要十几年和大约18亿美元,但是新药的批准率却没有增加反而有降低的趋势[1]。通过对疾病与药物相关性的研究和预测将有助于提高药物重定位的效率,减少新药开发的开支,提高资源的利用率,是医疗大数据的不可或缺的应用方向。

所谓的药物重新定位,其目标是在现有的药物基础上发现新的药物与疾病的相关性,以此来拓展原有药物对于多种疾病的实用性。因为一种药物通常不是针对一种疾病的,所以理想状态下,大多数药物都是有很多潜在的运用场景。目前为止,已经有很多研究人员投入到药物与疾病关系的预测算法的研究中。学者Wang提出的HGBI[2](Heterogeneous Graph Based Inference)基于基因网络的药物预测,不过其局限性是所需数据中涉及的药物目标与miRNA的关联数据较少;Chandrasekaran S N提出了更优的异构网络与随机游走结合的MBiRw[3],其中涉及大量的多元信息数据,获取难度大,处理起来也相对复杂;Huang通过网络通信方法利用蛋白质与药物的相互作用网络,然后利用基因表达谱推断和评估药物和疾病发生的概率[4],同样是容易受到数据的限制;Chen提出了通过药物、miRNA和疾病关系预测药物与疾病关系的模型HNBI[5],不过因为数据关系复杂,运用起来会受到一定的限制,因为药物与疾病的关联预测已经很难获得提升;有的学者也开始往药物和靶标的方向进行努力[6-7],基础数据的获取需要投入巨额的经费进行试验。

大量的药物与疾病的关系已被临床研究证实,并存储在公共数据库中,但数据的数量仍然有限。因此为了给药物与疾病关系的寻找提供更多的途径,本文提出一种计算方法用于疾病与药物关系的预测(DDRPGH:Drug-disease relevant predicted by heterogeneous graph)。DDRPGH结合了多种数据信息来源,包含药物与疾病相似性、药物结构相似性、疾病语义相似性,通过余弦相似性与WKNKN计算方法进行处理,最后由异构图完成最后的计算并进行预测。为了评价DDRPGH的性能,通过十倍交叉进行验证。结果表明,DDRPGH在曲线下面积(AUC)分别获得了F:92.3%和C:93.9%,并对前十五的预测进行了验证,预测成功占比分别为9/15和10/15,这些结果表明本文方法在疾病与药物相关性的预测上是有效的。

2 数据与方法

2.1 数据

数据的选择在疾病和药物预测中尤为重要,为了确保数据的准确性和有效性,本文选用的是以往被广泛运用的两个经典数据集,数据有两个,一个是来源于药物与疾病的经典关系数据集F,这个关系集是由多元数据构成,包含有药物匹配、药物指标和来自UMLS(Unified Medical Language System)的疾病名称。这个F数据集包含有1933个由593种药物[8]和313种疾病[9]组成的关系数据。另一个是C数据集,包含由633种药物和409种疾病组成的2353个关系数据[10]。数据关系如表1所示:

获取到数据后,每个数据集将被处理成三个矩阵 Sd∈Rm×m,Y∈R m×n和SD∈Rn×n。矩阵Y用于描述药物与疾病的关系,行号n是代表药物,列号m是代表疾病,如果疾病d(j)与药物D(i)有关联,则矩阵Y对应位置Y(d(j), D(i))的值是1,否则为0。

数据集中的Sd是疾病相似性矩阵,以疾病的医学描述为代表,其相似性数据是从MimMiner[11]获取到的。SD是药物相似性矩阵,由一对药物的二维化学结构评分构成,用于预测关联性,其中的相似性信息获取来源是CDK(Chemical Development Kit[12])。

2.2 方法

DDRPGH 预测流程图如图1所示。DDRPGH分为三个步骤,第一步是分别计算疾病和药物的余弦相似性,第二步是计算疾病和药物关联性矩阵的WKNKN,这一步将用到上一步的两个相似性矩阵,第三部计算异构图评分矩阵用于预测。

2.2.1 数据预处理

在数据预处理中,首先需要从疾病和药物自身和相互之间获取到三个矩阵,分别是疾病相似性矩阵Sd∈Rm×m,药物与疾病的关系矩阵Y∈R m×n和药物相似性矩阵SD∈Rn×n,之后有两步,第一步对Sd和SD进行余弦相似性计算并整合成新的相似关系,第二步通过WKNKN减少矩阵Y的稀疏性,这一步需要运用到前面的相似性。最后处理好的矩阵将用于异构图预测方法的运算中。

余弦相似性与整合:随着计算能力的提升,近些年,对疾病研究有了突飞猛进的进展,其中对于基因领域的学者们进行了许多研究,但是由于寻找疾病之间,基因之间的关系本身是一件费事耗钱的事情,其效率也很低,往往做了很多实验也没有找到之间任何的关系,所以获得的关系数据矩阵存在稀疏性高这一特征,后来有研究者提出了方法来扩充疾病之间以及基因之间的关系,例如使用高斯分布核相似性来分别扩充疾病之间,基因之间的相似性,因为高斯分布核相似度低于余弦相似性[13]。

在数据的稀疏性,药物和疾病的预测方面,药物与药物,药物與疾病的相似性数据也存在着一样的问题,一方面是大量的药物与大量的疾病,而其中已知的关系相对而言还是太少,受启发与疾病与基因领域的方法,本文通过余弦相似性对疾病和药物的关系进行补充。

余弦相似性的原则是基于一种假设,即如果药物Di与药物Dj是相互相似的,那么在疾病与药物的关系矩阵中,对应的列Y(:,Di)与列Y(:,Dj)也是相互相似的。药物的余弦相似矩阵CD的计算公式为:

[CD=(CDDi,Dj)n×n]     (1)

[CDDi,Dj=Y:,Di·Y(:,Dj)||Y(:,Di)||·||Y(:,Dj)||]             (2)

其中CD(Di, Dj)是两种药物Di和Dj的余弦相似性。Y(:,Di)代表药物Di和每个疾病的关联性数据。相同的,疾病di和疾病dj的余弦相似性如下:

[Cd=(CDdi,dj)m×m]                    (3)

[Cddi,dj=Ydi,:·Y(dj,:)||Ydi,:||·||Y(dj,:)||]     (4)

为了不完全丢失原有的关系数据,接下来结合余弦相似性的工作,将药物的余弦相似性矩阵CD与其本身的相似性矩阵SD做整合,药物的整合相似性矩阵ID的整合公式如下:

[ID=kSDDi,Dj+(1-k)CD(Di,Dj)]  (5)

经过试验后可以得到,k取0.2的时候,效果最好。相同的,可以得到疾病的整合相似性矩阵Id如下:

[Id=kSDdi,dj+(1-k)Cd(di,dj)]             (6)

WKNKN:通过余弦相似性,我们扩展了疾病与疾病之间相似数据Sd,药物与药物之间的相似数据SD,对于疾病与药物相似关系数据Y的稀疏性,这里使用WKNKN方法来进行处理,有学者在lncRNA的相似性中使用了WKNKN这种处理办法[14],其假设原始关系矩阵Y中可能存在许多相互作用是未知的情况,即有的数值为0的位置,可能是存在相互作用的,这种预处理步骤已知邻近关系,然后这种关系估计相互作用的可能性,最后在一些原来为0的位置赋予一个0到1的值。以此来扩充原有矩阵,使得矩阵不会过于稀疏,对Y处理完的矩阵记为A。

2.2.2 异构图

DDRPGH基于异构图推断算法,通过将药物之间的相似性、疾病之间的相似性、余弦相似性以及已知的药物和疾病之间的相似性进行整合,用来对疾病与药物之间的潜在关联进行预测。异构图推断基于的假设是,存在相似性的药物与疾病,药物与药物,疾病与疾病之间可以组合在一起来预测潜在的关联。其关联公式如下:

[Pm,n=i=1mj=1nId(mi,m)*Am(i),n(j)*ID(nj,n)]  (7)

上式表示可以通过总结长度等于3的路径来推断疾病d和药物D之间的潜在关联。我们将方程表示为矩阵乘法,则可以得到如下迭代方程:

[Pi+1=α*Id×Pi×ID+1-αA] (8)

在这里,α是一个衰减因子,类似于重新启动随机游走中的重新启动概率。

[Idmi,mj=Id(mi,mj)l=1mId(mi,mj)·l=1mId(mj,ml)]  (9)

[IDni,nj=ID(ni,nj)l=1nID(ni,nj)·l=1nID(nj,nl)]    (10)

当分别利用方程(9)和(10)对Id和ID进行归一化时,关联概率矩阵P将收敛[2]。最终迭代将趋于稳定,P(i)到P(i+1)由L1正则来计算变化,跳出阈值设定为10-6。

3 试验结果

3.1 效果判别方法

本文使用ROC曲线来刻画模型的性能,它包含了两个概念TPR(true positive rate)和FPR(false positive rate),求值公式如下:

[TPR=TPTP+FN]   (11)

[FPR=FPFP+TN]       (12)

其中,N代表负样本数量,TP代表表示分类器正确分类的正样本数,FP代表被错误分类的负样本数量,TN代表被正确分类打的负样本数,FN代表被错误分类的负样本数。AUC[15]判别器经常与ROC曲线一起使用,作为一种判别器存在,其定义是ROC曲线下方的面积,所以值永远小于等于1,一般来说,AUC的值在0.5到1之间。

3.2 十折交叉验证结果分析

在实验初期,异构图的预测效果不佳,在后续加入了WKNKN和余弦相似性计算方法后,才获得改善,下面给出DDRPGH相对于没有数据处理的异构图算法时预测准确度的变化如图2。分别在F数据集和C数据集上计算了CWHG的三种十折交叉验证结果的AUC,其中只有异构图预测(红色),WKNKN处理后的异构图预测(黑色),WKNKN结合余弦相似性处理后的异构图预测(蓝色),可以看出,无论是单独使用余弦相似性或WKNKN,还是同时使用余弦相似性和WKNKN的处理,都有助于提高异构图预测算法准确度的提升,其中将两者结合使用效果最佳。

本文试验中将DDRPGH与其他的三种异构图方法做对比,十折交叉验证中分别在C数据集和F数据集拿到的AUC评分分别是0.939和0.923。对比其他三类方法(HGBI ,MBiRw,KBMF)在这两个数据集的AUC评分,DDRPGH的预测性能均优于其他三种比较算法,如表2所示:

3.3 案例分析

获取到最终的预测后,取排名前十五的疾病与药物关联评分,进行疾病药物关联性信息的搜寻和对比,在OMIM搜索疾病编码(例如256370),药物序列(例如256370对应的DB00384)的查詢则通过drugbank,接着对比两者的关联性,以及还可以在包含了疾病与药物的相关证明的CTD [17]中搜寻对应的疾病或药物名称。最后能获得验证的疾病与药物关系如表3、表4所示,在F数据集的前15个里有9个找到了对应关系,在C数据集的前15个里有10个找到了对应关系,说明模型DDRPGH的预测是有效的。

4 结束语

本文将余弦相似性和WKNKN的矩阵预处理与异构图推断相结合,应用于药物和疾病的关联关系的预测中,并与其他三种方法的运算结果的对比,也通过了实际预测和验证,证实了DDRPGH这一方法的总体预测性能上的优良性,无论是对于F数据集或是C数据集,DDRPGH都有着优秀的预测效果,一部分也能通过可靠信息来源的验证,其在AUC的评分中也获得了优秀的分数。不足的地方在于运用的数据相对较为保守,相信对近十年的新数据进行收集验证,并结合实验室试验会获取更好的效果,这将是后续工作的重点和目标。

参考文献:

[1] 刘杰,金柳颀,景波.基于药物和疾病特征关联的药物重定位混合推荐算法[J].计算机应用研究,2020,37(3):672-675.

[2] Wang W,Yang S,Li J.Drug target predictions based on heterogeneous graph inference[M].Biocomputing,2013:53-64.

[3] Chandrasekaran S N, Koutsoukas A, Huan J. Investigating multiview and multitask learning frameworks for predicting drug-disease associations[C]//Proceedings of the 7th ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics,2016:138-145.

[4] Liang X,Zhang P,Yan L,et al.LRSSL: predict and interpret drug–disease associations based on data integra?tion using sparse subspace learning[J].Bioinformatics,2017,33(8):1187-96.

[5] Chen H, Zhang Z.Prediction of drug–disease associations for drug repositioning through drug–miRNA-disease heterogeneous network[C].IEEE Access,2018.

[6] 何亚琼,朱晓军.深度协同过滤算法实现药物-靶标关系预测[J].计算机工程与设计,2020,41(8):2195-2200.

[7] 聂丽霞,刘辉,邹凌.基于异构网络特征与梯度提升决策树的协同药物预测[J].计算机应用与软件,2020,37(4):48-52.

[8] Wishart D S, Knox C, Guo A C, et al.DrugBank: a knowledgebase for drugs, drug actions and drug targets[J].Nucleic acids research,2008,36(suppl_1):D901-D906.

[9] Hamosh A,McKusick V A,Scott A F,et al.Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders[J].Nucleic Acids Research,2005,33:D514-D517.

[10] Amberger J,Bocchini CA,Scott AF,et al.McKusick's OnlineMendelian Inheritance in Man (OMIM)[J].Nucleic AcidsRes,2009,37(Database Issue):D793-796.

[11] van Driel M A,Vriend G,Bruggeman J,et al.A text-mining analysis of the human phenome[J].European Journal of Human Genetics: EJHG,2006,14(5):535-542.

[12] Willighagen E L,Mayfield J W,Alvarsson J,et al.The Chemistry Development Kit (CDK) v2. 0: atom typing, depiction, molecular formulas, and substructure searching[J].Journal of Cheminformatics,2017,9(1):33.

[13] Li Guanghui,Luo Jiawei,Xiao Qiu,et al.Predicting microRNA-disease associations using label propagation based on linear neighborhood similarity[J]. Journal of Biomedical Informatics,2018,82:169-177.

[14] Fan W,Shang J,Li F, et al.IDSSIM: an lncRNA functional similarity calculation model based on an improved disease semantic similarity method[J]. BMC Bioinformatics, 2020,21(1):1-14.

[15] Fawcett T.An introduction to roc analysis[J].Pattern Recognition Letters,2006,27(8):861-874.

[16] Mehmet G N.Predicting drug–target interactions from chemical and genomic kernels using Bayesian matrix factorization[J].Bioinformatics,2012,28(18):2304-2310.

[17] Davis A P,Murphy C G,Johnson R,et al.The Comparative Toxicogenomics Database: update 2013[J].Nucleic Acids Research,2013,41(D1):D1104-D1114.

【通聯编辑:谢媛媛】