APP下载

基于图正则化协同矩阵分解预测miRNA-疾病关联

2020-02-03王宇韦锦涛

电子技术与软件工程 2020年19期
关键词:正则相似性关联

王宇 韦锦涛

(曲阜师范大学网络空间安全学院 山东省曲阜市 273100)

1 引言

miRNA 是一类长度为17-24 nt 的内源性非编码RNA,在动物和植物中参与基因表达后在转录调控的过程中起重要作用[1-3]。miRNA 与许多关键的生物进程都有密切的关联,如细胞的发育、分化、凋亡和增殖[4,5]。众多研究表明miRNA 的异常表达与许多人类疾病的发生、发展有密切的关联[6-8]。所以,预测与疾病相关联的miRNA 对于人类疾病的诊断、治疗以及预防至关重要。用于预测与疾病相关的miRNA 的计算模型亟需开发,从而解决上述问题可以极大地提高疾病诊断、治疗的效率[9-11]。

具有相似功能的miRNA 更有可能与表型相似的疾病相关联,反之亦然。目前,基于这样一条假设,已经有许多研究者提出了基于相似性度量的预测miRNA-疾病关联的计算模型。Jiang 等人[12]首先构建了miRNA 功能相似性网络和人类疾病-miRNA 网络,然后计算网络中节点的相似度分数,分数高的miRNA 与疾病有关联的可能性更大。Li 等人[13]通过计算已知疾病基因和靶基因之间的功能一致性分数(FCS)来预测潜在的miRNA-疾病关联。

近年来,基于机器学习推断miRNA-疾病关联的方法取得了很好的预测性能。Chen 等人[14]基于半监督分类器提出了正则化最小二乘法(RLSMDA)预测与疾病相关的miRNA,并整合了已知miRNA-疾病关联、疾病相似性网络和miRNA 相似性网络,RLSMDA 不需要负样本。Chen 等人[15]提出了异质性标签传播模型用于预测miRNA-疾病关联(HLPMDA),将一个异质性标签在miRNA、疾病和长非编码RNA (lncRNA)的多网络上进行传播,推断可能存在的miRNA-疾病关联。

另外,基于矩阵分解预测miRNA-疾病关联的模型被大量提出。Zhao 等人[16]提出了基于非负矩阵分解和Kronecker 正则化最小二乘法(KronRLS)的对称非负矩阵分解(SNMFMDA)的模型。Zhong 等人[17]构建了一个双层网络以此来表示miRNA 之间、疾病之间以及miRNA 和疾病之间的复杂关联,基于非负矩阵分解来预测与疾病相关联的miRNA。Xiao 等人[18]提出了图正则化非负矩阵分解(GRNMF)模型,并引入了加权K 最近邻谱作为预处理步骤。Shen 等人[19]整合了miRNA 功能相似性、疾病语义相似性和实验验证miRNA-疾病关联,根据协同矩阵分解预测miRNA-疾病关联。

本文提出了基于图正则化协同矩阵分解(GRCMF)的方法用于预测miRNA-疾病的关联,其预测过程如图1所示。首先,我们整合了miRNA 功能相似性、疾病语义相似性、实验验证的miRNA-疾病关联以及miRNA 和疾病的高斯核相似性,构建了可靠的用于模型的数据集。其次,由于已知的miRNA-疾病关联较少,因此我们采用了加权K 最近邻(WKNKN)预处理步骤,将miRNA-疾病关联矩阵Y 中的0 值转换为0 到1 之间的小数,从而提升预测性能。另外,我们在协同矩阵分解(CMF)模型中引入了图正则化,图正则化可以通过利用数据的几何结构来保证基于局部的表示,防止过拟合[18,20]。最后,我们进行了100 次五折交叉验证、留一验证以及案例研究,100 次五折交叉验证取得的平均AUC 值为0.9265,留一验证取得的AUC 值为0.9276。实验结果表明,基于图正则化协同矩阵分解的模型在预测miRNA-疾病关联方面是有效的。

图1:GRCMF 流程图

2 数据获取及预处理

2.1 人类miRNA-疾病关联

HMDDv2.0[7]是一个包含关于495 个miRNA 和383 个疾病之间5430 条已知关联的数据库。我们从下载的5430 个已知关联中构建了一个邻接矩阵Y∈Rn×m来表示这些数据,n 和m 分别代表miRNA 和疾病的个数。若一个miRNAmi经实验验证与一个疾病dj有关联,则Yij为1,否则为0。

2.2 miRNA功能相似性度量

研究表明,功能相似的miRNA 更可能与相似的疾病有关联,反之亦然[22,23]。由于Wang 等人[23]的研究,我们从中获取了miRNA 功能相似性分数,然后构建了miRNA 功能相似性矩阵Sm∈Rn×n,矩阵的每个元素Sm(mi,mj)表示miRNAmi和mj的功能相似性分数。

2.3 疾病语义相似性度量

我们参照Wang 等人[23]的文献通过层次有向无环图(DAG)计算疾病语义相似性。疾病DAG 图从MeSH 数据库下载。DAGd=(d,Td,Ed)表示一个疾病d 的层次DAG 图,其中Td表示疾病的集合,Ed表示DAG 中连接的集合,因此,根据DAG 图我们可以按照以下公式来计算疾病D 的语义值:

其中,DD(d)表示疾病d’对于疾病d 的语义贡献值(公式(2)),∆表示语义贡献因子,我们参照Wang 等人[23]的文献将∆设置为0.5。

因此,基于若两个疾病的DAG 图重复越多,则它们之间的相似性更大这样一个假设,我们按照公式(3)来计算疾病di和dj之间的语义相似性,并构建了疾病语义相似性矩阵Sd∈Rm×m,矩阵的每个元素Sd(di,dj)表示疾病di和dj的语义相似性分数。

2.4 miRNA和疾病的高斯核相互作用谱相似性

许多预测miRNA-疾病关联的模型[24-26]采用高斯核相互作用谱相似性来分别度量疾病和miRNA 相似性,并取得了更好的预测性能,本文首先根据miRNA-疾病关联矩阵Y 中di(mj)与各miRNA(disease)之间是否存在已知的关联,将IP(di)和IP(mj)分别定义为疾病di和miRNA mj的相互作用谱,然后按照公式(4)计算疾病di与dj之间的高斯核相互作用谱相似性。

与公式(4)计算方法类似,我们按照公式(5)计算miRNAmi和mj的高斯核相互作用谱相似性:

其中,核带宽βm,βd公式如下,和为原始带宽。

总之,矩阵GD、GM 分别表示疾病和miRNA 的高斯核相互作用谱相似性。

2.5 整合miRNA和疾病相似性

根据上述各种度量相似性的方法,将高斯核相互作用谱相似性与miRNA 功能相似性、疾病语义相似性整合得到最终的miRNA 相似性和疾病相似性。本文分别构建了miRNA功能相似性矩阵SM(公式(8))和疾病语义相似矩阵SD(公式(9)),SM(mi,mj)表示miRNAmi和mj的相似性,SD(di,dj)表示疾病di和dj的相似性。

2.6 加权K最近邻(WKNKN)预处理

令M={m1,m2,…,mn}和D={d1,d2,…,dm}分别表示n 个miRNA和m 个疾病的集合。邻接矩阵Y∈Rn×m表示已知的miRNA 和人类疾病的关联,矩阵Y 是个稀疏矩阵。因此,对矩阵Y 进行了一个加权K 最近邻(WKNKN)[27]预处理,从而使得模型适用于那些没有已知关联信息的miRNA 和疾病,提升了预测性能。执行WKNKN 之后,值为0 的Yij将会被替换为一个0 到1 之间的小数。WKNKN 具体步骤如下:

Y(mi)={Yi1,Yi2,…,Yim}是矩阵Y 的第i 行向量,即为miRNAmi的相互作用谱,类似地,Y(dj)={Y1j,Y2j,…,Ynj}是矩阵Y 的第j 列向量,即为疾病dj的相互作用谱。

首先,我们利用每一个miRNAmq与其他K 个最近miRNA 的相似性及其对应的K 相互作用谱,得到如下相互作用谱:

其中,m1到mK是按照其与mq的相似性降序排列的miRNA。wi=αi-1*Sm(mi,mq)是权重参数,mi和mq的相似性分数越高,权重越大。α∈[0,1]是衰减项,Qm=∑1≤i≤KSm(mi,mq)是归一化参数。

然后,我们利用每一个疾病dp与其它K 个最近疾病的相似性及其对应的K 相互作用谱,得到如下相互作用谱:

其中,d1到dK是按照其与dp的相似性降序排列的疾病。wj=αj-1*Sd(dj,dp)是权重参数,dj和dp的相似性分数越高,权重越大。Qd=∑1≤j≤KSd(dj,dp)是归一化参数。

最后,我们将Ym和Yd的平均值替换值为0 的Yij,代表mi和dj关联的可能性,然后按照公式(12)更新原始矩阵Y。

其中,ai是权重系数,且a1=a2=1。

3 图正则化协同矩阵分解

3.1 标准协同矩阵分解

Shen 等人[19]使用协同矩阵分解(CMF)预测miRNA-疾病关联,并且取得了很好的效果,证明CMF 在预测与疾病相关的miRNA方面是一个有效的工具。CMF 目标函数如下:

其中,‖.‖F表示矩阵的F 范数,λl、λm以及λd是非负参数。

3.2 图正则化协同矩阵分解(GRCMF)

为了防止过拟合,提升预测性能,我们提出了图正则化协同矩阵分解(GRCMF),即在CMF 中引入图拉普拉斯正则化,图正则化主要是通过充分利用数据几何结构来保证基于局部的表示[20]。图正则化协同矩阵分解(GRCMF)目标函数如下:

其中,‖.‖F表示矩阵的F 范数,λl、λm、λd、λs以及λt是正则化参数,tr(.)表示矩阵的迹,Lm=Dm-SM、L1=Dd-SD 分别为miRNA 相似性矩阵和疾病相似性矩阵的图拉普拉斯矩阵[28]。Dm、Dd为对角矩阵,其项分别为miRNA 相似性矩阵SM 和疾病相似性矩阵SD 的行(或列)的和。

3.2.1 初始化A、B

对于输入miRNA-疾病关联矩阵Y,我们采用奇异值分解(SVD)对矩阵A、B 进行初始化,过程如下:

3.2.2 优化

本文采用最小二乘法迭代求解矩阵A、B。首先,令L 表示目标函数,然后令得到A、B 的迭代更新规则,即A、B 按照公式(17)迭代更新直至收敛。

最后,Y*=ABT为预测得到的miRNA-疾病关联矩阵,对矩阵Y*中的值进行排序,对于每一列,即疾病dj,进行降序排列,排名越靠前的miRNA 越有可能与该疾病有关联。

4 实验结果分析

4.1 性能评估

为了评估基于协同矩阵分解(GRCMF)预测miRNA-疾病关联的预测性能,验证GRCMF 的有效性,我们将GRCMF 与三个优秀的模型(ICFMDA[12],SACMDA[29]和IMCMDA[25])进行比较,评估标准采用研究者们普遍使用的机器学习方法:五折交叉验证和留一验证。

图2:GRCMD,ICFMDA,SACMDA 以及IMCMDA 的留一验证ROC 曲线及其AUC 值

图3:GRCMD,ICFMDA,SACMDA 以及IMCMDA 的五折交叉验证ROC曲线及其AUC 值

基于LOOCV 的结果,绘制了通过不同阈值的接收器操作特性(ROC)曲线,可以计算ROC 曲线下面积(AUC)以评估模型的性能。AUC 值介于0 和1 之间,AUC 值越高,该模型的预测性能越好。最终,GRCMF、ICFMDA、SACMDA 和IMCMDA 分别获得了0.9276,0.9072,0.8777 和0.8384 的AUC 值(见图2)。显然,GRCMF 在上述四种方法中获得了最优表现。

在五折交叉验证中,将所有已知的miRNA-疾病关联样本随机分为五部分。然后,将四个部分作为模型学习的训练样本,其余部分作为模型评价的测试样本。与留一验证类似,所有未经实验验证的miRNA-疾病关联性均作为候选样本。考虑到随机样本划分可能带来的偏差,我们对已知miRNA疾病相关性进行了100次重复划分,即进行了100 次五折交叉验证,并得到了对应的ROC 曲线和AUC值。最终结果中GRCMF 的预测效果最好,其平均AUC 值为0.9265,ICFMDA、SACMDA 和IMCMDA 的AUC 值分别为0.9046、0.8773和0.8330(见图3)。

5 总结与展望

研究表明miRNA 的异常表达在人类复杂疾病的发生、发展中起着至关重要的作用。对疾病相关的miRNA 进行深入研究和分析有助于找到新的生物标志物和治疗方法,从而提高患者的生存率。因此,有必要开发更有效的计算模型来识别潜在的miRNA-疾病关联。在本文中,我们提出了一个计算模型基于图正则化协同矩阵分解(GRCMF)来识别新的miRNA-疾病关联。GRCMF 利用了疾病语义相似性、miRNA 功能相似性以及已知的miRNA-疾病关联,并整合了高斯核相互作用谱相似性作为最终数据集来预测miRNA-疾病关联。并采用留一验证和五折交叉验证来评估GRCMF 的预测性能,进行了关于结肠癌、肝癌和乳腺癌的案例研究,最终结果表明,GRCMF 模型具有较好的预测性能,换句话说,GRCMF 在预测miRNA-疾病关联方面可以作为有效的工具,为人类复杂疾病的诊断和治疗提供新的方向。

然而,这种方法仍有局限性,需要进一步探究。首先,我们对GRCMF 的相似性度量可能并不完善,许多其他miRNA 信息还没有被考虑进去。此外,我们的方法在预测性能上仍有改进的空间。

猜你喜欢

正则相似性关联
一类上三角算子矩阵的相似性与酉相似性
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
浅析当代中西方绘画的相似性
“一带一路”递进,关联民生更紧
剩余有限Minimax可解群的4阶正则自同构
类似于VNL环的环
奇趣搭配
智趣
低渗透黏土中氯离子弥散作用离心模拟相似性
有限秩的可解群的正则自同构