APP下载

多层特征动态加权图卷积网络

2020-12-11杨志豪蒋卫丽杜国栋邵党国杨嘉林

小型微型计算机系统 2020年11期
关键词:算子卷积矩阵

杨志豪,蒋卫丽,杜国栋,相 艳,马 磊,邵党国,杨嘉林

1(昆明理工大学 信息工程与自动化学院,昆明 650504) 2(厦门大学 人工智能系,福建 厦门 361005)

1 引 言

近年来随着互联网的发展,图像、文本等数据呈现指数形式增长,这些数据都属于欧几里得数据.现阶段,处理该类数据一般用机器学习[1,2]、深度学习算法,但是这些算法不具备推理学习的能力,因此图神经网络学习成为研究的热潮.

图神经网络(Graph Neural Network,GNN)最早由PeterW等人[3]提出,通过将非欧几里得数据转化为图形式,不断的聚合和更新节点的状态,让整体的图结构达到一个收敛的状态.Bruna等人[4]根据图像、文本等欧几里得数据中卷积思想的启发,在此基础上提出了图卷积神经网络(Graph Convolutional network,GCN)更有效的来解决图结构数据的问题,这类网络有一个共同的特点,都是基于消息传递的图神经网络[5].目前关于图的任务主要有两大类,一类是关注于图整体,如:有机化合物的分类、判断化学分子式是否有致癌性、社交网络分类等.另一种是关注于节点,如链接预测中推荐系统对用户不同喜好的判断,节点分类任务中引文网络中的文章分类等.传统的图神经网络存在过度平滑、训练不稳定的问题,因此Xu等人[6]提出的图同构网络(Graph Isomorphism Network ,GIN),该网络提出一个满足图特征单射的公式,即不同结构的图得到不同的图嵌入,设计出一个机构简单,表征能力强的网络.同时,William L等人[7]提出GraphSAGE网络,模型通过使用了多层次的聚合来取得邻居节点的信息,因此可以聚合周围更多距离更远的节点信息.GraphSAGE设计了多种聚合函数,包括MeanAggregate平均聚合函数(直接取邻居的节点的均值),图卷积聚合函数GCN Aggregator(和传统GCN的基本一致),LSTM Aggregator 长短时记忆网路聚合函数(通过LSTM来编码邻居的信息),Pooling Aggregate池化聚合函数(把图中所有的节点经过一个全连接网络,经过池化,得到特征信息).在模型应用上,Marino等人[8]用图神经网络做图像分类的任务,Lee等人[9]将用图神经网络做零样本学习,Henaff等人[10]用图神经网络做文本分类任务,Cheng等人[11]用图神经网络做动态链路预测并且取得的效果都优于传统的神经网络.上述的图卷积的研究,虽然取得不错的进展,但工作的重心在如何构造卷积算子,没有关注如何利用每一层卷积所提取的特征信息,并且没有考虑节点重要程度的问题.

为了解决上述的问题,本文基于GIN网络构建多层特征动态加权模型.首先,本文保存训练中每一次迭代卷积所提取的特征值,并计算权重.然后,输出预测结果时,使用这些所有的特征和权重来预测输出.其次,采用度矩阵加权的方式来增加重要节点在整个图中的权重,使得图网络在学习的过程中,关注这些重要节点的特征信息.

2 相关工作

2.1 GCN图卷积网络

由于传统的一些神经网络如CNN在非欧几里得的数据结构上不具有平移不变性[12](无法采用同样大小的卷积核来进行卷积),不能够处理非欧几里得的数据(Non Euclidean Structure)的数据,但是这样类型数据又广泛的存在于现实世界中,为了处理这样的数据,GCN图卷积网络应运而生,使得在不规则的图结构上卷积变成了可能.这里介绍的是由kipf等人[13]改进的GCN网络.首先,GCN网络根据图的相关信息(包括节点信息和结构信息),求出拉普拉斯矩阵.之后对图进行卷积操作,提取原始信息中有用的部分.最后,加上一个全连接神经网络进行图的分类判断,过程步骤如下:

1)首先,根据图数据求出拉普拉斯矩阵(拉普拉斯矩阵具有一个良好的半正定性质,可以做特征的分解.),并进行归一化操作,如公式(1)与公式(2)所示.

L=D-A

(1)

(2)

其中,L为拉普拉斯矩阵(Laplacian matrix),Lsys为归一化的拉普拉斯矩阵,D为度矩阵(Degree matrix),该矩阵为对角矩阵,只有主对角线元素有值,对角线上每个元素分别代表每个节点邻居节点的数目.A为邻接矩阵(Adjacency matrix),该矩阵为一个对称矩阵(本文讨论的图数据为无向图),用于表示节点之间的相邻关系,只有图中的两个节点存在边时有值,且值为1.IN为N维的单位对角矩阵.

2)根据拉普拉斯矩阵就可以得到拉普拉斯算子,并且对图结构数据进行卷积操作,公式如(3)所示.

(3)

3)输出层函数:和普通的神经网络一样,在获取到了高维度的节点表征信息之后,需要接一个全连接层,以便对这些特征输出成不同的任务类别.本文中讨论的是图分类任务,所以输出的维度为图的类别数目.

2.2 GIN网络

图同构网络(GIN)网络是一种更为强大的图卷积神经网络,GIN在GCN网络上进行了改进.为了衡量图网络学习能力的强弱,提出了以WL test作为一个评价指标,WLtest 是由Weisfeiler等人[15]提出的一种经典图算法,它解决了如何判断图同构的问题(两张图结构不同,但是具有相同的邻接矩阵).图同构问题对于图神经网络来说,这是一个很难很棘手的问题,如果一个图网络可以完成鉴别两个图是否为同构,那么就认为这个图神经网络学习具有强大的学习能力.GIN网络的改进主要有以下几点.

1)提出了一种新架构的聚合函数,如公式(4)所示.

(4)

图神经网络的能力的好坏,往往取决于是否有一个好的嵌入(embeding),如果一个图神经网络可以把不同的原始特征信息有效的映射到不同的高维空间中,这个网络则具有强大的特征表示能力.上式从原始的特征到高维的特征映射是单射的关系,满足这样关系的GIN网络具有强大的特征表示能力,能够学习到更多更有效的信息.

2)采用加和方式的readout函数.readout函数可以将属于同一个图的节点信息聚合为一个图向量[16],之前的GCN一般采用最大最小值和均值readout,但在聚合节点的信息的时候,往往忽略一些信息.比如当采用最大值readout函数的时候,网络只考虑到了特征表示最大节点的信息,而没有全局的考虑整个图的信息.如果采用的是求和的readout函数,网络就可以考虑到所有节点的特征信息,学习一个全局的特征.

3 多层动态加权图卷积模型

多层动态加权图卷积模型主要由两个部分构成:度矩阵加权卷积算子,加权后的多层特征融合,具体细节见下文所述.

3.1 度矩阵加权的卷积

图结构可用于表示现实世界中的一些非欧几里得的数据,通过观察这些数据所表示的图结构可以发现,在图中不同的节点往往重要程度不同,一些处于中心节点位置的节点对图的结构起到了关键的作用,如果图神经网络能更好的聚合到这些重要节点的信息,就能对图的结构有一个更全面的学习,从而提升网络的性能.

图1 节点根据权重的聚合Fig.1 Node aggregation based on weight

(5)

本文的卷积操作如公式(6)所示.

(6)

其中,σ为激活函数,MLP为全连接网络,l代表卷积层的层数,h(l)为第l层的所有节点的状态特征值.

由于多层的MLP全连接网络可以无限的逼近任意的函数[17],所以本文选择MLP全连接网络作为映射函数.

3.2 加权的多层特征融合

在之前的研究中,GCN网络没有充分考虑卷积每一层所聚合的信息,直接简单的把每一层的特征进行相加进行特征的融合.本文提出了一种带权值的特征融合方法(使用每一层的节点特征进行输出),能够更好的获析每一层卷积层所提取出来的信息.

公式(6)中h(l)为图中所有节点的信息,为了讲述动态加权的原理,从每个节点的角度来看,本文卷积操作可以用公式(7)表示.

(7)

h=(h(l)|l∈1,2,…,K)

(8)

其中K代表网络的卷积层数.那么所有卷积层总特征表示为公式(9)所示.

(9)

为了给每一层特征根据其重要程度的不同,进行动态的权值赋值.本文通过计算每一层的单个节点特征表示和总特征表示可以得到一组余弦相似度系数ε(l).相似度系数ε(l)越高,意味着相似度越高,该层的层节点特征就越有效果,赋予更大的权重,权重计算如公式(10)所示.

(10)

根据节点特征权重,计算节点每一层特征的权重,即为把得到的权重分别和每一层特征的输出相加权,得到最终的节点特征表示,具体如公式(11)所示.

(11)

为了运用到图分类任务上,需要把节点特征向量表示转换为图特征向量表示.采用加和的形式的readout函数将图中的每个点特征表示为整个图的特征信息,如公式(12)所示.

(12)

其中,H(l)为第l层图特征表示,k代表图中节点的总数.

图2 本文算法模型Fig.2 Algorithm model of this paper

将图向量特征分别送入每一层的预测层中预测,最后将每一层的预测结果相加,得到最终的预测结果.整个模型分框架如图2所示.

4 实验及结果

4.1 实验数据集和评价指标

为了验证本文所提模型的性能,本文将所提的方法在四个数据集[18](IMDB-BINARY,MUTAG,PROTEINS,PTC)上进行比较,其中,IMDB-BINARY这是一个电影数据集,共1000张图.其中每个节点表示演员,边代表着连接的两个节点也就是演员出现在同一部电影中,每一个图都有一个标注的属性(电影的类别,总共有两个类别),分类任务就是根据不同的节点和结构来判断图的种类;MUTAG是化学数据集,共188张图.它由芳胺和硝基杂芳环两类组成的,节点有7个离散的标签,来区别不同的元素,边代表着两个节点之间是否有化学键,分类任务为判别该化合物对细菌是否有诱变作用;PROTEINS为生物数据集,共1113张图.其中节点代表着有机物的结构,它有三种特征分别为helix(螺旋)、Turn(转角)、sheet(折叠).边代表着节点间是否为氨基酸顺序.分类任务为判断蛋白质的二级结构预测;PTC数据集是一个化合物数据集,共344张图.节点代表不同的化学分子式(19种),边代表了他们之间是否有连接.任务为判断该化合物对鼠类是否具有致癌性质.数据集简要描述如表1所示.

本文采用Accuracy精确度作为评价指标,设A、B、C、D分别为正阳性、假阴性、假阳性和正阴性,那么准确度为:

(13)

表1 数据集介绍Table 1 Data set introduction

4.2 实验模型搭建和参数设置

本文实验操作的环境为Ubuntu 18.04.3LTS 操作系统、Intel Corei5-8250U CPU、8G RAM、Python3.7.3、Pytorch1.2.0.参数的设置如表2所示.

表2 参数设置Table 2 Parameter settings

为了选取合适的卷积层数,本文对近几年的文献[2,4,19,20,21]进行研究,暂且没有合适的选取标准,因此,本文利用卷积层数不同来进行对照实验,给出相对合理的选取依据.本文在ROTEINS数据集上,使用GCN,GIN,以及本文模型进行了卷积层数不同准确了变化的曲线图,具体结果如图3所示.

图3 卷积层数对精度的影响Fig.3 Effect of the number of convolution layers on accuracy

通过对比实验,可以发现随着网络层数的加深,各个模型在精确度下均出现了下降,因为过深的网络会导致节点特征的平滑.因此考虑精度的同时也考虑了模型的复杂程度,最终本文选择了5层的卷积层作为本文模型的卷积层数.

4.3 实验结果及分析

为了验证本文模型的有效性,本文选用了7个模型,分别是GIN网络,GCN网络,GraphSAGE网络,D-GCN网络,A-GCN网络,WL以及本文模型.在4个数据集上进行了对比实验,结果如表3所示.其中D-GCN为只使用改进后的卷积算子模型,A-GCN为只使用动态特征加权的模型.加入D-GCN和A-GCN的目的是为了分别验证改进的卷积算子和动态特征加权对于网络效果的提升.

表3 模型精度对比Table 3 Model accuracy comparison

通过对比可以发现,本文模型的精度在4个数据集上均有较好的效果,其中在IMDB-BINARY,PROTEINS,PTC数据集上均高于对比模型,说明了本文模型的有效性,在MUTAG数据集上和GIN模型基本一致,高于其他的图卷积模型,和非图卷积WL算法基本保持一致水平,原因是MUTAG的数据集相比于其他三个数据集较小,且节点标签较多,不利于本文模型学习图数据结构的信息.从表中可以看出A-GCN网络在IMDB-BINARY和PROTEINS上已经有提升,证明了动态加权对于图网络学习是有效的.同时D-GCN在MUTAG上不如本文模型和A-GCN,原因是这个数据集的平均节点数较少,当遇到节点数目较少的图数据,只通过度矩阵来给卷积算子加权就会导致权重过小的问题,但在IMDB-BINARY和PROTEINS上D-GCN也取得了一定提升,说明了改进的卷积算子是有效的.另外,通过和非图神经网络的WL算法对比可以发现,在节点数目少或比较简单的任务如MUTAG数据集上效果不错,但随着平均节点数目以及数据集的加大,比如在PTC数据集上,表现就明显不如图卷积网络,也证明图卷积网络有解决更复杂问题的能力.

5 结 论

在图的任务中,图卷积的卷积算子是一个关键点,这关系着整个网络是否能学习到更多更有效的信息,这也是之前的GCN网络及其变种关注的重点.但仅有一个好的卷积算子也是不够的.首先,本文关注与怎么利用提取出的节点特征进行特征的融合,通过计算每一层节点特征与总特征的相似度来确定该层的系数,进行特征的融合,更好地利用节点的信息.同时本文使用了一种加权的拉普拉斯算子,旨在于区分重要的节点和不重要节点,重要的节点会获得更大的权重,使得网络框架在学习时更多的考虑重要节点的信息.通过实验也证明了本文使用的方法确实是一种有效的方法.

在下一步的工作中,本文将寻找一种更为合理的相似度的算法,取得更好地效果.同时在后续的研究中也考虑将图神经网络应用于图像和文本任务中,发挥图神经网络具有推导能力的优势,弥补传统神经网络的不足.

猜你喜欢

算子卷积矩阵
基于全卷积神经网络的猪背膘厚快速准确测定
有界线性算子及其函数的(R)性质
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
Domestication or Foreignization:A Cultural Choice
多项式理论在矩阵求逆中的应用
QK空间上的叠加算子
矩阵
矩阵