APP下载

一种基于知识图谱技术的多源异构数据融合、共享方法

2022-12-01潘建宏王磊樊家树张俊茹董爱迪

电子设计工程 2022年23期
关键词:数据源异构图谱

潘建宏,王磊,樊家树,张俊茹,董爱迪

(1.国网吉林省电力有限公司,吉林 长春 130010;2.国网辽源供电公司,吉林 辽源 136200;3.国网吉林省电力有限公司信息通信公司,吉林 长春 130010;4.国网白城供电公司,吉林 白城 137000)

数据结构逐渐变得多样化,其数量和规模迅速增加,逐渐构成了多源异构数据,对多源异构数据进行融合、共享,即合理安排多源异构数据的融合、共享顺序,能够保证相应系统的可靠、稳定运行,对此,相关学者们进行了研究。文献[1]提出一种群智感知网络中基于隐私保护的数据融合方法,用于抵抗来自云服务器和恶意用户的差分攻击,但是没有确定共享顺序。文献[2]基于张量表示,提出一种新的域适配迁移学习中的特征表示方法,以缩小域间分布差异和保留样本间流行一致性,但在该方法中,多源异构数据融合、共享后,能耗较高,处理时间较长。

为了解决上述问题,文中提出了一种基于知识图谱技术的多源异构数据融合、共享方法。

1 多源异构数据融合

在Internet 上的各种Web 页面中,由于多源异构数据源、数据调度系统、数据采集与管理中心的复杂性、多样性等因素,在数据融合过程中,积累了大量的数据源参数。这些数据源参数的存储方式、模型参数和编码规则不同,部分数据来自复杂的异构数据库。数据源参数的多源性和异构性推动了多源异构数据的融合过程[3-6]。

文中通过纵向数据融合和横向数据融合来实现多源异构数据的融合,这两种融合方法可以有效缩短融合时间。异构数据融合过程如图1 所示。

图1 多源异构数据融合过程

纵向数据融合主要用来降低互联网中多源异构数据源、数据调度中心的数据差异性,多源异构数据源和数据调度中心可通过纵向数据融合实现多源异构数据的纵向统一。在进行纵向数据融合时,采集多源异构数据参数,采集的途径为Web Service接口,通过该接口可采集各个来源的多源异构数据参数[7-8]。

以多源异构数据调度中心为例,通过采用知识图谱技术获得互联网中不同网页的多源异构调度文件,并将其进行归类和存储,此时,采集多源异构数据参数的过程就是对多源异构数据中多源数据的融合过程[9-10]。

多源异构数据参数采集完毕后,对不同种类的多源异构数据参数进行匹配,并分析多源异构数据参数间存在差异的原因。在匹配过程中,需要参照多源异构数据源中的参数状态进行匹配,以此实现不同多源异构数据源与数据参数的融合。与此同时,在匹配过程中,设定纵向数据融合差异度对来源不同的异构数据差异性进行分析。设定Dv,i为第i个多源异构数据参数的融合度:

其中,Xt,i、Xb,i分别为第i个多源异构数据参数的最小值和最大值;为多源异构数据参数的均值。

在互联网中,异构数据的复杂性较高,在不同的异构数据调度中心,异构数据参数具有不同的融合形式,在进行纵向数据融合时,需要根据融合规则设定参数阈值,以降低异构数据融合形式对数据融合结果的影响[11-12]。

横向数据融合可以突破纵向数据融合的局限性,实现多源异构数据源与数据调度中心的多源数据参数融合,即可以实现同一来源的异构数据的融合,这与纵向数据融合有本质的区别。横向数据融合的多源异构数据参数采集步骤与纵向数据参数采集步骤略有不同,在采集多源异构数据参数时,采集的接口为SNMP 接口,这是因为横向数据融合方式具有较高的差异性,Web Service 接口无法满足横向数据的采集需求,不能消除多源异构数据源与数据调度中心的差异性。采集多源异构数据参数后,对横向数据参数进行匹配,并分析横向数据参数间存在的差异[13-14]。

2 基于知识图谱技术的多源异构数据共享

基于知识图谱技术的多源异构数据共享即将多源异构数据分配至对应的处理器中,与处理器中的数据共享优先权值,多源异构数据共享原理可用下式描述:

引入知识图谱技术,对多源异构数据进行共享,知识图谱拓扑结构如图2 所示。

图2 知识图谱拓扑结构

事实上,数据库中多源异构数据的不同节点位置对应不同的知识图谱内容,不同的多源异构数据在Web 页面中的分布不同。收集到一定数量的网页知识图谱后,建立异构数据源差异中心,赋予其不同的多源数据结构和多源异构规则,采用相应的数据处理手段处理差异最大的异构数据节点,并显示网页中的数据结构信息。

将异构数据的中间节点加载到网络异构数据库中,通过搜索多源异构数据源的特征和属性集关系,得到异构数据的语义,利用数据源的特征数据和结构信息建立多源异构数据共享模型,模型的表达式为:

当多源异构数据节点的平均值为1 时,说明此数据节点上受到数据融合的干扰较为强烈,如果不能判断干扰的来源,则需进行异构数据差异处理,对多源异构数据进行数据核查。

基于建立的多源异构数据共享模型,实现对多源异构数据的共享,在共享过程中,数据共享的优先权值可作为共享的依据。当共享顺序固定时,设定共享的优先权值为有名值和平均值的总和;确定异构数据的开销权值,开销权值越大,证明多源异构数据的异构差异性越强,共享的效率越高,开销权值越小,则多源异构数据的异构差异性越低。在确定共享顺序的条件下,可采用提升多源异构数据源优先级的方式提升多源异构数据的共享效率,实现多源异构数据的共享。

3 实验研究

为了验证提出的基于知识图谱技术的多源异构数据融合、共享方法的实际工作效果,将其与文献[1]方法进行对比实验。在进行对比实验前,需要搭建实验平台,实验平台的构成包括两台PC 机,一台PC机包括多源异构数据源,一台PC 机为数据调度中心,两台PC 机的工作主频分别为1.8 GHz、3.5 GHz,可存储4 GB 的多源异构数据,多源异构数据节点的数量设定为50 个。

首先,测试不同方法在进行数据融合以及共享过程中的处理时间。实验中,给出了某一多源异构数据融合与共享实例如下:设多源异构数据融合、共享过程中有三种多源异构数据节点参与,其中数据节点1 的融合、共享周期为4,数据节点2 的融合轨迹符合泊松分布,其融合率为0.4,相当于每三个融合、共享时间戳将达到一个多源异构数据源节点,全部多源异构数据节点发生融合和共享的时间均设定为2 ms,等待时间均设为1 ms。

其次,通过对数据融合、共享实例的分析可知,由于异构数据优先权值较高,数据节点1 首先进行融合、共享处理,其融合时间为3 ms,到达时间为4 ms,在时间点8 左右到达,共享时间为4 ms,所在的时间点位置为8;数据节点2 的异构数据优先权值在数据融合、共享过程中没有发生变化,因此按照融合、共享顺序进行处理,其融合时间为5 ms,所在的时间点位置为10,在时间点6 时到达,由于时间点位置靠后,因此融合时间为4 ms,共享时间为6 ms;数据节点3 的异构数据优先权值最小,最后一个被处理,其融合时间为3 ms,共享时间为4 ms,到达时间为2 ms。数据节点4 为共享节点,共享时间为4 ms,无等待时间。综上,三种数据节点的融合时间为11 ms,共享时间为14 ms。

最后,采用文中方法和基于无线传感器网络扩展的多源异构数据融合、共享方法进行数据融合和共享,统计两种方法的综合融合时间和共享时间,实验结果如图3 所示。

图3 共享时间实验结果

观察图3 可知,共有四个共享节点,文中方法的数据融合时间和共享时间在整体上少于文献[1]方法消耗的时间,方法的鲁棒性更好。

为了保证实验不存在偶然性,对两种方法的平均处理时间进行对比,处理时间为数据融合时间与共享时间的总和,平均处理时间的计算公式如下:

式中,μ=,Tservice表示数据融合时间和共享时间的平均值,ρ=表示异构数据处理率。随着多源异构数据量的不断增加,两种方法的处理时间均有所上升,但文中方法的平均处理时间最短,文献[1]方法的平均处理时间较长,则证明文中方法的数据融合、共享效率较高。

在多源异构数据融合、共享过程中,会产生一定的能耗,能耗低则证明方法对数据融合与共享较为有效,两种方法在进行数据融合、共享前后产生的能耗对比结果如图4 所示。

图4 能量消耗实验结果

由图4 能耗结果可知,与文献[1]方法相比,采用文中方法进行数据融合、共享的处理时间更短,能耗更低。

4 结束语

为了解决多源异构数据融合、共享方法出现的处理时间长、能耗高等问题,文中提出了一种基于知识图谱技术的多源异构数据融合、共享方法,该方法给出了多源异构数据的融合、共享方式,通过采用知识图谱技术获得互联网中不同网页的多源异构调度文件,搜索多源异构数据源的特征和属性集关系,通过数据融合、共享方式建立了数据共享模型,降低了数据融合过程中的能量消耗,处理时间短。

猜你喜欢

数据源异构图谱
ETC拓展应用场景下的多源异构交易系统
基于图对比注意力网络的知识图谱补全
试论同课异构之“同”与“异”
绘一张成长图谱
多源异构数据整合系统在医疗大数据中的研究
利用属性集相关性与源误差的多真值发现方法研究
吴健:多元异构的数字敦煌
图表
Web 大数据系统数据源选择*
主动对接你思维的知识图谱