基于关联挖掘算法的网络数据可追踪共享仿真

2023-07-03欧阳光彭海红罗冬林

计算机仿真 2023年5期

欧阳光,彭海红,罗冬林

(1.南昌交通学院,江西南昌 330000;2.东华理工大学理学院,江西南昌 330000)

1 引言

当下,网络几乎已经全面覆盖人们的生活、学习、生活、工作以及生产等领域,其中形成的资源信息的统称就是网络数据。网络数据具有规模庞大、种类繁多、格式丰富、数据分散等特性。信息时代的到来,跨越部门、平台和地区之间的信息交流、共享以及人机共享等,需以数据共享为依据[1]。数据共享在一定程度上代表着国家的信息化发展水平,通过共享程度可以分析信息化发展水平的高低。

网络数据共享是一种实现网络中数据服务的手段,其可以增加已有数据的利用率、减少数据收集整理时间,也在一定程度上减少人工处理数据的消耗[2]。在网络数据共享过程中,由于数据的提供者、数据的来源、数据的类型、数据的格式等存在的差异,极大程度增加数据共享的难度,甚至无法实现共享。除此之外,共享的安全性、完整性以及共享数据的质量高低,均是网络数据在共享过程中存在的主要问题[3]。

为完成对不同类型、格式数据的共享,文献[4]提出了基于区块链的数据共享方法,利用分布式存储方法将数据分散存储到网络的各节点,可以通过共享其它节点数据及时改正错误数据。虽然实现了数据共享的目的,但是其在对数据实行挖掘过程中产生的波动太大,对数据质量造成不同程度的损害。文献[5]提出了云环境中基于信任分散策略的数据共享方法。拆分原始数据分类成动态静态不同数据,添加全局标识在云端加密共享,虽满足了云端共享数据的安全性,但是忽略了数据之间的联系,影响共享后的数据使用率。

为了解决当前方法储存在的不足,本文研究了基于关联挖掘算法的网络数据可追踪共享仿真方法,对网络数据实行高效挖掘,有效避免异常波动现象,保证挖掘数据的质量,为数据共享提供保证。通过实验可证实本文研究在数据共享方面可行性较高。

2 关联挖掘算法下网络数据可追踪共享方法设计

关联挖掘也称为关联分析,作为一种分析技术,其主要作用是通过挖掘来分析数据之间隐藏的联系,获取其中具备关联性的规律,从而确定关联规则,再根据所需目标制定相应的策略。

2.1 关联挖掘算法的网络数据聚类优化

本研究采用关联挖掘算法实现对网络数据的优化聚类处理,为避免其在挖掘过程中对于模糊数据的识别性能较差等问题,结合蚁群算法获取网络数据中的异常特征。

假设X表示某网络数据样本集,f(x)和g(x)分别表示正常检测值和特征数值。为获取两者的取值以及两者间存在的关联,利用关联挖掘算法分析原理,按照时间序列排列网络数据[6]。

(1)

ϑ=l-1(f(x)|g(x)-ηβ)

(2)

(3)

为保证挖掘数据的稳定性,采用优化手段对高维空间实行优化,且该空间属于异常波动数值[8]。为得出波动聚类权重,对网络数据实行模糊特征评估和分类,其通过聚类特征簇融合算法完成。

(4)

式中:加权系数和异常波动规范数值分别用λ和ρ表示。

在此基础上,采用规范处理手段以及归一化分别对聚类数值和挖掘数据实行优化处理,前者具备相似性加权特征,后者具备特征相似度,可用于去除异常数据中的模糊特征[9]。

若z表示初始数据特征值,且为非线性,获取网络数据特征公式为

(5)

数值空间为uei、其特征向量为φ,两者均属于特征蚁群;网络数据分类的实现需以相应原则为依据。为此,本文采用非线性过程求解挖掘的准确性概率,公式为

(6)

挖掘过程中,加权距离的采集数值均可通过数据的概率描述,且前者属于特征数据相似度,后者属于划分成的第n个正常特征[10]。为去除非线性网络数据中的模糊特征,采用归一化对其实行处理完成。

通过上述过程,可实现网络数据的挖掘,形成异构网络数据集X″。

2.2 基于关联矩阵的网络数据可追踪共享

以2.1小节的挖掘结果为基础,提取数据中的关联关系,从而完成对网络数据间关联矩阵的构建。之后再以该矩阵为基础,为形成数据划分指示矩阵,需采用对称非负矩阵对其实行分解处理实现[11],并将形成的矩阵作为划分前矩阵三分解的输入,以此实现网络数据的最佳追踪共享。

假设X″1和R分别表示X″中小规模数据和异构关联矩阵,通过后者完成前者关联矩阵的构建,其为

(7)

式中:Wij表示关联强度;差异化实体的关联矩阵、同存几率分别为(x″i,x″j)和p(x″i,x″j),且均属于X″。x″i和x″j的存在几率分别用p(x″i)和p(x″j)表示,且仅为两者各自单独存在的情况下。

X″2中的实体(x″1,x″2)存在的次数用N(x″i,x″j)表示;对其实行分解处理,采用的对称非负性矩阵公式为

(8)

式中:矩阵F的范数用∂表示。

关联矩阵C的分解通过B描述,并将其表示聚类指示矩阵,矩阵的获取通过分解对称非负矩阵完成[12],其公式为

(9)

行聚类指示向量、数据关联法则和数据标准差分别用fi、h(u)和μ(h)表示,关联矩阵三分解的输入为划分矩阵,其公式为

(10)

X″2和X″1中的聚类矩阵分别采用F和B表示,则网络数据的最佳共享方案为

(11)

式中:用于共享的网络数据聚类和抽取出嵌入向量分别用(ι)和κ(E)表示。

以上,完成了基于关联挖掘算法对网络数据可追踪共享方法的设计。

3 仿真测试

为证明本文方法在网络数据共享中的应用性能和共享效果,通过仿真平台对本文提出的基于关联挖掘算法的网络数据可追踪共享仿真方法进行测试。

3.1 仿真测试设置

本测试采用Matlab仿真软件构建网络数据共享仿真平台。平台中的数据开发使用ASP.NET WEB服务完成。通过XHTML语言技术完成数据间差异化格式的转换,通过NET Frame work存储器实现数据存储以及ASP. NET和B,J Script NET数据运行库程序实现。实验过程中面对对象可视化集成编辑系统软件采用Visual C++6.0完成。

以某网站连续6个月内的用户数据为实验对象,以月为单位对该数据实行集合处理(6个数据集编号分别为1、2、3、4、5、6),其公式为

hn=[support(ν)congfidence(φ)]

(12)

式中:ν和φ分别表示挖掘的限制条件和兴趣程度。

3.2 挖掘数据质量测试

在数据挖掘过程中产生的波动会对挖掘后的数据质量造成影响,因此,数据的规范性P对于挖掘过程中产生的波动具备有效的避免作用,保证其最佳的规范取值,可提升本文方法数据挖掘性能以及保证所挖掘数据的质量。测试其在不同取值情况下,波动的变化情况,结果如图1所示。

图1 不同波动系数取值的波动测试结果

根据图1测试结果可知:波动数值的结果随着P取值的变化呈现不同的波动效果。其中波动由此可确定仿真过程中,本文方法的P取值应为60%,此时可保证在对目标数据集实行挖掘时产生的波动最小,最大程度保证挖掘后数据质量。

在数据共享前,关联规则的制定对于数据共享结果存在直接影响,关联规则的制定则依据支持度(Support)和可信度(Confidence)实行描述。因此,关联规则的形成需保证规则满足两者的最小标准。测试在不同Supporthe和Confidence时,6个测试集的数据集关联强度(超过96.5%为目标标准)的变化,确定两者的最小标准,结果如表1所示。由于篇幅有限,结果仅呈现数据集3的测试结果。

表1 关联强度变化结果

根据表1测试结果可知:为保证数据集关联强度达到目标标准,关联规则的最小支持度和可信度需分别达到0.3和0.5,此时可保证本文方法所挖掘数据之间关联强度较高,形成强关联规则,为数据共享提升基础保障。

3.3 数据挖掘中不同方法波动结果测试

采用本文方法对6个数据集实行挖掘,测试6个数据集在挖掘过程中发生的波动情况,为直观分析本文方法的数据挖掘效果,同时采用基于区块链的数据共享方法(文献[4]方法)和云环境中基于信任分散策略的数据共享方法(文献[5]方法)分别对该数据实行挖掘,获取两种对比方法的波动情况,并与本文方法实行对比,结果分别如图2、图3、图4所示。由于篇幅有限,结果仅呈现数据集3的测试结果。

图2 本文方法的波动结果

图3 文献[4]方法的波动结果

图4 文献[5]方法的波动结果

根据图2、图3和图4测试结果可知:本文方法在对该数据集实行挖掘过程中产生的波动范围在0.3-0.5之间,处于标准波动范围内;文献[4]方法和文献[5]方法在对数据集实行挖掘过程中产生的波动范围较大,均超过标准波动范围。并且在干扰程度逐渐提升的情况下,本文方法的波动变化极小,处于平稳状态,没有出现明显影响;两种对比方法则整体随着干扰程度的增加呈现波动范围增加现象。该结果表明,本文方法在对数据实行挖掘的性能较好,其主要是可对P实行调整,获取最稳定的数据挖掘效果。

为衡量本文方法的数据共享性能和效果,以数据关联强度、共享数据质量作为衡量标准,分别统计三种方法的测试结果,如表2所示。其中共享数据质量的数值越接近于1表示共享数据的质量越好。

表2 三种方法的对比结果

根据表2测试结果可知:本文方法在实行6个数据集的共享过程中的关联强度最佳,均在97%以上;文献[4]方法和文献[5]方法在实行6个数据集的共享过程中的关联强度结果均显著低于本文方法,均在91%以下;同时本文方法对于6个数据集的共享质量较高,均高于0.959,文献[4]方法和文献[5]方法的共享数据质量则就相对较差。该情况是受到数据挖掘时产生的波动影响导致,本文方法产生的波动较低,因此共享数据的质量很高,可实现数据的最佳共享结果。该结果表明,本文方法的数据共享可利用率高,共享效果良好,可最大程度保证数据共享需求。

4 结论

网络数据共享是顺应当下大数据以及云计算技术迅速发展的一种数据应用的主要手段,但是由于网络中的数据存在复杂以及多样化等特性,对实现数据共享造成一定难度。本文针对网络数据共享的高效、稳定的实现,提出基于关联挖掘算法的网络数据可追踪共享仿真,并通过构建仿真平台展开相关的测试,验证了本文方法的性能和效果。验证结果显示:本文方法具备一定可控性,可保证数据在挖掘过程中的波动较小,有效保证了挖掘数据的质量以及较高的关联强度,保证网络数据的最佳共享。