APP下载

基于最小哈希的网络多路虚假数据清洗算法

2023-07-03李柯景

计算机仿真 2023年5期
关键词:查全率哈希权值

王 影,李柯景

(1. 长春工业大学人文信息学院,吉林 长春 130122;2. 长春大学计算机科学技术学院,吉林 长春 130022)

1 引言

计算机网络与人们的生活密切相关,但由于网络储存、计算与通信资源方面的约束,网络内的重要信息很容易被攻击者窃取[1]。网络安全极大程度上影响了用户的正常应用需求,网络安全不光牵涉通信内容的保密性、完备性与可用性,还要考虑是否会被攻击者注入数量众多的虚假数据。此类虚假数据会让网络做出错误的预警判断,耗损网络生命周期,无法保证自身正常运行。清洗虚假数据,维护网络合理运行是当前计算机领域亟需解决的重要问题[2]。

针对数据清洗问题,文献[3]针对风速-功率散点图中的离群异常点、0功率堆积点等异常点,分别组建基于密度聚类法、截断法、斜率控制法、核密度估计法的异常数据识别模型,完成数据定向清洗。文献[4]提出一种滑动标准差下的异常数据清洗方法。分析异常数据来源与分布特性,推导滑动标准差。将滑动标准差曲线上翘当作异常评估准则,达到数据定向清洗目的。

上述两种方案都能抵抗虚假数据的注入攻击,但无法降低网络资源损耗,不适用于节点众多的网络多路数据。为此,提出一种基于最小哈希的网络多路虚假数据清洗算法。首先将多路数据进行编码转换,确保数据完整性,使用最小哈希计算数据之间的相似度,明确虚假数据与真实数据的区别,最后使用遗传神经网络方法实现虚假数据清洗。

2 网络多路数据编码转换

在完成多路网络虚假数据清洗之前,首先要把网络多路数据进行编码转换,让网络数据格式更加统一,增强虚假数据清洗准确性。数据编码转换的核心要素是设计编码对照表,使用代码关联属性特质,构造映射统计表,实现多路数据全局整合。数据编码转换过程参考图1。

图1 数据编码转换过程

按照过往对不同类型数据标准与结构数据库实现对照转换迁移累积的经验,融合专家建议,在着重分析业务库数据准则与结构前提下,使用机器学习模式逐渐改善规则缺陷,构成可以支撑数据视图展示与数据表项择取的先验知识库[5]。

关于网络多源及异构数据库内不同数据的编码准则,为处理类别差异较大的数据字段与属性编码状态各异的问题,采用特征归纳相关性模型完成分类,即探寻和总结特征相关性特质,对比结果在特征上的相近程度。倘若类型集合C=(C1,C2,…,Cn),训练集D包含m个属性,把编码分类定义成编码类型下的后验概率问题,设置固定编码为d,将从属类型Ci的概率描述成

(1)

式中,P(ci)表示类型先验概率。

编码转换特征的挑选是对编码特征集合从上至下降维的流程[6],通常剔除部分特征组来完成降维目标。按照特征真实偏重情况,对应增添特征项权重,计算过程为

W(tik)=tf(tik)*idf(tk)*MI(w,tik)*Dk*

(2)

式中,W(tik)代表类Ci内第k个特征的权重值,Dk是类间偏差的均值,MI(w,tik)表示互信息,即第k个特征项与类型间的独立关系。

为增强特征网络多路数据的编码变换精度,使用多维特征匹配手段对低维数据编码特征空间实施匹配[7]。将两种数据通过特征挑选与降维后得到的自身低维特征矢量空间记作

(3)

为完善数据编码转换特征匹配正确性,把低关联度大于0.6的设定成标准匹配,低关联大于0.4且高关联大于0.6的设定成基础匹配,高关联小于0.4的为软性匹配,实现高精度特征编码转换目标。

3 基于最小哈希的网络多路数据相似度计算

最小哈希是衡量两个集合相关性最常用的方法之一,本文提出基于最小哈希的网络多路数据相似度计算方法,在相似度小于设定阈值状态下,认定该数据为虚假数据,完成虚假数据筛选。

(4)

(5)

(6)

最小哈希下网络多路数据相似度推算过程是

(7)

利用式(7)就能得到多路网络数据之间的相似度。数据间相似度等于设定阈值1则为真实数据,小于设定阈值1判定此数据为虚假数据,需要对其采取数据清洗,从而保证网络数据安全,获得高质量数据集。

4 基于遗传神经网络的多路虚假数据清洗算法

在明确划分真实数据与虚假数据前提下,设计一种基于遗传神经网络的多路虚假数据清洗算法。首先构建前馈型神经网络数据清洗模型,如图2所示。

图2 前馈型神经网络数据清洗模型示意图

该模型包含输入、隐含与输出三个层次,每个层次中均拥有数量众多的神经元节点。神经元之间由权值Wij互相连接。各神经元节点都拥有较多的输入和一个输出,将其数学解析式记作

Oj=f(netj)

(8)

netj=∑Wij·Xi-θj

(9)

其中,Oj表示某层内第j个节点的输出值,Wij是上层第i个节点和目前层第j个节点的连接权值,Xi代表上一层节点i对目前层节点j的输入,θj是目前层第j个节点的临界值,f(·)是神经元激励函数,通常使用Sigmoid函数,得到

(10)

设置一个训练样本p,在输入层输入样本,则网络模型样本训练偏差是

(11)

其中,dpj表示输出层第j个节点的预期输出,Opj是输出层中,第j个节点的真实输出,假如训练样本数据集内一共包含P′个样本,那么网络模型训练偏差总和为

(12)

如果网络模型拥有p个输入,q个输出,那么可以把输出结果看作从p维欧式空间至q维欧式空间的非线性映射,此类映射能够接近随机的连续函数。实施虚假数据清洗过程中,输出层内的值是一个待补充值,输入层是一个和缺失值有关的值,隐含层节点个数通常利用实验来明确。把神经网络的整体权值替换成矩阵W,就能呈现出神经网络模型对待处理问题的知识储备情况。经过不断地训练样本与修正权值,让网络模型输出结果逐步趋近预期值,在网络输出实现预期精准度后,再进行网络收敛。

遗传算法是一种在自然择取与遗传的全局优化条件下的计算方法,使用选择、交叉与变异三类基础遗传算子计算参变量,完成整体最优搜寻,是一种可靠的网络训练算法,同时也能获得更好的虚假数据清洗结果。

把神经网络每个节点的权值根据一定次序进行排列,构成一条染色体。染色体内的基因就是神经元权值。从种群内挑选一条染色体u,将染色体内的基因输入至图2的模型内。依次引入训练样本,推算网络偏差总值E,并获得染色体适应度fu

(13)

将遗传算法运算过程表示为图3。

图3 遗传算法运算过程

首先对参变量与种群进行初始化。输入神经网络的原始拓扑结构是m-n-k,m是输入层节点数值,n是隐含层节点数值,输入种群规模t=population,交叉概率为Pc,变异概率是Pm。

遗传算法调节权值的性能较差,为了防止权值太小导致算法收敛性能迟缓,运用匀称分布的任意数值来完成种群初始化目标,将种群P与染色体选择概率分别描述成

P={p1,p2,…,pt}

(14)

Si=α*(1-α)i-1

(15)

其中,α值通常为0.04,i=1,2,…,t。

把目前具备的染色体代入到图2的模型内,并引入训练样本,推算此染色体的偏差总值E、适应度fu,评估网络偏差能否实现预期的偏差或最高迭代次数,就可以实现终止迭代,反之继续迭代,并把每个染色体根据适应度从大到小进行排列。

针对染色体v来说,推导它的累积概率qv,将其描述成

(16)

反复执行上面的选择、交叉、变异行为,持续生成全新的子代染色体,直到新一代种群规模和父代相等,这样就实现了高精度虚假数据清洗全过程,为网络数据的安全操作与应用发挥关键作用。

5 仿真研究

分别从查全率、数据清洗效率两方面验证本文网络多路虚假数据清洗有效性,并与文献[3]、[4]进行仿真对比。把剔除的虚假数据和真实虚假数据个数的比率定义成查全率,查全率是权衡数据清洗方法优劣的关键指标,查全率越大,表明所检测的虚假数据记录越多,充分说明了数据清洗方法的真实性能。将查全率计算公式写成

(17)

式中,Nt表示剔除的虚假数据数量,N是真实虚假数据。

图4是本文方法与两个文献方法的查全率实验对比结果。从图4可知,三种方法在实验初期的查全率相差不多,但伴随数据量的持续增多,本文方法的查全率逐渐变大,并最终趋于稳定,维持在95%左右,文献[3]方法查全率约为82%,文献[4]查全率控制在75%上下。出现此种现象的原因在于,本文方法采用了最小哈希算法,可以有效计算出网络多路数据之间的相似度,对真实数据与虚假数据采取有效划分,极大提高虚假数据的查全率。

图4 三种方法查全率对比

图5是三种方法的虚假数据清洗效率对比。从图5看到,在数据量为500时,本文方法虚假数据清洗效率略低于两个文献方法,但在数据量不断增多情况下,三种方法数据清洗效率之间的差别越来越少,最终在数据量为1000时,本文方法数据清洗效率为最优,消耗时间最短,时间变化幅度基本趋于平稳,这也表明了所提方法尤为适用于网络多路数据清洗的应用环境,在庞大的多路数据量状态下,依旧能以最快的速度完成虚假数据清洗目标,实用性强。

图5 三种方法虚假数据清洗效率对比

6 结论

网络多路数据具有易被攻击的特性,为确保数据真实性与安全性,提出一种基于最小哈希的网络多路虚假数据清洗算法。通过数据编码转换、相似度计算两个步骤,了解虚假数据属性特征,构建前馈型神经网络数据清洗模型,引入遗传算法进行网络训练,完成高效准确的虚假数据清洗任务。但在计算时并未考虑算法的收敛性,极易导致算法迭代次数偏高,在接下来的研究中会对此点加以精进。

猜你喜欢

查全率哈希权值
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
基于OpenCV与均值哈希算法的人脸相似识别系统
基于维度分解的哈希多维快速流分类算法
基于同态哈希函数的云数据完整性验证算法
一种基于Bigram二级哈希的中文索引结构