试论大数据库的相似记录检测方法

2019-03-30王艳喜

中国新通信 2019年21期

王艳喜

【摘要】在现阶段的大数据库相似记录检测中，存在着误差相对较大的问题。基于此，本文对二次模糊评判进行了改进，并提出了一种优化后的大数据库相似记录检测方法。经过与基于决定属性值聚类算法的大数据库相似记录检测方法的实验对比，证实了该检测方法的优越性。

【关键词】大数据库相似记录检测方法二次模糊评判

引言：

现阶段，大数据库被广泛应用于各个行业领域汇中，在决策型形成、总结与分析等方面发发挥着重要作用。但是，在大数据库的实际使用中，常存在相似或重复记录，造成数据冗余，导致了数据存储空间的浪费。基于这样的情况，开发一种大数据库相似记录检测方法极为重要。

一、大数据库相似记录检测方法的原理分析

在进行大数据库相似记录检测时，需要完成部分记录对的采集，并提取记录字段相似的特征函数，形成训练样本集，最终构建起该大数据库的相似记录检测模型。在该模型的支持下，能够完成数据库中记录相似度的计算，并确定一个阈值。通过比较记录相似度数值与阈值，实现了该大数据库相似记录的检测[1]。

但是，在该方法中，难以消除大数据库中的非常重要数，导致相似记录检测的实际效率降低。基于这样的情况，笔者对二次模糊评判进行改进，提出了一种优化后的大数据库相似记录检测方法。

二、大数据库相似记录检测方法的优化探究

2.1数据属性的二次模糊评判

在大数据库中，不同的记录均对应着一个重要程度存在差异的实体属性。这就需要利用用户对记录中不同属性展开模糊的综合评价，对部分非重要属性记性消除，确定重要属性向量集，并搭建起属性评价因素表。同时，结合用户的自身经验，完成该属性评价因素表的二次评价，形成用户属性因素评价表，完成大数据库中不同记录重要属性权值的确定[2]。

此时，利用公式能够完成属性因素最终重要等级值的确定，其中，N为用户数量、k为大数据库中数据集的属性数量、G为属性等级集合。此时，主要从属性类型、语义、宽度、排列位置完成数据库中数据属性的评价，利用公式能够完成比重向量的计算，其中，p为所有属性中重要属性的占比、F`为依照Ti形成的重要属性向量集。需要多个用户完成保留重要属性的二次评价，利用公式能够完成用户对重要属性中某因素的评判结果计算，其中，（1～m）为各个属性等级;1为评价重要性最低;m为评价重要性最高、pij为某用户（j）对重要属性的第i个评价因素的评价等级。

利用表达式能够完成某属性的用户评价等级的计算，其中，f为属性因素类型、p为用户对属性x的评价等级。使用公式能够完数据属性评价结果的均衡，其中，Pj为客观属性取值种类数的向量。

完成上述计算后，需要将该数据库中的所有数据集内部的各个属性重要性等级展开统一的转换，完成权值确定。

此时，使用公式能够权值的计算。使用公式可以实现记录属性权值的重新赋值。使用公式能够实现对数据库中所有数据记录属性的分组。其中，ξ为最终生成属性取值种类数的向量、θ`为所有数据的主观等级向量。

总体来说，在大数据库相似记录优化检测的过程中，需要先完成数据库中所有数据属性的一次评判，对数据库中的非重要数据属性展开消除，并落实其余数据的二次模糊评判，获取数据属性的评判结果。同时，以此为基础，完成所有数据属性的分组，为相似检测提供支持。

2.2特征向量指导下的数据库相似记录检测

对于大数据库中的相似记录来说，其差异主要是由字符串造成的。所以，在进行大数据库相似记录检测的过程中，需要重点完成记录字段的相似度计算。在这一过程中，可以将完成分组后的数据记录属性作为基础，结合随意两个记录之间的共有字符顺序、数量，完成两个记录之间的字符相似度计算，实现对相似度特征向量的提取。

在这一过程中，可以使用公式完成记录之间字符相似度的计算;完成权值V（w，s`）的确定后，可以使用完成字符间匹配窗口的计算，其中，当字符相似度小于等于该数值，则能够说明两记录字符相似。利用公式以及，能够实现全部记录字段相似度特征向量的确定。以此为基础，能够构建起大数据库中相似记录的检测模型，并完成相似记录分析。

2.3仿真结果分析

为了保证本研究的科学性以及该模型的合理性，笔者进一步展开了仿真分析。在这一过程中，主要使用了基于决定属性值聚类算法的大数据库相似记录检测方法与该方法进行实验对比。主要依照结果的查全率、查准率、运行时间完成判定。实验结果显示，本文提出的相似记录检测方法查全率、查準率明显高于对比方法，运行时间约为对比方法的二分之一。由此能够证实，该方法整体有效，具备较高的使用价值与科学性。

三、总结

综上所述，本文对二次模糊评判进行改进，提出了一种优化后的大数据库相似记录检测方法。经过仿真对比实验显示，优化后的检测方法在查全率、查准率方面明显优于传统方法，且运行时间更短，具备实用性与科学性。

参考文献

[1]李莉，张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用， 2019， 28（03）：172-178.

[2]涂静文.大数据库的相似记录检测方法研究[J].计算机仿真， 2017，34（03）：410-413.

中国新通信

2019年21期

试论大数据库的相似记录检测方法

杂志排行

中国新通信的其它文章