APP下载

基于向量编码和多级反向传播的异构大数据处理方法研究

2020-05-21

关键词:降维异构数据挖掘

杭州万向职业技术学院,浙江 杭州 310023

大数据是目前应用广泛的信息储存和传播介质,其核心就是能够对大量的数据进行专业化处理。大数据的应用遍布社会经济领域的方方面面,尤其在企业的数字化运营中,更是离不开大数据的支撑。大数据有着异构化、多元化的特征,主要以分布式进行传播。最近几年,关于异构大数据的处理,受到了业界和学界的广泛关注,并取得了较多的研究成果。丁有伟等提出一种异构集群中能量高效的大数据处理算法,认为传统大数据处理的集群规模大,耗费的时间长,需要进行一定的改进,可以通过节点选择与负载均衡方式,减少每一个节点的能量浪费,从而提高大数据处理效率[1]。汪少敏等探讨如何提升电信企业的大数据价值密度,认为同一个对象处在不同系统时,许多数据难以被有效识别,数据的利用也不完整,可以通过异构关联的方法,站在用户维度实现多系统的数据融合,强化大数据的处理效果[2]。涂俊英针对云计算环境,提出一种多源异构大数据跨源调度算法,目的是降低计算消耗,在调度之前实施预取操作,并以此为基础更新处理全部变量,重新排列等待调度的多源异构大数据权重,形成数据传输的最佳质量选择[3]。贺晓勇提出了一种多源异构大数据跨源调度方法,认为传统方法分析多源异构数据的差异性存在较多不足,包括大数据调度效率不高、数据计算的消耗大等,而采用多源异构大数据跨源调度方法,通过纵向与横向的数据融合,实现大数据调度的一致性,并以此为基础实现优先级计算与分配,缩短计算等待的时间,增强大数据调度的整体性能[4]。结合前人的研究成果,本文提出一种基于向量编码和多级反向传播的异构大数据处理方法,主要将一维向量空间转化为多维向量空间,并通过多级反向传播获取精确数据,旨在为大数据处理拓展更多的途径。

1 基于向量编码和多级反向传播的大数据模型构建

大数据与传统数据对比,有些特征较为突出,如数据结构体现出很大的差异性,数据类型呈现出异构状态,数据挖掘的过程较为复杂,且数据调度非常困难。鉴于大数据自身的这些特性,本文对数据向量进行重新编码,以获取大数据更多的异构特征,然后使用多级反向传播的方式,对异构形态的大数据进行统一,从而使大数据得到更好的调度。基于向量编码和多级反向传播的大数据模型构建步骤如下:

(1)对于需要挖掘的数据对象,将其一维向量空间转化为多维向量空间,以适合重新编码,得出能够反映大数据异构特性的多维向量模型。

(2)以大数据的各维度和规模为基础,进一步获取大数据在该空间内的异构特征。

(3)采用多级反向传播,使大数据的精确集几何空间和多维向量空间得到融合。

(4)通过多维向量空间内的大数据异构特征获取,构建基于向量编码和多级反向传播的大数据模型。

假设数据组的一个有限域空间Gm具有m个维度,以下是数据组的任何一个维度空间:

对各数据的多维向量空间进行如下定义:

在有限域空间中,设B为大数据的异构特性向量,通过多级反向传播,使B和多维向量形成以下的映射关系:

在上式中,b为B元素,j为向量维度,c代表以B作为驱动,面向A实施编码之后的向量。

基于向量编码和多级反向传播的大数据模型如下:

2 大数据项目的应用过程

设K为一个大数据项目,由大数据集R、描述对象E、元素属性集AR组成。∀ar∈AR,∀e∈E,通过多级反向传播将线性属性进行映射:ar:e→Tr。Tr代表R中任何一个元素r的属性映射关系,得出:R(e)⊂AR(r)。所以一个粗糙的大数据项目可表示成:KR=<R,E∩AR(r),AR∪λ>。λ代表大数据项目的粗糙权重。再次设K为一个多维度且粗糙权重较高的大数据项目,在多级反向传播下,其三个组成部分R、E、AR具有粗糙映射的关系,KR则是K降维之后的大数据项目,K的精确集和KR的精确集有以下关系:

对于大数据项目来说,若粗糙权重较高,则数据在多维向量空间内会同样具有多维特性,未知性与动态性较强,这时候就需要对数据进行降维处理,以获取已知数据,并使动态性得到调整,赋予大数据项目明确的线性特征,提高数据挖掘的精确度。多维向量空间和数据降维之后的几何空间对应关系如图1 所示。从该图可知,原本有三个组成部分的大数据项目,通过降维变成了两个组成部分。多维向量空间中的数据经过降维之后,转入了几何空间,大数据项目的线性特征变得更加明确。由此得出大数据项目的数据调度方案:通过阈值对大数据项目的粗糙集和精确集进行划分,精确集中的数据可以直接获取结果,粗糙集中的数据则需要经过降维处理,消除未知性和调整动态性,然后进入精确集,才可以获取结果。

图1 多维向量空间和数据降维之后的几何空间对应关系Fig.1 The corresponding relationship between multidimensional vector space and geometric space afterdata dimensionality reduction

3 实验与分析

本次实验主要是对比分析本文算法与传统算法的差异性,传统算法采用文献[5]的算法,共对比了3 个性能:数据调度误差、数据传输延迟、数据挖掘的迭代次数。实验环境如表1 所示。

表1 实验环境Table 1 Experimental environment

两种算法的3 个性能对比如图2 所示。(1)数据调度误差。当50 个终端逐渐激活之后,数据量也在不断增加,将2 种算法在实验规定时间内的数据传输量与原始数据量比较,得出数据调度误差。根据比较结果,传统算法使用的是静态调度,对数据量变化的反应较慢,容易出现数据出错或者丢失的现象,影响到数据质量。而本文算法使用的是动态调度,将一维向量空间转化成多维向量空间,比较容易获取大数据的异构特征,大数据调度的效率很高,并且增加了数据的精度。(2)数据传输延迟。在数据量增加的情况下,统计2 种算法在实验规定时间内的数据传输延迟,求出平均值。根据比较结果,相对于传统算法来说,本文算法通过多级反向传播,每一级的数据传播在每一维空间里,都可以借助向量编码实现动态调度,降低了数据传输的延迟程度,增强了数据传输的实时性。(3)数据挖掘的迭代次数。当服务器数量增加时,对比2 种算法进行数据挖掘所需的迭代次数。相对于传统算法来说,本文算法对多维向量空间的数据进行降维,并转入几何空间,使大数据项目的线性特征更加明确,因此能够在较少迭代次数的情况下获取精确数据。

图2 本文算法与传统算法的性能对比Fig.2 The performance comparison between this algorithm and traditional algorithm

4 结论

随着大数据应用领域的日益广泛,对于数据挖掘效率、数据精度、传输实时性有更高要求,鉴于传统算法的一些弊端,本文提出了一种基于向量编码和多级反向传播的异构大数据处理方法。对于多维度且粗糙权重较高的大数据项目,多维空间中的数据同样具备多维特性,未知性与动态性较强,通过降维处理之后,将数据转入精确集的几何空间,消除数据的未知性并调整数据的动态性,提高了数据精度。将本文算法与传统算法进行对比,发现本文算法具有更高的大数据调度效率和数据精度,数据传输的延迟程度更低,且能够在较少迭代次数的情况下获取精确数据。因此本文对异构大数据的处理方法有较大的推广价值。

猜你喜欢

降维异构数据挖掘
ETC拓展应用场景下的多源异构交易系统
混动成为降维打击的实力 东风风神皓极
改进支持向量机在特征数据挖掘中的智能应用
试论同课异构之“同”与“异”
基于数据降维与聚类的车联网数据分析应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
大气腐蚀数据降维最优维度研究
降维打击
多源异构数据整合系统在医疗大数据中的研究