APP下载

面向大数据的高维数据挖掘技术研究

2019-06-30雷宇

企业科技与发展 2019年7期
关键词:大数据

雷宇

【摘 要】现阶段,互联网推行大数据之后存在两个方面的影响:首先,数据量迅速增长;其次,数据复杂性不断提高。一旦数据量增长并不断累积,势必会出现质变现象。大数据涵盖内容广泛,除了视频数据之外,结构信息还包括文本数据,此外无论是处理速度,还是采集速度,都实现快速提高。生产企业一旦成功应用,除了生产效率得到迅速提升之外,决策效率也会提高;政府部门成功应用,能够及时处理应急事件。由此,数据挑战在今后发展过程中将越来越突出。

【关键词】大数据;高位数据;挖掘技术

【中图分类号】TP311.13 【文献标识码】A 【文章编号】1674-0688(2019)07-0166-02

1 大数据的发展挑战

现阶段,数据库正在全球化发展,立足于该发展模式,分布式模式需要得以创建,除了需要庞大机器之外,还需要技术有效处理庞大的数据信息。但是面对大数据时代,针对飞速激增的数据量,传统数据分析已经不能满足需求,其体现在以下3个方面。

1.1 数据处理的时效性

面对大数据不断推行,为了符合现阶段数据处理实际需求,数据应实现在线处理。在此基础上,无论是数据处理选择,还是数据处理模式,都不断改变,使得处理具有实时性,除了能够实现流处理之外,批处理也成功实现。立足于大数据实时性处理,无论是业务需求,还是根据应用,都逐步发生改变。

1.2 实现了动态变化环境中的索引形式

在索引形式的基础上,关系数据库查询速度将不断提升,此时使用传统数据管理模式,索引形式并不会产生变化,因此,无论是更新效率,还是创建方式,都不断形成。针对大数据信息变化特点,除了需要具备设计简洁的特点,创建索引方式还需要具有高效的特点,由此针对大数据变化,数据信息需求调整和处理都可以良好使用。可见,针对大数据变化,全新的索引形式能确保查询工作顺利实施。

1.3 先验知识的缺失

立足于传统数据分析结构,在关系型保存模式基础上,先验知识和隐藏内部关系早已出现。比如说,对信息属性进行分析过程中,需要确定可能存在的取值范围,并且在实际分析之前了解数据。针对大数据分析,非结构化数据和半结构化数据都需要创建类似数据,并且实现正式关系式。但是数据流的产生是不间断的,所以针对实时发生的数据,先验知识并不会创建完善,在此情况下,需要及时发现并处置无先验知识。

2 高维数据挖掘中的问题

2.1 高维数据简介

大数据库飞速发展,维数同样在急剧扩大,一旦增长到瓶颈处,数据处理将难以进行,人们将该数据叫做高维数据。相对于传统数据挖掘而言,除了具有復杂性特点之外,高维数据还具有多信息量性,由此成为数据挖掘的核心所在。

2.2 高维数据的特点

(1)稀疏性。实质就是数据库相对庞大时,虽然高维数据非常多,但是能够符合使用要求的相对较少。

(2)维度灾难。挖掘高维数据的过程中,往往存在较多的属性变化,此时索引结构性能将不断降低,无最近邻、最远邻和查询点的距离往往都一样,由此最近邻往往毫无意义,数据挖掘难度也将急剧增加。

2.3 高维数据对于数据挖掘产生的影响

结合大数据特征,实际挖掘数据过程中使用最近邻法,在庞大数据中查询效率将急剧提升。最近邻法往往依赖索引结构进行,可是针对高维数据存在“维度灾难”的特点,最近邻查询的索引结构支持度不断降低,甚至使得最近邻查询无法有效进行。

无论是进行高维数据的分类聚类分析,还是进行高维数据的异常检测,均受到索引结构制约,效果大打折扣,甚至失去效果,由此异常检测算法与聚类分析性能将不断降低。除此之外,针对同样的数据点距离,分类聚类概念意义不断消失,针对高危空间数据具备的稀疏性,任何数据点都可视为异常点,此时针对高维数据异常检测将困难重重。

2.4 高维数据挖掘的研究方向

(1)距离函数或相似性度量函数。无论是重新定义距离函数,还是重新定义相似性度量函数,都能够成功避免“维度灾难”的制约。

(2)选维和降维。在不断降低高维数据维度的基础上,使其成功形成低维数据,由此进行低维数据的数据挖掘。该方法最为人们所接受。

(3)高效的聚类算法和异常检测算法。为成功解决算法效率低的难题,可采取3个方面措施:{1}设计性能更好的索引结构;{2}增量算法;{3}并行算法。

3 大数据的高维数据挖掘技术

3.1 大数据储存的三维矩阵模型

针对不同来源的数据,往往可以选取不同的数据处理方式。比如,在分解数据种类的基础上,可将调研数据分为单选、多选、排序3类。传统数据的记录和分析过程,都应立足于同样的数据库,由此增加维度的差异。

因此,大数据时代数据模型创建除了需要具有内容多的特征外,还需要存在极强的通用性。同样以上文例子为例,在数据调研过程中,无论是单选,还是多选,都能够依据向量来有效表达,对应的题目排序可以利用矩阵表现,在社会网络数据的基础上进行,并且结合关键性类别来实际代表选题方式,最后模型转换则是建立在传统数据库和三维矩阵基础之上(如图1所示),处理关键数据,由此不一样的空间形式将存在空间维度里,此时三维矩阵将由全部数据来源构成,进行有效组合之后形成立体式模型(如图2所示)。

3.2 关联规则的三维矩阵挖掘

实际进行大数据挖掘过程中,关联规则挖掘是最受人们青睐的。无论是不一样的属性,还是项目关系,都无法隐藏和预知,只能在统计方法和数据库的基础上加以实现。现阶段,关联规则挖掘技术凭借其良好的性能成为使用广泛的技术之一。关联规则挖掘过程中存在以下核心要素:{1}置信度。主要用于度量衡量强度及准确性。{2}支持度。主要用于衡量度量重要性。

在日常生活和工作中,关联规则挖掘只有上述核心因素数值最小、支持度也对应最小值时,才能成功处于关联规则内。假如关联规则可靠性最低,那么置信度需要确保为最低。

想要使多维数据成功在空间中表现,须立足于空间特种,能够在多维储存模型的基础上成功表现,此时数据层次、数据语言都能有效表达。例如,在检测海洋数据过程中,气象环境除了风力之外,还有降水等;海底环境处理重力之外,还有水深等;水体环境除了有水温、盐度之外,还有潮流和水声,因素众多且相互交织,由此多维数据得以形成。在模型建立的基础上,使得多维数据能够在空间成功表达,使得海洋多样化的数据结构得以呈现。

3.3 基于超图的聚类算法

在原始数据相互关系的基础上,结合超图数据集,不断优化图形划分方法,此为超图聚类算法。在三维矩阵之中,利用分割算法进行图像划分,使用最为广泛的是HMETIS算法,步骤如下:首先是粗化阶段,在最小超图的基础上,结合推进超图不断压缩。其次是初始划分阶段,在二次划分超图的基础上,利用二次方法不断强化超图质量,有效提升工作效率。最后迁移优化阶段,分解超图之后,在投影基础上不断提升分解质量。

3.4 高维数据挖掘的工具

现阶段,存在SPSS、Exterprise Miner、SAS 3种使用广泛的高维数据挖掘工具,其特征如下:{1}SAS。建立在统计理论之上,存在诸多功能,高维数据挖掘功能相对齐全,但是需要专业人士进行操作,并且存在极高的运用成本。{2}Exterprise Miner。具有操作简便的优势,高维数据的处理能力相对适中,但是不能进行数据搜索。{3}SPSS。与SAS功能类似,但是相对而言性价比较高,高维数据挖掘功能较为出众,除此之外,立足于集成及發布功能,工作人员能够较好地掌握并理解挖掘结果。

参 考 文 献

[1]闫婷婷.数学建模中的高维数据挖掘技术优化研究[J].计算机测量与控制,2017(9):158-160.

[2]虞翔,李青.大数据环境下的高维数据挖掘在入侵检测中的有效应用[J].电脑编程技巧与维护,2016(22):57-58.

[3]田祥宏,陈正宇.大数据环境下的高维数据挖掘技术研究[J].自动化与仪器仪表,2016(3):100-101.

[责任编辑:陈泽琦]

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索