面向大数据的高维数据挖掘技术研究

2019-06-30雷宇

企业科技与发展 2019年7期

雷宇

【摘要】现阶段，互联网推行大数据之后存在两个方面的影响：首先，数据量迅速增长;其次，数据复杂性不断提高。一旦数据量增长并不断累积，势必会出现质变现象。大数据涵盖内容广泛，除了视频数据之外，结构信息还包括文本数据，此外无论是处理速度，还是采集速度，都实现快速提高。生产企业一旦成功应用，除了生产效率得到迅速提升之外，决策效率也会提高;政府部门成功应用，能够及时处理应急事件。由此，数据挑战在今后发展过程中将越来越突出。

【关键词】大数据;高位数据;挖掘技术

【中图分类号】TP311.13 【文献标识码】A 【文章编号】1674-0688（2019）07-0166-02

1 大数据的发展挑战

现阶段，数据库正在全球化发展，立足于该发展模式，分布式模式需要得以创建，除了需要庞大机器之外，还需要技术有效处理庞大的数据信息。但是面对大数据时代，针对飞速激增的数据量，传统数据分析已经不能满足需求，其体现在以下3个方面。

1.1 数据处理的时效性

面对大数据不断推行，为了符合现阶段数据处理实际需求，数据应实现在线处理。在此基础上，无论是数据处理选择，还是数据处理模式，都不断改变，使得处理具有实时性，除了能够实现流处理之外，批处理也成功实现。立足于大数据实时性处理，无论是业务需求，还是根据应用，都逐步发生改变。

1.2 实现了动态变化环境中的索引形式

在索引形式的基础上，关系数据库查询速度将不断提升，此时使用传统数据管理模式，索引形式并不会产生变化，因此，无论是更新效率，还是创建方式，都不断形成。针对大数据信息变化特点，除了需要具备设计简洁的特点，创建索引方式还需要具有高效的特点，由此针对大数据变化，数据信息需求调整和处理都可以良好使用。可见，针对大数据变化，全新的索引形式能确保查询工作顺利实施。

1.3 先验知识的缺失

立足于传统数据分析结构，在关系型保存模式基础上，先验知识和隐藏内部关系早已出现。比如说，对信息属性进行分析过程中，需要确定可能存在的取值范围，并且在实际分析之前了解数据。针对大数据分析，非结构化数据和半结构化数据都需要创建类似数据，并且实现正式关系式。但是数据流的产生是不间断的，所以针对实时发生的数据，先验知识并不会创建完善，在此情况下，需要及时发现并处置无先验知识。

2 高维数据挖掘中的问题

2.1 高维数据简介

大数据库飞速发展，维数同样在急剧扩大，一旦增长到瓶颈处，数据处理将难以进行，人们将该数据叫做高维数据。相对于传统数据挖掘而言，除了具有復杂性特点之外，高维数据还具有多信息量性，由此成为数据挖掘的核心所在。

2.2 高维数据的特点

（1）稀疏性。实质就是数据库相对庞大时，虽然高维数据非常多，但是能够符合使用要求的相对较少。

（2）维度灾难。挖掘高维数据的过程中，往往存在较多的属性变化，此时索引结构性能将不断降低，无最近邻、最远邻和查询点的距离往往都一样，由此最近邻往往毫无意义，数据挖掘难度也将急剧增加。

2.3 高维数据对于数据挖掘产生的影响

结合大数据特征，实际挖掘数据过程中使用最近邻法，在庞大数据中查询效率将急剧提升。最近邻法往往依赖索引结构进行，可是针对高维数据存在“维度灾难”的特点，最近邻查询的索引结构支持度不断降低，甚至使得最近邻查询无法有效进行。

无论是进行高维数据的分类聚类分析，还是进行高维数据的异常检测，均受到索引结构制约，效果大打折扣，甚至失去效果，由此异常检测算法与聚类分析性能将不断降低。除此之外，针对同样的数据点距离，分类聚类概念意义不断消失，针对高危空间数据具备的稀疏性，任何数据点都可视为异常点，此时针对高维数据异常检测将困难重重。

2.4 高维数据挖掘的研究方向

（1）距离函数或相似性度量函数。无论是重新定义距离函数，还是重新定义相似性度量函数，都能够成功避免“维度灾难”的制约。

（2）选维和降维。在不断降低高维数据维度的基础上，使其成功形成低维数据，由此进行低维数据的数据挖掘。该方法最为人们所接受。

（3）高效的聚类算法和异常检测算法。为成功解决算法效率低的难题，可采取3个方面措施：{1}设计性能更好的索引结构;{2}增量算法;{3}并行算法。

3 大数据的高维数据挖掘技术

3.1 大数据储存的三维矩阵模型

针对不同来源的数据，往往可以选取不同的数据处理方式。比如，在分解数据种类的基础上，可将调研数据分为单选、多选、排序3类。传统数据的记录和分析过程，都应立足于同样的数据库，由此增加维度的差异。

因此，大数据时代数据模型创建除了需要具有内容多的特征外，还需要存在极强的通用性。同样以上文例子为例，在数据调研过程中，无论是单选，还是多选，都能够依据向量来有效表达，对应的题目排序可以利用矩阵表现，在社会网络数据的基础上进行，并且结合关键性类别来实际代表选题方式，最后模型转换则是建立在传统数据库和三维矩阵基础之上（如图1所示），处理关键数据，由此不一样的空间形式将存在空间维度里，此时三维矩阵将由全部数据来源构成，进行有效组合之后形成立体式模型（如图2所示）。

3.2 关联规则的三维矩阵挖掘

实际进行大数据挖掘过程中，关联规则挖掘是最受人们青睐的。无论是不一样的属性，还是项目关系，都无法隐藏和预知，只能在统计方法和数据库的基础上加以实现。现阶段，关联规则挖掘技术凭借其良好的性能成为使用广泛的技术之一。关联规则挖掘过程中存在以下核心要素：{1}置信度。主要用于度量衡量强度及准确性。{2}支持度。主要用于衡量度量重要性。

在日常生活和工作中，关联规则挖掘只有上述核心因素数值最小、支持度也对应最小值时，才能成功处于关联规则内。假如关联规则可靠性最低，那么置信度需要确保为最低。

想要使多维数据成功在空间中表现，须立足于空间特种，能够在多维储存模型的基础上成功表现，此时数据层次、数据语言都能有效表达。例如，在检测海洋数据过程中，气象环境除了风力之外，还有降水等;海底环境处理重力之外，还有水深等;水体环境除了有水温、盐度之外，还有潮流和水声，因素众多且相互交织，由此多维数据得以形成。在模型建立的基础上，使得多维数据能够在空间成功表达，使得海洋多样化的数据结构得以呈现。

3.3 基于超图的聚类算法

在原始数据相互关系的基础上，结合超图数据集，不断优化图形划分方法，此为超图聚类算法。在三维矩阵之中，利用分割算法进行图像划分，使用最为广泛的是HMETIS算法，步骤如下：首先是粗化阶段，在最小超图的基础上，结合推进超图不断压缩。其次是初始划分阶段，在二次划分超图的基础上，利用二次方法不断强化超图质量，有效提升工作效率。最后迁移优化阶段，分解超图之后，在投影基础上不断提升分解质量。

3.4 高维数据挖掘的工具

现阶段，存在SPSS、Exterprise Miner、SAS 3种使用广泛的高维数据挖掘工具，其特征如下：{1}SAS。建立在统计理论之上，存在诸多功能，高维数据挖掘功能相对齐全，但是需要专业人士进行操作，并且存在极高的运用成本。{2}Exterprise Miner。具有操作简便的优势，高维数据的处理能力相对适中，但是不能进行数据搜索。{3}SPSS。与SAS功能类似，但是相对而言性价比较高，高维数据挖掘功能较为出众，除此之外，立足于集成及發布功能，工作人员能够较好地掌握并理解挖掘结果。

参考文献

[1]闫婷婷.数学建模中的高维数据挖掘技术优化研究[J].计算机测量与控制，2017（9）：158-160.

[2]虞翔，李青.大数据环境下的高维数据挖掘在入侵检测中的有效应用[J].电脑编程技巧与维护，2016（22）：57-58.

[3]田祥宏，陈正宇.大数据环境下的高维数据挖掘技术研究[J].自动化与仪器仪表，2016（3）：100-101.

[责任编辑：陈泽琦]