APP下载

计算机数据挖掘技术的开发及其应用

2019-02-12金巨波徐秀丽

浙江水利水电学院学报 2019年6期
关键词:数据挖掘计算机算法

金巨波,葛 雷,徐秀丽

(黑龙江财经学院,黑龙江 哈尔滨 150025)

1 计算机挖掘技术与大数据的关系

随着网络的普及与迅速发展,大数据与移动互联网、云计算联系紧密、息息相关。移动网络的发展必然离不开大数据的分析。大数据的分析挖掘能力是保证物联网、移动互联网等发展的基础与前提。

1.1 大数据的概念

一般来说,现在各行各业都提到的大数据指的是一种宏观、无法用现有的普通规模数据库来表示的管理技术以及工具处理的数据集。但实际上,这种大规模数据群出现的很早。在刚开始出现时,由于没有固定的统一称谓,大家普遍称之为“海量数据”。同时,大数据的处理技术问题还出现在专业杂志上进行公开讨论。

简而言之,大数据就是各式各样的不同数据集合在一起的数据集合[1]。但是,大数据有其特殊性,一般很难被普通寻常的数据挖掘以及分析工具进行合理有效的分析处理。因为大数据的范围很广,它的定义还包括了一部分超出普通大小处理范围的数据规模,因此,必须有专门的计算机挖掘技术对这部份大数据进行处理。

1.2 大数据所具有的特点

海量、多样性、价值密度低、速度快是大数据所具有的四个典型特征[2]。首先,大数据的数据体积规模超过普通的数据,它的计量单位有别于一般的数据存储容量,大数据是以PB、EB、ZB作为基本数据存储单位进行计量;其次大数据不仅仅体积规模庞大,它的种类多且复杂。大数据有着各种来源,因此它的数据变化快,种类和格式各式各样,种类繁多,远远超出普通的结构化数据。非结构性数据和多元结构性数据是大数据在目前市场下最常见的两种数据格式,其中不具备具体结构却依旧可以通过传统数据存储的数据就是非结构型数据。此类大数据字互联网消息传递方面运用较为广泛。与传统数据相比,大数据的收益效果不理想,其价值密度低。但是,通过分析资料可知,大数据在生产率、价值质量的优势远大于传统数据。只要运用计算机挖掘技术对大数据的价值质量进行挖掘,则其价值效益将远远超过传统数据。大数据还有一大优势是它产生新数据的速度高于传统数据。目前,市场中很多企业的发展依赖于大数据的研究,大数据带动着企业生产与收益。在企业中,往往大数据种类的多样性会随着企业的运营而增长。可以说大数据属于企业资产的一部分,不断更新的数据又进一步提升了大数据的产生速度。

1.3 大数据的需求挖掘

为了达到满足用户各种需求,使用大数据挖掘技术手段可以达到开拓新市场的目的,这是大数据在企业中最重要的应用。一个企业的发展少不了以下四个步骤:分析市场、寻找潜在客户、进行谈判、市场操作。在市场分析中,大数据扮演者重要的作用,可以使用数据进行市场分析。以往市场分析通过市场问卷调查,根据历史数据进行分析调查的方法很容易造成市场分析误差,影响后续步骤的进行。而运用数据挖掘技术,可以全面运用各式各样和各类型的数据进行分析,这些数据可以涵盖过去的行业历史数据、最新的数据进行全面系统的分析。不仅可以实现对企业的运行各方面的分析,而且数据分析效率和质量还更高,其数据分析结果的精准性,这是传统数据挖掘方法无法比拟的。经过大数据挖掘技术的分析,公司在对大数据分析的数据作为依据,根据市场需求、市场发展趋势以及市场演变的规律、企业推出产品的发展、经济收益做出更精确的计划,从而最大程度上实现经济效益的提升[3]。

2 数据挖掘技术

2.1 数据挖掘技术的概念

数据挖掘技术是根据已获取的数据,从中挖掘出有潜在价值、未知的以及对所做的决定有价值的数据[4]。数据挖掘技术的成功发展也经历必不可少的五个阶段:数据收集、数据访问、决策支持数据挖掘以及大数据挖掘。对各式各样、种类繁多的数据进行收集整理,进行最简单的分类处理是数据收集阶段的工作。这对之后出现的大数据挖掘技术奠定了基础,具有更高的利用价值。

此外,大数据挖掘技术的流行是随着使用需求大、物联网、移动互联网的运用而快速发展起来的。大数据挖掘为这些行业提供准确度高的预测信息,根据对数据仓库中的海量数据进行分析,虽然与传统数据分析挖掘技术相似,但大数据挖掘可以改变数据算法应对不同的数据分析条件进行预测分析。

2.2 数据挖掘技术的流程

数据挖掘技术可对已有海量数据库继续挖掘,从而获取有价值的信息。但值得注意的是,几乎所有的数据挖掘技术算法的种类所历经的流程相似。在数剧挖掘过程中,各种算法互相协调配合使用,可以解决多种问题,达到获取有价值信息的目的。数据挖掘技术会历经输翻译数据、预处理数据、分析数据建模三个阶段来得到输出结果(见图1)。翻译数据指将数据库中海量的数据换成计算机可识别的格式后,再输入计算机。此阶段,会对海量数据库中的数据进行选择与筛除,分析出有价值的数据。在进行数据的选取后,会继续对翻译后的数据进行初始化处理,更大程度上提升数据的质量。进行预处理数据是为了避免翻译数据流程中输入的不准确数据对后续分析的干扰。对数据进行再筛选,也是为了保障后续数据分析的准确性。通常使用数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、属性选择等方法进行全面客观的数据处理。随后进行的第三阶段的数据建模,是按照实际数据处理问题的需要,对预处理的数据进行数学建模分析,通过数据建模对预处理的数据轨迹进行概括处理,使这些数据的具体结构相互匹配,从而得到最终的数据挖掘结果。

图1 数据挖掘过程图

总的来说,尽管大数据挖掘技术已经替代了传统数据挖掘方法。但大数据挖掘技术始终是建立在普通数据挖掘处理上的,大数据挖掘技术是由时代的变化规律发展而来的。

3 计算机挖掘技术的开发

3.1 算法的种类

处于大数据化的背景下的社会的发展,计算机挖掘技术的产生与使用可以更高效率地得到数据信息,相较于传统数据处理,其准确性也更高,得到的结果也更全面。从实际生活的运用来分析,大数据的应用能够开发出可视化数据处理技术,这就需要计算机挖掘技术进行不断的开发与探索。大数据的核心在于其数据加工能力,根据目前的算法类型,可把数据挖掘算法分为六种:分类算法、回归分析、聚类分析、关联规则、神经网络方法、Web数据挖掘。[5]根据大数据的类别对大数据进行分析就是分类算法;回归分析算法是依据某一个因变量与其他多个自变量之间的变化关系进行分析,找到数据属性值之间的关系,从而写出多个联系两者关系的算法;聚类分析算法是把分类分析的算法进行大划分,依照数据直接的类似性,对数据再次进行分类;关联规则算法是指深入挖掘找到使大数据组中数据集合的关联关系的算法;神经网络算法是模拟人大脑的学习思考过程,对一些样本进行学习后,从而产生相似的对不同的样本数据也能进行区别的算法;而Web算法是最简单的算法,它的目的是不断收集Web网页中的数据。

实际上,大数据挖掘技术的运用,不是单一算法的运用,往往是多种算法一起结合使用后再进行数据挖掘。它将数据挖掘的过程抽象化,从而形成一种可通用的数据挖掘方法,与传统方法单一方法相比,可利用性、可复制性以及通用性更高。

3.2 轴线型数据挖掘法

轴线型挖掘法指将数据挖掘过程看成一条轴线,轴线的起始点到终点的流程分别指的是数据输入、数据预处理、数据分析、数据输出等几个阶段[6]。轴线型数据挖掘法流程示意图(见图2),这个过程简单明了。此方法的优势是可以随时进行修改,实现起来较为简单且操作方便。轴线型数据挖掘法唯一的缺点是其进行数据挖掘时,耗时长,但这仍然是目前挖掘工作中所使用的主流方法。

图2 轴线型数据挖掘法流程示意图

3.3 环形数据挖掘法

环形数据挖掘发是把完整的一个数据流程分布在一个环上,所有的阶段在环上执行一周即代表一次数据挖掘工作的完成。一次完整的环形数据挖掘,仍然包括数据的输入输出与分析,与轴线型数据挖掘法的流程一致。这种方法可以循环高效利用挖掘到的数据。一次数据挖掘的结束可以继续运用到下一次数据挖掘循环中,不断地进行循环、持续。环形数据挖掘法具有数据的高效利用性、挖掘流程持续性、效率高的优势,但其操作流程较为复杂,实操性较弱[7]。

4 计算机数据挖掘技术的应用

4.1 行政管理方面

在日常行政管理方面计算机数据挖掘技术有较大利用空间,可以协助解决许多存在问题。比如,在交通运输管理方面,随着各种打车软件的兴起,人们的日常出行需求得到了满足,但是随之而来也有很多问题。实际上,这些打车软件也利用计算机数据挖掘技术,但是仍然不够全面与完善。行政部门可通过计算机数据挖掘技术将交通出行的有效信息传入到交通运输数据系统库中,方便大众实时查看,合理选择出行路线与方式,可以达到减少交通事故,保证道路畅通的目的。另外,在行政工作的档案数据管理工作中,可以通过数据挖掘技术,更改档案保存整理方式,有效的对档案进行检索与整理,减少工作量,从而实现工作的高效性。

4.2 市场方面

良好的市场发展离不开市场营销的作用,而市场营销是为了更好地迎合大众需求,掌握大众心理。利用计算机数据挖掘技术,可以实现通过应用信息管理与条形码技术的结合,收集用户的日常数据[8]。但由于数据数量大,种类多的特点,很难实现人为管理,所以此时大数据挖掘技术就可以解决这个问题,利用大数据挖掘技术收集到的客户数据,对其日常生活轨迹、购买力情况以及消费心理习惯进行数据分析(见图3)。基于数据挖掘技术得到的数据更为精确、全面的特点,市场营销部门可以更好地掌握顾客的消费习惯,从而制定出更为合理、适应市场强度力强的营销方案。还可以利用大数据库的交互查询以及建模预测算法进行演练,挖掘出更多潜在顾客,实现更全面市场营销。

图3 计算机数据挖掘技应用于市场营销模式示意图

4.3 其他领域的应用

不止在上述两个方面,数据挖掘技术在企业的发展方面也有较大运用价值。一个成功的企业离不开其金融分析能力。通过对股票交易市场的投资评估与预测,可以减少投资风险。在开始投资前,利用计算机数据挖掘技术,建立数学模型进行风险预测,可以有效地分析出各种潜在风险,避免企业进行不合理的投资,及时规避风险。通过数据分析,协助企业更改并完善投资计划,选择最佳时期进行投资,最大程度上降低风险[9]。此外,对于一些特殊的企业,例如煤矿挖掘、燃油开采等工作性质较为危险的企业,可以利用计算机数据挖掘技术,对工作环境进行分析,建立完善的报警安全管理举措。在进行开采作业时,对施工现场进行数据建模,预估风险,合理评估风险指数,从而演算出安全举措,尽可能保障施工人员安全;计算机挖掘技术还可运用在开采作业的计划中,利用大数据挖掘数据分析,协助决策部门制定出更完整,开采效益更高,危险系数更低的开采计划;在半导体领域,计算机数据挖掘技术可以用于零件的检测。由于半导体零件对质量以及精密度的要求较高,为了达到企业的生产标准,需要计算机数据分析技术,通过采集元件的信息数据,对元件的质量进行检测,再继续投入生产,从而保证元件的合格率以及质量安全。

5 结语

综上所述,在社会经济不断发展的现状下,各行各业对于大数据的依赖日渐增强,这使计算机数据挖掘技术的开发与应用有较高的研究和利用价值。大数据挖掘技术在各行业中的影响力越来越大,例如在市场营销运营方面,通过分析客户购买行为以及购买率,可更深入的了解顾客心理,可推广更适合大众的产品。

猜你喜欢

数据挖掘计算机算法
改进支持向量机在特征数据挖掘中的智能应用
哪种算法简便
计算机操作系统
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
Travellng thg World Full—time for Rree
进位加法的两种算法
信息系统审计中计算机审计的应用