APP下载

计算机大数据应用的技术理论

2020-11-16何春

数码世界 2020年10期
关键词:技术应用计算机大数据

何春

摘要:随着计算机在大数据分析与处理的应用逐渐深入,给人们的生活带来诸多的进步,需要充分发挥计算机在大数据应用中的重要作用。本文主要探讨计算机大数据应用的技术性理论,并且重点阐述了Hadoop架构以及Storm两种架构技术方法,希望给相关研究人员以借鉴和参考。

关键词:计算机;大数据;技术应用

1 前言

随着信息时代的到来,人们处理的信息以爆炸式的方式增长,这就催生了大数据技术的进步与发展。利用计算机进行大数据应用主要包括四个主要的部分,分别是大数据的采集、存储、处理以及呈现,计算机大数据的应用主要包括大数据的采集预处理,存储管理以及分析和挖掘,最终进行展现。利用计算机进行大数据分析,供人们决策与参考,因此阐述计算机大数据应用技术理论有着非常重要的现实意义。

2 計算机大数据应用技术

2.1大数据的采集技术

在大数据进行采集,主要利用传感器、视频数据、社交网络数据以及移动客户端数据进行搜集,这些海量数据具有结构化以及半结构化特征,是大数据进行运行的根本。需要重点突破分布式数据的爬取以及采集,以得到全映像的数据形式。应用计算机进行大数据采集,要实现对于智能化以及办智能化数据的识别,跟踪传输以及初步的处理,对大数据数据源要智能进行识别,并且提供虚拟的服务器,与物联网环境相互连接,借助于分布虚拟存储技术以及可视化接口网络传输以及压缩技术进行重点处理。

2.2大数据的预处理技术

第一,大数据的抽取。由于所采集的大数据信息具有多种结构类型,因此需要借助于数据抽取技术,将复杂数据转化为便于处理的数据结构,方便后期进行快速处理。

第二,大数据的清洗。并不是所有的大数据都具有使用价值,一些数据对分析结果有干扰,因此可以利用计算机大数据去噪的方法,排除无效信息,提炼有价值信息。

2.3存储与管理技术

需要对大数据进行有效的存储,建立相应数据库,方便后期进行调用,主要解决大数据的存储表示以及传输关键问题。借助于分布式文件系统,开发能够优化存储以及计算的大数据存储技术。大数据数据库主要分为关系型数据库以及非关系数据库,对数据库的销毁加密解密访问控制数据识别重点进行突破。

2.4大数据的挖掘技术

借助于现有的数据挖掘以及机器学习方法对数据网络进行挖掘,与现有的数据连接以及相似性进行兴趣分析以及行为分析。可以采用聚类关联规则序列模型以及依赖模型来发现数据应用的趋势,需要实现大数据分析的可视化,借助于数据图像,能够让数据自身表达背后的联系,也能让用户自身感受到大数据分析的结果。借助于数据挖掘的算法,能够让各种孤立的数据连接起来,挖掘内在的价值。大数据挖掘技术能够将数据背后隐藏的价值充分展现出来,提高人们的生产和生活效率,主要集中于商业智能、政府决策以及公共服务中,在政策决策、商业智能电网数据分析、环境监测、交通数据分析、多媒体数据等领域产生了重大的影响。

3 计算机大数据应用处理技术

3.1批处理技术

Hadoop框架性平台主要来自于MAP,技术处理符合相应的键值,以满足对MAP以及RDUCE等算法的要求。这一过程主要包括从框架中进行数据的读取,然后将数据拆解为各种可以分配的节点,针对每一个节点数据子集进行计算,重新分配中间结果,并且按照键值进行分组,对每一个节点计算结果进行重组,将计算的结果重新写入到SDFS中。MAP技术具有较强的缩放的潜力,通过集群能够快速实现学习曲线。处理引擎能够提供较为成熟的批处理模型,适合对于时间要求并不高的大数据处理,成本比较低,与其他处理形式相比,借助于Hadoop能够使用较多的工作负载平台作为基础。

;Hadoop架构的主要核心是SDFS,又被称为分布式文件系统,这种分布式计算架构是整个系统运行的基础,在系统集群中,每一个主节点要担任文件管理系统数据分发任务,区域节点主要负责文件的具体保存和执行。Hadoop架构关键就要借助于大量计算机服务器,形成计算机服务机群,实现对大数据的快速处理。对于大数据进行处理过程中,先对数据进行分解,然后在分配以相应的服务器进行处理,最后将数据处理的结果进行整合。通过Hadoop大数据架构分析操作,系统初始化时间比较长,因此提升处理的速度是快速实现大数据分析处理的关键所在。Hadoop系统的初始化时间对于最终处理的结果准确性具有较大的影响,因此整个平台并不适用于处理小型数据。Hadoop架构进行任务处理的过程中,所碰到的技术问题更加显著,在平台中将数据进行存储处理时,过程比较缓慢,因此架构在对于处理变化较快的大数据时,仍然存在较多的问题。

3.2 流处理技术

流处理系统能够对进入系统的数据进行随时运算,相当于前面的批处理系统无需对数据集进行整体操作,而是对每一个数据进行操作。在流处理中对于数据集的定义是没有边界的,数据集只是代表目前进入到系统的数据总量工作,即在特定时间只能代表某一单一数据对于工作的处理,如果没有明确停止,将没有尽头。。流处理系统可以进行无限制数据的处理,功能更加方便,快捷化,主要侧重于功能性操作,针对于同一个数据执行,会产生相同的结果。流处理比较适合于一些类型工作负载,基于时间衡量指标最为合适,能够对于时间数据变化作出相应的关键性处理与Hadoop架构相似,Storm结构也是以体系结构作为分析数据的基础,通过两种服务进程有效实现分布式计算,其中主进程在集群主节点中运行,他的任务是分派以及分发数据处理的任务,从进程主要在从节点中进行,主要负责任务的具体执行。借助于Storm框架,能够利用编程模型以流线型方式对大数据信息进行处理。信息流是主要的数据处理形式,每一条信息流都会对应数据的输入封装。结合不断流入的信息流,以分布式的处理来完成大数据的分析架构,SPOUT是整个数据信息的生产者,在架构中属于输入性源头,借助于异构数据获得相应的信息源,同时发射信息流,实现大数据的流线化处理,具有多节点处理的效能,呈现具体的使用逻辑。

这两组大数据的处理结构中,Storm具有较多的优点,这种架构在实际运行过程中,系统不用每一次开启都进行初始化,因此对于大数据处理的效率更高,在特别是小数据处理中更加具有优势。Storm架构能够高效的满足人们对于UI数据的处理要求,它内部所具有的SPOUT组件能够对不同信息流进行读取,并且将信息流传输至BOLT组件进行处理,内部组件能够对多个BOLT组件进行联合处理,有效实现了业务数据流的难度分配,实现数据转换的高速性。这是一种侧重于线性分配的处理形式,框架也是接近于实务处理。Storm技术能够处理海量数据,通过拓普分析进行编排输入数据,对于每一个片段执行不同的转换率操作。

4 结束语

随着现代计算机技术的发展,大数据处理以及分析更加朝向智能化以及便捷化方向发展,给我们的生活带来了极大的便利,因此需要有效了解计算机大数据应用的理论,不断进行探索与分析,把握整体架构,不断提高大数据处理分析技术。

参考文献

[1]苏娜,史宏.基于大数据时代的计算机信息处理技术[J].计算机产品与流通,2020(09):9.

[2]屈永斌.“大数据”时代背景下计算机信息处理技术的实践思考[J].计算机产品与流通,2020(09):139.

[3]杨威.基于大数据的计算机信息处理技术分析[J].集成电路应用,2020,37(08):62-63.

猜你喜欢

技术应用计算机大数据
中国计算机报202007、08合刊
中国计算机报2019年48、49期合刊
中国古代的“计算机”
低碳环保技术在环境治理中的应用分析及阐述
基于高职院校物联网技术应用人才培养的思考分析
现代烟草工业发展趋势及降焦减害技术应用研究
基于大数据背景下的智慧城市建设研究
一体式,趋便携雅兰仕AL-225