APP下载

大数据数据库的特点及处理技术分析

2021-05-23陈书光

电脑知识与技术 2021年11期
关键词:处理技术特点大数据

陈书光

摘要:在大数据时代到来的今天,对数据库处理技术进行研究显得尤为必要。基于此点,该文从结构化、高度共享、独立性和统一管理四个方面,对大数据数据库的特点进行分析,在此基础上,论述了大数据数据库的处理技术,期望通过该文的研究能够对促进大数据处理水平的提升有所帮助。

关键词:大数据;数据库;特点;处理技术

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2021)11-0024-02

现如今,几乎每一天都会有EB级,甚至ZB级的数据生成,由此标志着大数据时代正式开启。随着数据的不断增多,对数据库处理提出更高的要求,为进一步提升大数据的处理效果,有必要加大相关处理技术的研究力度,以此来满足数据存储与管理需要。借此,下面就大数据数据库的特点及处理技术展开分析探讨。

1 大数据数据库的特点分析

随着大数据时代的开启,使得数据库的应用变得越来越广泛,其在提升数据资源的价值方面具有不可替代的作用。大体上可将数据库的特点归纳为以下几个方面。

1.1 数据结构化

数据库通常都是以系统的形式存在,存儲在数据库中的数据面向的对象不再是某个具体的应用程序,而是全组织,由此使得数据库具有了整体结构化的特点。在这一前提下,从数据库中对相关数据进行存取变得更加灵活,不但可以存取数据库中单个的数据项和整组数据项,也可以存取某一个记录或是整组记录。

1.2 数据高度共享

数据库是各种类型数据的承载体,其能够对数据进行存储和管理。从数据库的角度上讲,它将数据视作为一个整体,存储在数据库中的数据面向的是整个系统,正因如此,使得数据库中的数据能够被多个用户及不同的应用程序共享使用。在大数据的背景下,数据量不断激增,这样不可避免地会出现一些相同的数据,数据库只会对相同的数据存储一次,减少了数据冗余。

1.3 数据独立

存储在数据库中的数据,完全独立于应用程序,这种独立性的特征,使得数据结构及存取方式的改变,不会对应用程序造成影响。通常情况下,可将数据的独立性细分为逻辑和物理两个方面,无论是逻辑结构发生变化,还是物理结构发生变化,应用程序在不进行任何修改的情况下,都能够保持正常运行,由此充分体现出数据库的独立性特点。

2 大数据数据库的处理技术

大数据数据库的处理技术主要包括采集、预处理、存储与管理、分析与挖掘等,下面分别对这些处理技术进行分析。

2.1 大数据采集技术

根据相关调查统计结果显示,得到有效利用的信息比例约为0.6%,而其余99.4%均未获得利用,导致这一问题的主要原因是高价值的信息获取采集的难度较大。

2.1.1 采集对象

从海量的大数据当中,采集到有利用价值的信息是推动大数据发展的关键之所在,正因如此,使得数据采集成为大数据数据库处理技术中不可或缺的一项技术。数据采集简称DAQ,从本质的角度上讲,DAQ是一个自动完成信息采集的过程,采集对象包括传感器装置、各种被测设备等。

2.1.2 数据分类及来源

(1)在大数据的背景下,新一代的数据结构体系被提出,该体系对新数据源进行重新归纳和分类,具体分为两大类,一类是线上行为数据,另一类是内容数据,前者包括页面数据、会话数据、交互数据以及表单数据等;后者包括日志、电子文档、语音以媒体数据等。

(2)大体上可以将大数据的来源归纳为以下几个方面:互联网数据、传感器数据、商业数据等,在这些数据来源的支撑下,使得大数据采集技术具备了数据量大、数据类型丰富、分布式数据库等特点,并且还开发出一些全新的采集方法,如系统日志采集方法、网络数据采集方法等。

2.2 大数据预处理技术

来源于现实世界中的数据具有不完整的特征,并且数据格式也不一致,所以很难对这些数据进行直接挖掘,即便能够进行挖掘,最终的效果也并不理想。为给数据挖掘提供有利条件,便需要对数据进行预处理,数据预处理技术随之产生。

2.2.1 预处理的目的

可用于数据预处理的方法相对较多,如数据清理、数据变换、数据集成等。通过这些方法对数据进行处理后,不但能够减少数据挖掘所需的时间,而且还能提高数据挖掘质量。

2.2.2 处理过程

对于数据库而言,其需要对高质量的数据进行集成,如果数据质量不高,将会影响到集成效果,同时,原始数据当中都或多或少地存在一些问题,所以需要对数据进行预处理。通常情况下,数据预处理在数据挖掘过程中的时间占比约为60%左右。通过数据清洗能够有效去除掉数据中所含的噪声及无关信息;数据变换可以将原始数据转换为适宜数据挖掘的形式;数据集成能够将数据源中数据整合到一起后存储于数据库中。经上述流程处理后的数据,可供数据挖掘使用。

2.3 大数据存储与管理技术

随着大数据时代的正式开始,各类数据呈现出激增的态势,在对海量数据进行整理的过程中,需要使用到大数据存储与管理技术。

2.3.1 数据存储规模

数据量大是大数据最为突出的一个特点,起始计算量一般为PB级,有的甚至达到EB级,或是更高的ZB级,由此使得数据存储规模呈现出大型化的趋势。不仅如此,大数据的种类和来源具有多样化的特点,这在一定程度上增大了数据存储与管理的复杂程度。从目前的情况来看,大数据主要来自各种搜索引擎、电子商务、社交网络、音视频以及在线服务等领域,不同的领域数据形式有所差别,所以,在大数据时代,必须找到一种行之有效的方法,对海量数据的存储问题进行解决。

2.3.2 存储与管理方法

与国外的发达国家相比,我国在数据库、云计算等技术方面明显落后,传统的数据库很难满足海量数据存储的需要,提升数据存储能力成为当务之急。大数据存储与管理技术的提出,给这一问题的解决提供了途径,大数据存储与管理的有效形式包括数据加密、数据仓库、云端存储。

(1)私有数据在特定范围的安全性非常高,但随着网络的普及,使得经由网络发起的攻击越来越多,私有数据的安全性受到威胁。通过数据加密技术的合理运用,能够对来自网络的恶意攻击起到有效的防范,由此使得加密技术成为数据库安全的重要保障。经过加密之后的数据,无论传输还是存储都要比未经加密的数据更为安全。

(2)大数据由于数据量过大,从而增大了管理难度,对数据进行精简,则可降低管理难度,精简的过程可以借助数据仓库来实现。

2.4 大数据分析与挖掘技术

2.4.1 挖掘对象

数据挖掘简称DM,它既是一项技术,也是一个处理过程,是从原始数据中对隐含的、不为人知的、具有利用价值的信息进行提取的过程。可用于数据挖掘的对象相对较多,如数据仓库、关系数据库、多媒体数据库、时态数据库、异质数据库以及互联网等等。

2.4.2 挖掘流程

数据挖掘是一个较为复杂的过程,具体的挖掘流程如下:对当前的业务问题进行清晰定义,据此对挖掘目的进行确定;对数据进行准备,包括数据选取、提取目标数据集、数据预处理;按照数据的特点,对相应的算法进行选择,并利用该算法,对处理好的数据集进行挖掘;评价挖掘结果,并将之转换为可被用户理解的内容。

2.4.3 挖掘方法

数据挖掘技术可以分为两大类,一类是直接挖掘,另一类是间接挖掘,前者是以可用的数据为依托构建模型,通过该模型对剩余的数据进行描述;后者是用模型描述变量,并在变量中建立某种特定的关系。可用于数据挖掘的方法较多,其中较具代表性的有神经网络、遗传算法、决策树、统计分析、模糊集等。

2.4.4 发展方向

数据挖掘作为大数据数据库处理技术的核心,应当不断进行技术突破,只有这样,才能满足大数据持续发展的需要。具体的突破方向如下:

(1)数据挖掘算法。这是大数据分析的基础,不同的算法可用于不同的数据类型,进而深入到数据内部,挖掘出有利用价值的数据。因此,为某项特定的任务选取最为适宜的算法非常重要;

(2)预测性分析。这是大数据最为重要的一个应用领域,需要结合多种高级分析功能来完成,如预测建模、文本分析、实体分析、机器学习、优化等。通过对数据的特点进行预测分析,能够进一步了解当前的状态,为下一步行动方案的确定提供依据。

2.5 大数据检索技术

2.5.1 主要模块

1)集群主服务器(HMaster)。该服务器能够对HBase(开源数据库)中所有的元数据接口进行管理,并对集群中负责响应用户请求的实例进行监控。由于HBase架构当中能够同时存在若干个的集群主服务器,依托相关机制,可以使集群主服务器中有一个处于平稳的运行状态。集群主服务器可以管理不同的负载,通过这种方法能够对Region分区进行调整,从而使分区的负载始终保持均衡。

2)协同服务组件(ZooKeeper)。在HBase架构中,协同服务组件ZooKeeper的主要作用是对数据调度进行协调,由此能够使集群中数据并发访问的问题得到有效解决。ZooKeeper在对区域服务器进行注册的过程中,可以采用Ephedral方法,这样便于对区域服务器的运行进行实时监测,从而及时发现区域服务器中出现的问题,并对问题进行快速反馈,防止单点问题的发生。

2.5.2 检索方法

在将相关的数据写入到HBase架构当中时,客户端需要先访问协同服务组件,并从其中对元数据表的位置信息进行获取,随后客户端对元数据分区所在的区域服务器发起访问,对表中的数据进行读取,依托这部分数据,客户端能够找到要写入表的对应分区,及其所在的区域服务器位置,进而发出写入请求。当区域服务器接到客户端发出写入请求后,会对该请求做出快速响应,先将数据写入到HLog中,再写入缓存区,当数据成功写入后,操作完成。用户提出数据检索请求后,客户端会访问协同服务组件,找到需要检索的信息后,会进行读取,未找到会继续进行扫描,直至找到为止,由区域服务器将检索到的数据返回客户端,完成数据检索。

3 结论

综上所述,在大数据时代到来的今天,各类数据呈现出大幅度激增的态势,这对数据存储与管理提出全新的挑战。数据库在数据管理和存储中具有不可替代的作用,为使数据库的作用得到最大限度的发挥,除要了解数据库的特点之外,还要对相关的处理技术进行研究,以此来满足不断增长的数据处理需要,这对于促进大数据的持续发展具有重要的现实意义。

参考文献:

[1] 苏华友,梅松竹,李榮春,等.数据流技术在GPU和大数据处理中的应用[J].大数据,2020,6(3):117-128.

[2] 熊志强,张娴静.基于大数据背景下的计算机信息处理技术研究[J].北京印刷学院学报,2020,28(1):142-144.

[3] 王现君.计算机数据处理中云计算技术的应用及发展方案研究[J].通信电源技术,2020,37(1):205-206.

[4] 段玉风.大数据环境下分布式数据抓取策略的研究与应用[J].网络安全技术与应用,2019(12):75-76.

[5] 余利峰.面向分布式空间数据库的矢量数据存储与查询处理关键技术研究[D].杭州:浙江大学,2018.

【通联编辑:代影】

猜你喜欢

处理技术特点大数据
浅析城市生活污水处理技术现状及发展趋势
从语用学角度看英语口语交际活动的特点