APP下载

从数据库到数据仓库

2013-03-26宋金平

电子测试 2013年8期
关键词:数据库系统数据仓库数据处理

宋金平

(集宁师范学院计算机系,内蒙古 乌兰察布 012000)

1 数据库

数据库是一种逻辑概念,是用来存放数据的仓库,数据存放过程和数据的使用通过数据库软件来实现。数据库由很多二维表组成,每个表里可以有很多字段,字段一字排开,对应的数据一行一行写入表中。数据库的美,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sybase、MS SQL Server 等。数据库(DB-Database)是以一定的数据模型组织和存储的,能为多个用户共享的,独立于应用程序的,相互关联的数据集合。数据库本身不是独立存在的,它是数据库系统的一部分。在实际应用中,人们常常面对的是数据库系统(DBS)。由于数据库技术的产生使计算机应用进入了一个崭新的时期,生活中的各个领域都与计算机有了联系。数据库技术时数据处理最理想的方法,是管理信息最先进的工具。随着网络的出现和快速发展,现在数据库技术已经成为几乎所有领域的基本组成部分。比如,要访问一个银行网站查询帐户余额和交易信息时,这些信息来自银行的数据库系统;当查询某产品信息时,产品信息来自该产品的数据库系统;在络上查询某人的基本资料时,该人的信息来自某单位的人事管理系统;当访问在线书店、浏览书目或听音乐时,实际上访问的是存储在某个数据库中的数据访问数据库已经成了每个人生活中的组成部分。

2 数据仓库

数据仓库是数据库概念的更进一步提升。目前社会,任何组织生存和发展的重要环节是正确及时的决策,要想实现效益的最大化,只能充分利用、发掘其现有数据资源。不同领域在日常的工作中都会生成大量的数据,将这些数据应用于决策会有非常好的效果。如果能加上相关的外来数据,则效果将更好。几乎所有的领域都在计算机中存储大量的数据,例如一个企业生产、购买、销售过程中产生的数据及与客户的联系数据等。这些数据通常存储在不同的地方,数据仓库能将这些分散的在不同平台上的数据组织和加工,产生决策支持的数据,进一步支持数据发掘、多维数据分析技术和数据查询及报表数据等。因此数据仓库技术产生并发展起来了。

从逻辑角度说,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据分析和数据挖掘。数据仓库概念基本上采用了W.H.Inmon的定义:数据仓库是集成的、面向主题的、不可更新的、随时间不断变化的数据集合,以此支持内部经营和管理中的决策的制定。通过使用数据仓库,人们发现数据仓库是一种体系结构、一种环境,它能将来自各种数据环境的数据进行分析和组织,可以含有大量的历史数据,为决策管理活动提供支持。数据仓库有如下特点:

2.1 面向主题

主题是一个抽象的概念,是较高层次信息系统中的数据综合、归并和利用的抽象。主题是一个数据集合,是在较高层次上对分析对象进行了比较完整的、一致的数据描述。在数据仓库中主题是由若干关系表表现的,一个主题可以划分成多个表,因此得出主题只是一个逻辑上的概念,同一主题的数据不必存储在同一位置。面向主题是指数据仓库中的所有的数据都是按照主题进行组织和管理的,数据仓库的创建、使用都围绕着主题来实现。

2.2 数据集成

数据仓库中的数据是从结构相异的、在不同位置存放的数据库抽取来的,这些数据库中的数据存放在许多不一致和重复的地方;数据仓库中的综合数据无法从这些数据库中直接得到。因此,数据在进入数据仓库之前,必须进行统一与综合,统一源数据中的字段、数据类型、单位不一致、字长等存在矛盾的地方;在数据仓库内部综合、计算生成数据。

2.3 相对稳定

对数据仓库中的数据主要是数据查询操作,一般并不进行增、删、改等操作。数据仓库的数据反映的是操作数据库的历史记录,是不同时间点的数据库操作结果快照的集合,以及基于这些快照的综合数据,而不是事务实时处理的数据,所以数据仓库中存储的是相对于数据库来说比较稳定的数据。

2.4 随时间不断变化的

数据仓库中的数据从装入数据仓库到从数据仓库中删除期间是不断变化的。因为数据仓库要随着时间的变化不断从数据库中把经过操作所得的变化数据增量存储到数据仓库中,这种增加并不对原有数据进行修改知识简单的照搬。数据仓库中的数据是有存储期限的,如果数据在数据仓库中存放的时间超过了这个期限就会被删除,这也是导致数据变化的一个原因。数据仓库中大部分数据是综合数据,这些数据要随着时间的变化不断进行重新综合、计算产生新的综合数据。

3 数据仓库与传统数据库的区别

传统的数据库技术是以单一的数据资源表为中心,进行数据修改、批处理等各种类型的数据处理。随着数据库技术的普及,人们对数据处理的要求更高、更细。目前的数据处理主要有事务处理和分析处理。事务处理,是指对数据库、表的日常操作,经常是对一条或一组记录做查询或修改等操作,主要是为应用服务的,在这个过程中人们主要关心的是数据的安全性、一致性和完整性及响应速度。分析处理主要用于管理层的决策分析,是数据仓库的处理方式。两者之间的存在的差异导致数据库与数据仓库的分离,分清了数据处理的数据分析与数据操作的界限,从而由原来的以单一数据库、表为中心的数据处理发展成为一种新的数据处理方式—数据仓库。

3.1 事务处理和分析处理的性能不同

在事务处理中,用户操作数据的特点是数据的存取操作多且而每次处理操作的时间短。因此,数据库系统可以允许多个用户按分时方式使用数据资源,同时保持较短的处理时间。在分析处理中,用户数据操作方式与此完全不同,分析处理的应用程序可能需要连续工作几小时且要消耗大量的系统资源。

3.2 数据集成问题

分析处理需要综合的数据,全面而正确的综合数据是有效的分析和正确决策的必要前提,完整的数据收集,是得到可靠结果的前提。而事务处理的需求在于自动化地处理业务,满足这种需求只需要相关的当前数据就可以了。而对整个数据范围内的综合应用考虑得很少。事务处理将导致数据不一致问题的存在,将这些不一致的数据收集起来,要想供分析用必须对它们进行相应的转换。事务处理能产生的是繁杂的细节数据,这些数据不能简单的成为一个综合的数据。对于需要综合数据的系统应用,必须由应用程序自己将这些纷杂的数据进行集成、综合。可是,数据集成是一项十分繁锁的工作,由应用程序完成将大大增加应用程序的负担。并且,这种集成需要经常做。数据库系统对数据集成的迫切需要是数据仓库做出准确决策、分析的前提。

3.3 数据动态集成问题

数据集成的方式有两种:一种是应用程序只在决策开始时对数据进行一次集成,此后的分析、决策将一直以这部分集成数据为基础,这种集成方式为静态集成。另一种是集成过程周期性的执行,分析、决策的集成数据具有时效性,这种集成方式为动态集成。两种集成方式的区别是不言而喻的,用静态集成方式所得的分析、决策时建立在果实的数据基础上的。数据库的事务处理系统是不具备动态集成的能力的。

3.4 历史数据问题

在数据库的事务处理过程中一般需要的是短期存储的数据。而数据仓库的决策、分析过程需要的是大量的历史数据。所以数据库技术的关键点是解决对短期数据的及时快速的处理以满足用户的需求。而数据仓库则是对大量的历史数据进行存储、分析得到综合数据以供决策、分析过程使用。

3.5 数据的综合问题

在数据库的事务处理过程中积累了大量的细节数据,在决策、分析时,需要对细节数据进行不同程度的综合。数据库的事务处理系统不具备这种综合能力,根据范式的规范化理论,这种综合被认为是一种数据冗余进而加以限制。

基于以上原因数据仓库产生了。简而言之,数据仓库是面向分析的,数据库是面向事务处理的。数据仓库的数据是基本不变的,而数据库的数据是由日常的业务产生的,是经常更新的。数据仓库的数据一般是由数据库的数据经过一定的规则转换得到的。数据仓库主要用来分析数据,一般是TB级的的数据,比如决策支持系统、数据挖掘等。

总之,数据仓库的出现,并不是取代传统数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,传统数据库、数据仓库相辅相成、各有千秋。

[1]施伯乐等.数据库系统教程.[M],北京:高等教育出版社,2008.

[2]赵永霞.数据库与数据仓库[J],信息纵横,2009年第7期

猜你喜欢

数据库系统数据仓库数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
微细铣削工艺数据库系统设计与开发
江苏省ETC数据库系统改造升级方案探讨
探析电力系统调度中数据仓库技术的应用
实时数据库系统数据安全采集方案
核反应堆材料数据库系统及其应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用