APP下载

数据库存储系统的相关设计及解决方案

2017-04-20徐保国

魅力中国 2016年34期
关键词:数据库系统

徐保国

【摘要】设计数据库的目的是为了管理大量的数据,对数据的管理既涉及到数据操作机制的提供,又涉及到数据存储。如果把数据库管理系统看成是一个仓库,在仓库里存放着各种各样的的物品,另外还有一个仓库保管员,这个保管员负责不同物品的搬进、存储、搬出,这里的仓库就类似于存储数据的“文件”。

【关键词】数据库系统;存储系统设计;数据库仓库

一、系统设计及解决方案实现的背景

纵观券商IT发展现状,首先企业级业务应用越来越多,分工也越来越细,而企业级的业务应用需求和要求都越来越高,单个业务产品满足不了企业级应用需求,以下是目前券商主要面临的企业级应用需求:

1.面向上级监管部门的数据报送

2.企业级合规管理和风险控制要求越来越高

3.实时动态业务风险监控

4.企业决策支持平台

5.客户营销管理

二、数据中心目标定位

概括而言,数据中心一方面是现有营业部柜台交易系统、总部清算系统、稽核系统等业务系统的数据采集者和管理者,同时也是营销管理、稽核监控、风险管理、数据挖掘和多维分析系统的数据提供者。

(一)产品定位。企业数据标准中心,据交换中心,据服务中心。

(二)功能定位。致力于企业业务数据的管理方法和管理工具研发,包括业务数据组织架构规划、数据规范管理、数据质量管理、数据发布管理以及数据的复用性管理等方面的系统性工程。

(三)存贮设计定位

既要考虑高并发高效率的OLTP服务处理,也要考虑大数据量访问的OLAP统计分析要求, 基于未来5年到10年的数据存贮容量测算,以此来考虑系统的主机、存储架构设计以及数据处理技术应用等技术研究工作的方向。

三、系统设计原则

数据中心项目技术解决方案的设计原则体现在以下六个方面,使得有限的资源以较有效的协作方式共同发挥效用:

(一)可扩展性

数据模型:设计模型时,尽可能满足未来可能要上线的业务系统数据模型,同时还需制定一套合理的模型设计规范。

数据分发平台:在设计时应考虑,随着分发数据规模的扩大和分发节点的增多,对分发处理和传输处理的性能要求会越来越高。

(二)高性能

分发平台:需考虑大数据量条件下的文件传输效率,主要体现在特殊日期及特殊情况下的全量文件传输。数据库设计:同时要考虑分析类型的大批量数据或频繁访问需求,还要满足实时监控类的高并发访问要求。。

(三)可管理性

数据质量管理:报告的可读性,标准的可维护性,问题处理流程的可操作性。数据分发平台:需要充分考虑数据分发任务易于配置,传输结果易于监控。

(四)高可用性

数据模型的可用性:能屏蔽源系统结构的变化对数据中心系统带来影响。局部数据模型的扩展不会对其它数据模型产生大的影响。系统备份:生产系统出现异常时,备份恢复机制及时恢复处理。

(五)安全性。一是防止数据中心系统的数据资源被恶意修改和盗取;二是防止数据在传输过程中被截留和篡改。

(六)可重用性。可重用性是指尽可能避免数据中心项目的重复投入,应尽可能考虑包括物理设备、系统软件、框架组件、规范方法以及业务应用等多个层面上的复用。

四、数据库存贮方案设计

1.1 数据各逻辑层级划分。为保证数据中心能提供多层次、多粒度、多特征的数据服务,并保证ETL过程的清晰、可控、完整、准确,数据中心根据数据性质、处理阶段以及数据质量的不同分为原始层、标准层、模型层、数据集市层4个数据层,具体如下:

1.2 数据库系统的硬件架构设计。根据系统分析得出的各项数据,即可得到相应的硬件配置要求。

1.2.1 存储设备容量评估。本节提出的“存储容量规划”将支持过去5年以上的历史数据和未来10年的新增业务数据的存储空间要求。

1.2.1.1 基础数据规模评估。根据调查,某券商2002年以来(至2012年)的历史数据规模可按1.5T计算。

我们以此次配置的存储“满足未来3-4年(从2012年算起)的业务正常运行”、“将考虑未来10年的业务运行的扩展能力”这两个条件来评估,得出的基础数据规模为:

A2015=1.5T+(7G×25%×236)×(1.05+1.1025+1.1576)

约=2.9T

A2022=1.5T+(7G×25%×236)×(1.05+1.1025...+1.05^10)

约=6.8T

注:公式中的25%是增量数据因子。每次进行清洗时,通过一定的方法,将部分非增量数据丢弃(这75%的数据,我们通过比对法发现其与历史数据或存量数据有重复取值,将其载入后暂存待查或去除)的结果。

1.2.1.2 逻辑数据存储规模评估。上节评估出的“基础数据规模(后称A)”,将是本系统进行逻辑数据存储规模(后称B)的依据。原始层数据的规模B1:按最后年度的1倍采集数据量计算。ODS层数据的规模B2:考虑到原始数据被处理后的部分业务数据的重新组织和重定义,且会生成一定的聚集数据,应给予适当的冗余,此处的冗余因子设定为1.2。

EDW层数据的规模B3:考虑ODS数据将经过较大规模的重新组织和聚集处理(初步设计按10大主题进行分析)进入此层,需要考虑较大的冗余度,按业务特点初步设定此处的冗余因子设定为1.2×1.3=1.56。

1.3 备份环境设计。根据证监会的相关要求,系统需要建设本地“备份和应用测试机”环境。但如果我们只是刻板的将“生产环境”克隆一下,将极不经济。我们需要按照应用特点、数据处理要求,来定制备机架构。本地“备份和应用测试机”需兼顾“数据备份和本地容灾”双重职能。

1.4 数据备份需求评估。数据中心的數据必须建立可靠有效的备份机制,避免由于数据丢失。初步规划:将数据中心管理的数据分成3类并分别制定备份策略。这3类数据可以使用用户隔离、表空间隔离相结合的方式,增强备份调度的可操作性。静态数据、配置信息表(/领域表):可以每日备份,并可覆盖性备份,保留最近3日或者5日的备份即可。

参考文献

[1] 汤庸, 叶小平, 汤娜. 数据库理论及应用基础. 北京: 清华大学出版社, 2004

[2] 冯建华,周立柱等编著, 数据库系统设计与原理(第2版). 清华大学出版社, 2007

猜你喜欢

数据库系统
计算机数据库系统在信息管理中的应用
APP在生产经验开放式分享中的应用
基于LCA的产品生命周期数据库系统设计
浅析数据库系统核心课程建设的过程
对分布式数据库系统的安全分析
基于众包的数据库信息查询处理方法
数据库系统在信息管理中的使用
浅谈网站SQL注入攻击防护策略研究
数据库系统在计算机体系结构中的应用
数据库系统在信息管理中的应用