APP下载

基于Pentaho的中药饮片企业商业智能研究

2014-09-01崔有文周金海

电子设计工程 2014年7期
关键词:商业智能数据仓库立方体

崔有文, 周金海

(南京中医药大学 信息技术学院,江苏 南京 210023)

基于Pentaho的中药饮片企业商业智能研究

崔有文, 周金海

(南京中医药大学 信息技术学院,江苏 南京 210023)

将中药饮片企业ERP、质量标准生产执行系统(QSMES)等业务系统与商业智能平台集成,构建基于Pentaho的商业智能解决方案,实现对企业内外部的海量数据进行深度地剖析,为中药饮片企业提供决策支持.本文基于Pentaho的商业智能解决方案构建了面向中药饮片企业的数据仓库,实现了数据的多维查询.Pentaho商业智能的关键技术推广应用于中药饮片企业,将能有效地提升企业决策水平.

中药饮片企业;商业智能;Pentaho;数据仓库;联机分析处理

在企业信息化的进程中,中药饮片企业相继建立了独立的业务系统,如ERP、中药饮片质量标准生产执行系统(QSMES)等,积累了大量的业务数据和信息资源,然而各业务系统中的数据常常会出现彼此独立甚至矛盾等情况,如何充分有效地利用企业的这些信息资源来实现战略目标,已成为中药饮片企业面临的崭新课题.因此引入商业智能的关键技术帮助中药饮片企业制定适合于企业自身的解决方案,成为了提升了中药饮片企业信息化应用水平的必然之选.

商业智能(Business Intelligence, BI)是一套完整的解决方案,它将数据仓库、联机分析处理、数据挖掘等技术结合起来,通过企业信息门户将知识以适当的方式进行展示,以实现技术服务于决策的目的[1].传统的BI项目投入费用高,实施周期长,短期内管理者很难看到这类项目的业务价值,且不少传统BI项目的应用价值仅仅停留在固定报表生成层面.而开源的Pentaho BI实施费用低,维护成本低,管理者能够迅速启动BI项目的实施工作,实施周期可以灵活控制,且Pentaho易于融入到传统的OLTP应用中.基于Pentaho的商业智能能够充分利用中药饮片企业各类的业务系统,从业务系统的数据源中抽取需要的数据,通过对这些基础数据的转换处理,实现商业信息的搜集、管理和分析,为企业决策者提供全面、准确和直观的决策支持.

1 Pentaho BI平台

Pentaho平台是第一个以业务流程为中心,面向解决方案的BI平台,整合了BI系统的开发,部署和运行环境.它强化了BI应用,借助工作流技术,将决策作为业务的一个环节,实现与企业业务过程整合的概念[2].

Pentaho的功能强大,对BI的功能全面支持,包括数据仓库,ETL,OLAP,数据挖掘等技术;提供流程设计,报表生成,测试和部署的集成开发环境;易与其他开源软件整合,源码公开,有利于功能定制开发[3].

Pentaho平台主要由以下几个部分组成,各部分来自各个开源项目,Pentaho平台对这些开源项目进行改进、扩充和集成:

1)ETL:Kettle[4]是和Pentaho整合的开源ETL工具, Kettle通过制定作业(job)以及转换(transformation)实现对数据的抽取、转换以及加载,Kettle的ETL引擎是异构数据源整合以及执行job和transformation的核心,且可以运行在不同的服务器以及集群服务器上.

2)报表设计:Pentaho平台支持多种开源报表设计,包括即席查询(Ad Hoc Query)报表设计、JFreeReport设计以及BIRT报表设计.

3)OLAP:Mondrian是Pentaho平台进行联机分析处理的引擎,可将多维模型的MDX(multi-dimensional expressions)查询解析成SQL查询.分析人员可以不写代码直接对数据仓库中的数据进行可视化交互分析.

4)数据挖掘:Weka是Pentaho的数据挖掘平台,集合大量能够承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化.

2 基于Pentaho的中药饮片企业BI设计

2.1 中药饮片企业BI平台体系结构

在中药饮片企业ERP系统、质量标准生产执行系统等基础上构建Pentaho BI平台来实现系统集成,使企业各业务系统有一个合理、严格的流程控制,有效地完成日常的业务作业,产生大量准确的基础数据,同时可以将这些操作型数据转换成分析型数据,并通过对分析型数据进一步的分析、提炼,筛选出决策信息,辅助中药饮片企业决策者做出正确的决策,促进中药饮片企业对信息的深度利用.

基于Pentaho的中药饮片企业BI平台体系结构主要由企业的各业务系统、业务数据库、数据转换工具、数据仓库、OLAP分析工具、数据挖掘工具、报表分析工具以及分析结果的可视化展示组成如图1所示.

如图1所示,用户根据业务需求构建多维数据模型,设计数据仓库结构框架.通过ETL工具将各业务系统中的海量数据转换为分析型数据,加载至数据仓库中.利用OLAP和数据挖掘技术对数据仓库中的数据进行分析处理.分析和处理的结果可以直接提供给用户,也可以形成决策知识库,并通过报表等可视化方式直观地展现给用户.

图1 中药饮片企业BI平台体系结构图Fig. 1 Structure diagram of Chinese medicine enterprise BI platform

2.2 数据仓库设计

数据仓库是面向主题的、集成的、稳定的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程[5],数据仓库模型设计结构的实现有星型模型、雪花模型和混合模型,本文研究采用的数据仓库模型为星型模型,该模型主要事由事实表以及与其相关的维度表构成,可以优化数据仓库的查询时间,提高查询性能.

1)主题域的确定

主题是在较高层次上将企业信息系统中的数据进行综合归类的标准,数据仓库中的数据是按照主题进行组织的.从中药饮片企业的实际业务运作情况看,可以将主题域确定为:中药饮片生产、中药饮片销售、原料采购、原料和饮片成品库存等主题.各主题主要信息描述如表1所示.

表1 主题信息描述表Tab.1 Description table of theme information

2)数据仓库各主题域维度及事实的确定

数据仓库中每个主题域对应的实体分成事实实体和维度实体,事实实体通过每一维的关键字与维度实体联系在一起.本文根据主题域的设计,构建了中药饮片生产事实表、中药饮片销售事实表、原料采购事实表和库存事实表,依据主题域的属性构建了与事实表关联的维度表.数据仓库各事实表和维度表的详细信息如表2所示.

3)Kettle的ETL处理

设计好数据仓库之后,需要将中药饮片企业各业务系统中的数据按照设计好的主题域加载至数据仓库中形成分析型数据.这一过程基于Kettle的ETL处理.首先,制定对各主题域数据操作的Job(作业).Job[6]是基于工作流模型的,协调数据源、执行过程和相关依赖性的ETL活动,图2为数据仓库构建的Job(作业)流程图.

表2 事实与维度信息描述表Tab.2 Description table of fact and dimension information

图2 数据仓库构建Job流程图Fig. 2 Flow diagram of data warehouse job

制定完作业流程,还需要进一步对每个主题域进行Transformation(转换)操作,Transformation[6]是由一系列step(步骤)组成的逻辑工作网络,它负责对分散在不同数据源中的数据进行抽取、转换、加载处理.图3为销售主题域数据的转换图.

图3 销售数据Transformation流程图Fig. 3 Flow diagram of sale data transformation

通过以上的作业(Job)和转换(Transformation)操作,可以快速、准确地将中药饮片企业各业务系统的操作型数据转换为分析型数据并存储至数据仓库中.

2.3 OLAP分析

OLAP是面向主题的多维数据分析技术,帮助管理者从多个角度观察数据,从不同的主题分析数据,最终直观地得到有效的信息.在一个OLAP数据模型中,信息被抽象视为一个立方体(Cube),它包括维(Dimension)和度量(Measure).这个多维的数据模型使终端用户提交的复杂查询、报表数据的分类排列、概要数据向详细数据的转化和过滤、数据的切片等工作变得简单[7].

1)数据立方体的建立

数据立方体或数据超立方体是联机分析处理数据组织的基本单元.一个数据立方体主要是由主题域所确定的事实和维度所组成,其包含若干个单元格.以中药饮片企业销售主题域为例,销售数据立方体包含中药饮片成品、销售客户、日期3个维度以及销售事实.如图4所示.

图4 中药饮片成品销售数据立方体Fig. 4 Cube of Chinese Medicine sale data

Pentaho的Mondrian提供了OLAP服务,数据立方体用Mondrian XML schema描述, schema是将MDX查询转换为SQL查询的关键.Mondrian通过对schema的解析,操纵数据集,完成OLAP分析任务.销售数据立方体模型对应的简化了的schema如下:

各主题域数据立方体所对应的schema是由Pentaho schema 设计器完成,生成的schema可以直接发布至Mondrian服务器上进行OLAP分析.

2)多维分析

Saiku是一个模块化的进行联机分析处理的分析套件,基于JackRabbit的工作区管理,通过JSON或XML进行数据通信,提供了一个基于jQuery的开发前台,对于多维的数据立方体能够实现拖拽式分析.Saiku可以方便地集成到Pentaho平台中.

在嵌入了Saiku的Pentaho平台下,用户选择好由Pentaho schema 设计器所制定的数据立方体,即可以对基于主题域的数据立方体进行拖拽式的多维分析处理.中药饮片成品销售数据的多维查询结果如图5所示.

图5 中药饮片成品销售数据多维查询图Fig. 5 Diagram of Chinese medicine sale data multi-dimension query

通过对中药饮片成品的时间、客户和产品的多维分析,可以得出不同时间段、针对不同客户所销售各种中药饮片成品的一般性结论.随着中药饮片企业各业务数据的积累,这种多维分析还将发现更多隐含的信息,可以帮助企业决策获得更好的支持.

3 结束语

中药饮片企业在生产、销售等各项业务进程中均会产生海量的业务数据,传统的业务系统无法对基础数据进行有效的分析,导致大量对企业决策有用的信息流失.基于Pentaho的商业智能解决方案可以将独立于各自业务系统中的数据有效地整合起来,通过对企业ERP系统、质量标准生产执行系统(QSMES)等业务系统的基础数据进行抽取、转换、加载处理,最终形成分析型数据,从中提炼出决策信息.于此同时,传统的商业智能实施起来成本高,周期长,很难在短期内实现其业务价值,而开源的Pentaho BI 平台不仅大大减少了商业智能的开发成本,还能够使决策者快速、及时、准确、直观地了解到隐藏在企业各项运营业务中的决策信息,实现中药饮片企业对信息的深度利用,提升决策水平.

[1] 郑洪源,周良. 商业智能解决方案的研究与应用[J].计算机应用研究,2005(9):92-94. ZHENG Hong-yuan, ZHOU Liang.Research and Application of Business Intelligence Scheme[J].Application Research of Computers,2005(9):92-94.

[2] Pentaho Corporation. Pentaho open source business intelligence platform technical white paper [EB/OL].http://www.pentaho. com/,2006.

[3] 陈荣鑫,付永钢,陈维斌. 基于Pentaho的商业智能系统[J].计算机工程与设计,2008(9):2407-2409. CHEN Rong-xin,FU Yong-gang,CHEN Wei-bin.Business intelligence system based on Pentaho[J].Computer Engineering and Design, 2008(9):2407-2409.

[4] Pentaho Corporation. Kettle conceptual model [EB/OL]. http:// www.pentaho.com/,2006.

[5] 颜石专,李战怀. 基于数据仓库和OLAP的商务决策系统[J].微电子学与计算机,2006(2):64-67. YAN Shi-zhuan, LI Zhan-huai. Commercial Decision System Based on Data Warehouse and OLAP[J]. Microelectronics & Computer, 2006(2):64-67.

[6] Matt Casters, Roland Bouman, Jos Van Dongen. Pentaho Kettle Solutions: Building Open Source Etl Solution with Pentaho Data Integration[M].JOHN WILEY & SONS INC,2010.

[7] 喻钢,周定康. 联机分析处理(OLAP)技术的研究[J].计算机应用,2001(11):80-81,84. YU Gang,ZHOU DIN-kang.Research of OLAP technology[J]. Computer Applications, 2001(11):80-81,84.

Research on Chinese medicine enterprise business intelligence based on Pentaho

CUI You-wen, ZHOU Jin-hai
(Institute of Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023, China)

Integrating Chinese Medicine enterprise business system such as ERP, QSMES with the Business Intelligence platform and structuring the Business Intelligence solution based on Pentaho to analyze the enterprise big data and provide the support to the decision maker. Based on Pentaho BI solution, this paper attempts to build the data warehouse about the Chinese Medicine enterprise and execute multidimensional queries. Application of the critical technology of Pentaho BI to Chinese Medicine enterprise will improve their decision-making effectively.

chinese medicine enterprise; business intelligence; pentaho; data warehouse; OLAP

TN-9

A

1674-6236(2014)07-0012-04

2013-09-05稿件编号:201309034

江苏省科技支撑项目(工业部分)(BE2011012)

崔有文(1990-),男,江苏仪征人,硕士研究生.研究方向:医药信息工程.

猜你喜欢

商业智能数据仓库立方体
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
内克尔立方体里的瓢虫
什么是商业智能?它的定义和解决方案
图形前线
关于实时商业智能的文献综述
探析电力系统调度中数据仓库技术的应用
立方体星交会对接和空间飞行演示
折纸
广东省高速公路联网综合信息商业智能系统