APP下载

数据中台的定位和架构分析

2019-02-08

广东通信技术 2019年12期
关键词:中台数据服务数据仓库

1 数据应用的发展历程回顾

自从人们意识到在生产交易过程中产生的数据具有再应用的价值,与数据再应用的相关概念就层出不穷。基于不同时期的关注焦点,到目前为止大体上经历了(手工)报表、报表系统、数据仓库系统、大数据平台以及最近很热门的数据中台等概念阶段。这些概念虽不在一个维度上,但是他们代表了对应时期数据应用的最大特征,因此我们用这些概念来标识对应阶段,简单回顾一下数据中台概念提出之前的数据应用的发展过程。

(1)(手工)报表:或称静态报表,就是以报表的形式来对数据进行简单的统计和展现。可以是手工计算也可以采用一些简单的报表工具来完成计算,例如EXCEL。这个阶段的最大特点是数据的获取是由人手工从生产交易环境中四处采集获取的;另外因为是分散的纸质或电子报表,报表中的数据一般不会自动存储,不方便再应用。这种形式在某些极小型的企业或机构还在使用,其解决的是方便数据统计和展现问题,表和表之间的数据是垂直分隔的。

(2)报表系统:就是通过一个计算机应用程序将常用的报表固化并按周期自动生成。报表系统可以独立存在,但更多的是作为一个大的系统的一个应用模块。相比较(手工)报表,报表系统的一个显著技术特征是引入了数据库管理系统(DBMS)技术,通过DBMS来管理存储数据,通过报表工具生成所需的表格和图形,同时也支持一些即时(ad-hoc)查询,通常得到的是统计数据,数据大小有限。报表系统解决了周期性报表的自动生成问题,但采用的是和生产系统相同的关系型数据库,支持的是以产品或业务为核心的企业经营模式。这种架构由于数据是垂直向上的,常出现不同部门的统计口径完全不同的状况。同时由于技术的限制,对比较细颗粒度的数据查询的支持性不是很好。在报表系统的后期出现了分析型系统的概念,用于企业的经营分析,该系统逐渐和生产系统剥离。成为一个独立的系统架构,如图1所示。

图1 报表系统架构示意图

(3)数据仓库系统:随着企业信息化进程的推进,企业的业务系统越来越多,产生的数据也越来越多;同时企业的经营思路也从以产品为中心向以客户为中心转移。经营模式的改变要求企业的经营决策建立在客户的全视图基础上,而客户的数据分散在各个独立的系统中,按照垂直业务来组织数据报表或分析系统无法支持企业的经营理念的转变,数据仓库系统应运而生。简单地说,所谓数据仓库就是按照主题汇集的数据集合,数据仓库解决的核心问题是如何将数据按照主题进行组织并有效地支持各种商业智能应用,我们可以认为从数据仓库系统开始才真正意义上对数据进行了有组织的规划和应用:根据数据的应用需求,按照客户等主题将来自于业务系统的数据进行有机的组成。为了实现这种需求,数据抽取、转换和加载(ETL)成为数据仓库系统的关键环节和关键技术,同时数据仓库极大地拓展了数据的业务价值和应用范围,在数据仓库基础上的各种商业智能(BI)工具也因此获得很大的发展。数据仓库的架构打破了数据垂直向上的烟囱结构,解决了部分统计口径不同带来数据不一致的问题。同时数据仓库系统采用了能更好的插入和查询大数据量的分析型数据库管理系统,星型结构的数据模型和多维分析成为数据仓库的最主要特征,在实际应用过程中,多层多颗粒的数据架构成为一种典型结构,“宽表”成为一个约定成俗的称呼。在这个阶段,元数据管理也被提出,如图2所示。

图2 数据仓库架构图

(4)(大)数据平台:互联网尤其是消费型互联网的发展带来数据形式发生了根本变化,数据呈现出3V特性(数量巨大、形式多样、快速增长),文本、音频和视频成为主流,结构化数据只是一种类型而已,数据部门最迫切需要解决的问题是如何处理这些多元化的海量数据。传统的面向结构化数据的数据库管理模式已经不适应多形式的数据管理需求,一种适应于大规模数据处理的分布式计算处理技术得到了广泛应用;同时,与数据仓库不同的是,数据的获取和组织不一定严格依据分析需求,大数据平台所起的最主要的作用就是将结构的和非结构的数据纳入管理,并进行处理;当业务有需求的时候,再把需要数据单独提取出来,以数据集的形式提供给应用。大数据平台出现伊始,数据业界就开始不断地讨论大数据平台的应用问题,图3是一个面向电信行业的大数据平台设计架构示例,我们可以看到,除了根据用户的需求提供定制化应用外,还希望将数据能力化封装开放给第三方使用。对于前者,基本还是采用数据仓库的应用模式,对于后者,开放的思路主要体现在3种模式上,包括数据即服务(DAAS)、平台即服务(PAAS)和软件即服务(SAAS),如图4所示。虽然在机器学习和深度学习的加持下,对大数据平台的数据需求很旺盛,即DAAS有其市场需求,但是由于数据的敏感性、归属的争议性、应用的伦理性问题都有待解决,在实际应用中,数据的对外服务提供是非常谨慎的;大数据平台由于自身技术(主要面向海量数据的处理)的原因,在其基础上提供PAAS服务和SAAS服务的难度比较大,开发成本高,开发周期长,因此大数据平台逐渐演化成一个数据处理和纯数据提供平台。

图3 大数据平台架构

图4 大数据平台应用模式

纵观数据的发展历程,我们一直在寻找一种有效地应用数据,将数据价值最大化的解决方案。每个企业分别在用不同的方式来尽可能地利用数据产生价值,同时处理数据带来的各种问题。在本质上,数据解决方案就是如何根据业务需要进行数据治理和数据提供,而每一种方案都会囿于我们所要面对的数据世界的特点、业务发展的要求、技术手段的支持和数据价值的认识。从发展脉络也可以看到,当数据来源与数据应用的范围越广,数据和业务的结合度越高,处理要求就越高,就越需要一个强有力的数据架构的支持。

2 数据中台的提出和定位

随着物联网和AI技术的发展,我们面对的是一个越来越数字化的世界,无论是商业服务还是工业制造。按照大数法则,随着数字化进程的不断推进,当被记录的数据趋向无限时,数据勾勒出的世界将与现实世界趋同。未来的数据理想是我们将不是和实体世界交互,而是和一个数字世界交互。映射在企业业务中,就是一切都是数据。虽然这种数据理想似乎还有些距离,但是这种数据价值观已经获得了高度的认同。因为数据和业务的关系已经悄然发生了改变:数据不再是业务的附属产物,数据和业务已经逐步融合在一起,甚至成为业务创新的驱动力量。

一直以来,都是先有业务,后有数据,先有应用系统,后有数据系统,数据系统一直遵照着这样一种流程:把生产系统中产生的数据周期性或者准实时地抽取出来,然后通过处理转换加载到数据系统中,通过BI工具实现分析和决策支持。生产环境和分析环境是相对隔离的,我们把前者产生的数据叫做操作型数据,把后者叫做分析性数据。但是现在不同了,可能在生产或交易过程中就需要经过大数据处理或者AI处理的数据结果,例如在完成用户订单过程中我们需要向用户智能推荐,需要实时价格策略,在完成支付过程中需要风险管控等等。尤其是物联网的兴起,应用大都建立在数据的基础上,例如对机器的控制来自于机器的实时状态。这些变化使得数据开发和数据应用的需求也发生了改变,主要表现在:

(1)跨域数据的共享需求越来越普遍和广泛。无论是业务型应用还是分析型应用,不再是只需要单一的业务数据,更多的需求建立在跨域的数据基础上。同时也可以观察到,不同业务的数据需求的差异可能只是维度或颗粒度的略不同,很多甚至可能是相同的。

(2)数据响应的要求越来越高。这种响应有两个方面,一是越来越多的应用需要实时数据的支持,一是数据的开发过程需要满足业务开发的敏捷性要求。随着业务由流程驱动逐步向数据驱动转变,例如物联网应用,数据会越来越多地参与到业务实现中,业务的实时性和不断的创新变化需要一种新的数据架构以弥补响应力滞后的问题。

(3)在数据驱动型业务中,数据不再是被动地被需要。企业需要不断地通过数据挖掘业务价值实现业务创新,例如通过数据开发使业务更智能,数据成为像原材料一样重要的资产,数据开发和应用需要满足价值探索的能力需求。这对数据团队的业务理解和数据开发能力提出更高的要求。

为了适应上述的需求,一种新的数据思路逐渐被提了出来:以数据资产化为导向进行数据治理,以共享数据服务的方式实现数据共享,通过构建中间平台,打通业务和数据环节,减少冗余,增加复用,快速响应用户需求,实现数据驱动业务创新。

随着这种数据思路的逐渐深化,数据中台概念开始萌芽。阿里在《企业IT转型之道:阿里巴巴中台战略思想与架构实践》提出中台战略后,数据中台的概念轮廓逐渐清晰化。时至近两年,数据中台俨然成为最热门的讨论点之一,方案产品蜂拥而出。数据中台概念从思维层面过渡到技术实现层面。不同的企业由于自身的业务特性和需求的差异,在具体落地上,有着不同的导向和具体定位,其中具有代表性的有如下3种:

(1)以全域数据共享为导向:数据中台以全域数据建设为中心,技术上覆盖了从数据采集、计算加工到数据服务、数据应用等数据链路上的每一个环节,以此为生态内外的业务、企业、用户提供全链路、全渠道的数据服务。以阿里为例,其生态体系内业务线众多、数据能力又参差不齐,所以要实现数据驱动业务,让数据发挥更大价值的最终目标首先必须解决全域数据管理和全面提升数据能力问题。经过几年的实践,阿里形成了一个四横三纵的数据中台架构,管理和运维最核心的基础数据,以数据生态组件,构成核心数据能力复用,降本提效;通过技术赋能、数据连接和数据赋能,迅速的提升数据应用的迭代能力。

(2)以快速数据响应为导向:数据中台的建设以如何简单快速地使用数据为中心,通过数据技术和计算能力复用以及数据资产和数据服务复用,为业务提供自助化、实时化、统一化、服务化、管理化、可溯化的数据服务。以滴滴为例,滴滴的业务是建立在快速响应海量的数据请求基础上的,面对这种多场景、全链路的业务需求以及多团队、多目标的协作需求,滴滴构建了以快速数据交付为目标,以精益数据生产、智能数据目录和敏捷数据治理、敏捷数据创新为支撑的数据中台,实现业务-运维-数据协同,一键埋点,用户行为轨迹全记录,数据采集秒级同步,数据链路全监控,自动定位关键节点等能力,并以交互式查询接口、数据地图、数据图谱、数据API等方式提供标准化数据服务和实时数据集成服务。

(3)以业务价值创新为导向:数据中台以实现数据驱动的业务创新为目标。其建设以便于数据的业务价值挖掘和呈现为中心。数据中台定位为数据资产化管理和数据价值转化的承载平台,通过聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值。例如ThoughtWorks提出的精益创新数据体系,将数据中台定位为数据服务加工厂,并定义了数据中台的五大核心能力:数据资产的规划和治理、数据资产的采集、获取和存储、数据资产的共享和协作、数据业务价值的探索和分析、数据服务的构建和治理、数据服务的度量和运营,通过这些能力保证数据质量和一致性,加速从数据到价值的服务产生过程,打造高响应力且更加智慧的业务。

表面上看,似乎数据中台有着不同的表述,但其最终的目标是一致的,就是实现数据驱动的业务创新,从数据维度出发会发现虽然有侧重点,但是核心环节具有共性,这种共性来自于数据发展的普遍特性以及数据部门面对的共性问题:治理、共享和服务。

3 数据中台的参考架构

如上所述,数据中台在具体实施时,不同业务特点的企业会有不同的业务诉求重点和实施路径,因此在技术维度上,每个企业不可能有完全相同的数据中台实施架构,数据中台不适合用某种特定特征或某项数据技术来做概念界定。但如果从数据维度出发,可以把数据中台看作是一种数据解决方案,这种解决方案能够适应物联网和AI时代下的数据发展特性,解决企业数据共享和数据治理问题,满足多元业务下不同应用场景数据重用效率和数据创新业务需求,是企业在数据思维指引下实现数据业务价值的数据体系,包括数据域、资产域和服务域三大协作集合,如图5所示。

图5 数据中台参考架构

其中

(1)数据域:实现数据全量化组织的协作集合,即将企业全量数据从物联设备、业务系统、第3方服务平台、其他开发平台等采集、汇聚、实时或周期加载接入,按照业务价值要求和服务转化要求进行按需计算、主题化处理和高效存放。数据的类型包括结构化的,也包括文本、图像、视频、音频等非结构化的。根据数据的来源和用处,可能会采用传统数据仓库、分布式文件系统、分布式关系数据库、分布式NOSQL、时序数据库等数据存储和管理模式。计算的模式包括批量离线计算、内存计算、在线流式计算、ML/DL训练等。

(2)资产域:实现数据资产化治理的协作集合。一个数据如果没有任何的说明,是不具有业务价值内涵的,同时一个企业的数据要能够实现共享并充分发挥价值,很重要的一个前提条件就是这个企业的数据必须是统一的并对整个企业开放。因此,不仅需要定义数据的大小、类型、颗粒、周期,每一种数据的来源、经过的处理过程、使用规则、用途、和其他数据的关联性等,还需要将数据和业务价值对应起来,从业务层面出发制定数据标准,形成业务驱动的数据图谱和行业协作的知识沉淀。除此之外,还应包括支持多种数据实体的统一搜索、基于数据价值或热度的综合排序等能力便于快速定位所需数据。数据的资产化治理的内容涵盖很广,涉及和数据的使用相关的业务、数据和服务的全面管理,是数据体系中最困难和最耗时同时最关键的部分,其直接决定了数据价值转换的能力。越来越多的技术手段和工具应用于数据的资产治理,包括AI。图中列举了当前最主要的几个协作模块,例如类目、标签、模型,标准、质量、安全以及全生命周期管理等

(3)服务域:实现数据服务化交付的协作集合,包括数据服务的开发和交付。通过API的方式提供数据服务,而不是直接把数据库给前台、让前台自行使用是数据中台有别于数据仓库等数据架构的一个主要特性。其强调的是机器与机器的接口,例如将数据计算分析出来的结果,不仅仅以报表等可视化形式让人看,而更多的是以API形式将数据服务直接地嵌入到交易系统里面,变成业务功能或能力,例如价格策略、推荐引擎、风险管控、机器控制、智能识别等。这种将数据以服务的形式交付不仅保护了数据的隐私,维护了数据的安全,而且回避了数据的敏感性、归属的争议性、应用的伦理性等问题带来的对数据的限制性使用。除了数据,资产治理能力也是服务的一种重要内容,数据服务的开发能力直接影响数据价值的转化,在AI技术的加持下,在业务智能和业务创新需求的推动下,数据智能服务的开发将越来越主流。

4 数据中台的实施探讨

我们知道,数据实施一直强调整体规划、分步实施的原则, 这是由数据的全局价值性和实施复杂性决定的,这个原则对于数据中台的建设同样适用:面向业务全景制定数据中台的整体规划,包括数据、资产和服务以及对应的技术选型,梳理探索数据创新业务场景,从具体的业务场景出发,从可实现性高的小场景落地入手,逐步完成业务和数据的沉淀。

虽然不同的企业应采用适合于自己的实施模式,但是基于数据中台和业务的强关联共性,如驱动业务价值创新、提供更高的业务响应力等,在数据中台具体落地过程中,数据团队不可避免地会遇到两个共性问题:数据模型设计、数据资产治理和业务优化的协同问题和团队的业务能力和工程能力的协同问题。这些问题因其会带来组织架构的调整,进而影响企业的全局,已经引起了高度重视,在此做一简单探讨。

随着新的业务场景、新的数据需求进入数据中台,必然会对依据前一个业务场景构建的数据模型和资产模型提出修正。同时随着数据的不断规范,也会带来原有业务本身的优化调整,从而影响模型的稳定性。因此,需要根据全景规划对包括数据、资产和服务的各种模型和规则进行统一维护更新,否则会导致其他新的类似数据模型产生,形成新的数据孤岛。为此,一个具备全局业务视角的整体设计和维护团队显得非常重要。

另外,数据中台出现以前,数据是为分析服务的,业务人员和数据人员的工作界限相对清晰的和独立;而数据中台是为业务价值服务的,是用更高效、更协同的方式实现数据到业务的价值转换,提供数据实时响应能力。因此对传统的数据人员的业务能力和对传统业务人员的工程能力提出了更高的要求的同时,更需要两种能力协同工作。

这些都对企业的组织架构及机制提出了顺势而变的需求。2019年,在数据中台的牵引下,一场组织变革的风暴席卷了阿里、腾讯、百度、京东等国内互联网公司,在未来的转型计划中,都把数据中台作为企业组织架构调整的核心方向。但是否所有的企业都要如此照搬呢?笔者认为需要进一步探讨。

5 总结

随着技术和业务的发展,数据在企业中的价值越来越高,对业务的服务也逐渐从被动的、碎片的、间接的向主动的、共享的、直接的演变,不同阶段的数据架构的演变过程正是适应了这种变化的需求。因此数据中台并不是一个特殊的概念,也不是一个终极解决方案,只是数据在演变过程中的一个阶段,未来当有新的数据形式出现,新的技术手段引入,新的数据架构也将会同步产生。和之前的数据架构相比,数据中台借助于中台概念,通过更多的技术手段驱动数据资产化和数据共享,通过数据提供方式的革新构建了一个更强有力的数据基础。但其演变同样具有延续性,从报表系统到数据仓库到大数据平台到数据中台,前一阶段的核心元素在下一阶段的架构中并没有消失,而是成为一个更优化的组件以适应新增加的组件,适应新的业务要求。这种延续性来自于贯穿始终的数据思维,即数据是企业的资产,是创新业务价值的源泉,是差异化竞争优势所在。

猜你喜欢

中台数据服务数据仓库
地理空间大数据服务自然资源调查监测的方向分析
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
基于数据中台的数据服务建设规范研究
基于数据仓库的数据倾斜解决方案研究
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
基于数据仓库的住房城乡建设信息系统整合研究
如何运用税收大数据服务供给侧结构性改革
探析电力系统调度中数据仓库技术的应用