APP下载

数据中台在应对突发公共事件中的核心价值研究

2021-01-26张弛

关键词:中台舆情政务

□张弛

一、引言

中台是一种管理体系架构,在政府、企业、军队等领域被广泛运用。 “在中国古代东汉时期,尚书台成为政府的中枢,号称中台”[1],这里的中台就是政府运行体系和组织架构。 美军的军事作战体系中,在前方和后方之间搭建一个“中台炮火群”[2],这里的中台就是一种连接前后方的中间件架构。 在企业管理中,芬兰的超级细胞(Supercell)公司最早采用“部落”中台架构进行经营,2015 年,阿里巴巴受此启发,正式启动“大中台,小前台”的中台战略,中台迅速成为大数据时代企业“业务数据化、数据业务化”的智能化运行体系和组织架构[3]。 中国最早将中台运用到现代政府管理中的是上海浦东新区,其在2003 年就提出“前、中、后台”政务建设模式[4],但因2012 年才称为“大数据元年”[5],所以浦东新区的中台主要是电子政务框架体系的业务技术中台,类似现在的政务中心,不是基于大数据的数据中台。

数据中台是伴随着大数据出现的,其构建理念是将大数据“用起来”,即通过大数据向管理赋能,通过数据中台将大数据变成实际“可用”的东西,从这个意义上说,数据中台是大数据运用的平台化、具体化、实践化。 数据中台的功能理念是将大数据“统起来”,即通过数据中台打通“数据孤岛”和“数据烟囱”分立的IT(iformation technology,信息技术)架构,构建数据共享的统一的DT(tata technology,数据技术)架构[6]。 数据中台的定位理念是将大数据“连起来”,即通过数据中台将前台与后台有机地连接起来,有效解决数据与管理业务的脱节问题。 数据是21 世纪最有价值的资产,但没有“用起来”“管起来”“连起来”的数据就像散落埋藏在沙海里的珍珠一样,是无法显示其巨大价值的。

二、数据政务中台是数字政府的2.0 进阶

中台架构一般包括技术中台、数据中台、业务中台三个子架构,其中,数据中台是中台体系的基础和核心。 政务数据中台的架构是在One Data 体系下构建三个模块,即One ID 模块、One Model 模块、One Service 模块。 三个模块的功能是进行数据汇聚、数据萃取、数据存储、数据加工、数据资产管理、数据查询、数据交换、数据共享、数据服务等全域性数据管理(图1)。 数据中台架构并非是将现有的IT 架构推倒重来,也不是信息系统的重复建设,数据中台是要打通原来“烟囱”式的信息系统的连接路链,构建一个全域性的系统完整的数据智能运行回环[7]。 从数据中台的全域性和全路链特征来看,中台不是一般意义上的平台,数据中台是要将分立的平台“连起来”,将分散的数据“统起来”,将可用的数据“用起来”,让大数据价值真正地为政务服务赋能。

图1 政务中台与数据中台关系图

数据中台有两大应用场景,一是商务,二是政务。 商务数据中台也称为企业数据中台,被喻为数字企业2.0。 目前我国企业界特别是头部企业已经在大力实施“数据中台战略”[8]。 政务数据中台被喻为数字政府2.0,即在初步完成数字政府1.0 建设基础上的2.0 进阶。 2020 年9 月17 日,阿里政务数据中台事业部正式发布政务数据中台2.0“1+4PaaS+N”体系,即1 套数据体系、4 层能力平台、赋能N 种业务场景。 数字政府1.0 的特征是建立相对完整的政务信息框架,初步构建基于政务云的信息服务架构体系,实现政务服务的网络化、在线化和移动化,提升政务办事效率,减少群众路途往返的频次。 毋庸讳言,数字政府1.0 普遍存在着广为诟病的互联互通难、业务协同难、数据共享难的“三难”问题。 数字政府2.0 区别于数字政府1.0 之处在于将传统的信息化集成转变为智能化赋能,通过数据中台提升政府整体智治能力,打破“数据孤岛”,消除“数据烟囱”,将政务服务的网络化、在线化和移动化升级进阶为基于大数据和云计算的标准化、自动化、智能化,实现网络通、数据通、业务通的“三通”[9]。

数据政务中台的目标是打造“三融、五跨、全融合”的政务服务新体系,实现“业务融合、技术融合、数据融合”的无差别融合受理,以及实现“跨层级、跨地域、跨系统、跨部门、跨业务”的全域性和全路链服务。 随着数据政务中台的推广运行,浙江省目前正在发生着一场“大中台,小前台”的政务服务大厅“瘦身”的场景革命。 以杭州富阳政务服务中心为例,目前窗口精简率达36%,大厅人流量下降47%,线上受理率高达81%。 运用数据政务中台技术,实现事项网上办、掌上办、自助办、“一件事”联办、无感智办、就近办。

构建数据中台、助推实现数字“三通”,有利于全面提升政务数据化能力,特别是数据化决策能力、数据化服务能力和数据化应急能力。 其中,数字化应急能力是政府治理能力的重要体现。

突发公共事件应急能力提升是一个动态过程,需要随着时代发展不断与时俱进。 突发公共事件一般分为自然灾害、社会治安、事故灾难、公共卫生事件等几种类型,都具有突发性、破坏性、随机性、非确定性、扩散性、衍生性、传播性、社会性、非传统性等特点。 面对突如其来的错综复杂的灾难,仅靠传统的经验式应急管理显然难以有效应对,如同样是突发公共卫生事件,2003 年的“非典”前所未见,但防控COVID-19 新型冠状病毒肺炎(简称新冠肺炎)显然不能完全照搬“非典”的经验,新冠肺炎的无症状感染者的隐蔽传染性也是史无前例的,必须有更具针对性的措施来防控,而大数据就是实施更科学、更精准防控的技术手段之一。

应对突发公共事件最能够检验政务应急能力,也最能暴露政务应急能力方面的短板。 习近平总书记在“统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议”上的讲话和《在湖北省考察新冠肺炎疫情防控工作时的讲话》都强调:要针对这次应对疫情中暴露出的明显短板,总结经验、吸取教训,提高应对突发重大公共卫生事件的能力和水平[10]。 认真研究应对突发公共事件过程中暴露出来的“明显短板”,笔者认为地方政府缺少数据中台来统筹整合并及时提供防控数据是应急管理的“明显短板”之一。

现阶段我国很多地方应对突发公共事件还缺少跨地区、跨平台、跨部门协同共享的统一数据平台,数据处理还处于IT 时代依靠系统初步筛选、人工二次筛选的分步式阶段和水平[11]。 2003 年“非典”事件之后,我国逐步建立健全了“分类管理、分级负责、条块结合、属地管理”的应急管理体制[12]。 进入大数据时代,分类、分级、条块、属地应急管理都需要构建数据中台来统一实现数据汇聚、数据存储、数据计算、数据共享和数据服务。 因此,作为对抗击新冠肺炎疫情的反思和补短板措施,构建数据中台以提升地方政府应对突发公共事件的能力和水平是当务之急。 数据中台应对突发公共事件的价值表现在很多方面,其核心价值主要有三个:一是预警价值,二是数据协同治理价值,三是网络舆情治理价值。(图2)挖掘并运用数据中台的这些核心价值,对有效应对突发公共事件具有重要意义。

图2 数据中台应对突发公共事件赋能图

三、数据中台在应对突发公共事件中的预警价值

《中华人民共和国突发事件应对法》明确规定,“突发事件应对工作实行预防为主、防治结合的原则”,并规定了四级预警级别,分别用红、橙、黄、蓝四色标识[13]。 预防和预警既是一种责任意识,也是一种制度安排;既是一种法律规制,也是一种技术手段。 在大数据条件下,构建数据中台对突发公共事件进行预警既具有理论基础,又具有技术条件。

1.数据中台预警突发事件的大数据原理

大数据预测是大数据的核心价值,是大数据不同于以往科学方法的本质区别所在,这已成为大数据理论研究和实际应用中的共识。 大数据预测是基于三个大数据原理和三对思维范畴。 三个大数据原理即第四范式原理、全数据原理、相关性原理。 三对大数据思维范畴即可能与现实范畴、必然与偶然范畴、原因与结果范畴[14]。

(1)大数据第四范式是指继实验型第一范式、理论型第二范式、计算型第三范式之后的第四种科学范式。 前三种范式的共同特点是通过已知探索发现规律,而第四范式的特点是通过未知探索发现规律[15]。 因此,第四范式研究问题的出发点是没有预设模型,这种对“未知”随机性的捕捉正是把握突发公共事件的不确定性并实现早期预警的最有效方法。

(2)大数据的全数据原理是指“部分=总体”的数据整体性模式。 数据整体性在大数据技术产生以前很难实现,大数据的指向性就是数据整体性获得。 全数据强调不能出现数据遗漏,这一点对于预警新冠肺炎疫情至关重要,因为一个患者哪怕是一个无症状感染者的遗漏都会拉长传染链。

(3)大数据相关性原理是指大数据分析不是论证因果关系,而是分析相关关系,强调事物之间的关联性。 这一点对于预警突发公共事件至关重要,因为突发性公共事件的突发性不允许花更多时间寻找因果关系。

2.数据中台预警突发事件的技术路径

作为大数据落地应用的可操作平台,数据中台预警突发公共事件一般是二维向度的技术路径,即依托数据中台获取线上和线下两个向度的预警数据。

(1)线上路径。 在泛在网络(ubiquitous network)条件下,线上的网络大数据是预警突发公共事件的重要数据信息来源。 以预警突发烈性传染病为例,网络一直被广泛应用于监测和预警疫情,虽然不同监测预警体系的数据源不同,但都基于一个共同前提:出现症状的患者都会通过互联网查询与症状有关的信息,监测预警系统可以通过跟踪查询患者输入关键词的频率预测疫情可能发生的概率。 通过线上大数据监测预警疫情,应用最多的是监测并预警流感和登革热。 针对频繁出现的“流感季”,Polygreen[16]和Hulth[17]分别通过雅虎搜索以及相关的医疗网站搜索获取流感疫情数据,预测的结果显示流感样病例数和实验确诊病例数有强相关性。 谷歌通过在谷歌日志中选取关键词采取自动获取方式建立流感预测模型,曾经比美国疾病控制与预防中心提前1 ~2 周监测并预警到流感爆发[18]。 中国医学科学院的袁玉清[19]也开发了基于百度搜索引擎预警流感的预测模型。 线上网络大数据监测并预警具有早期、实时、快捷、大规模、可筛选性特点,是应对突发公共卫生事件的主要技术发展方向。 但是,线上大数据监测预警存在以下问题:一是数据集成度不高导致空间分辨率不高[20];二是自媒体和自我报告出现数据偏差和混杂,而分立的数据系统很难及时分辨和降噪;三是对“超文本”数据存在语义理解障碍,语义 分析不准确导致理解歧义甚至出现谣言和非谣言的混淆。 这些问题在2020 年防控新冠肺炎疫情过程中被充分暴露,亟须构建数据中台来解决数据集成、数据降噪、数据分辨、语义识别等问题和不足。

(2)线下路径。 线下大数据也是预警突发公共事件的重要数据信息来源。 对突发公共卫生事件来说,线下数据主要有四个来源:一是社会活动环境数据,包括人群社会活动方式数据、交通工具乘坐数据、餐饮习惯数据、人口移动数据等。 Bio.Diasporo 曾经通过分析航班数据、人口密度数据、人口移动数据、城市卫生管理数据和家禽家畜饲养数据,建立监测模型,成功预测下一个可能会爆发埃博拉病毒疫情的地区[21]。 二是自然环境数据,包括气候变化数据、地理位置信息数据等。 如我国的郎猛等人[22]基于GIS 运用神经网络数学分析和Google Earth 技术建立了H7N9 疫情流行与环境因素的相关预测模型。三是医疗大数据,如医院体检报告单、影像数据、基因检测数据、交费数据等。 四是病原监测大数据,突发性公共疫情的爆发流行往往是通过病原体在易感人群中引发的,第一时间进行病原体溯源对于快速发出疫情预警,果断切断传染源至关重要。 现阶段病原体检测已进入基因组测序阶段,新一代测序技术可以发现病原体基因组的可追踪变异,对疫苗研制、抗病毒药物的选择和研发都具有重要价值。 线下疫情预警数据来源渠道多样,有的来源于临床医院,有的来源于疫控中心,有的来源于病毒研究机构,有的来源于交通部门,有的来源于社会组织,对这样繁杂的多源异构数据需要经过数据中台整合处理后发出统一的预警信息。

3.数据中台预警突发公共事件的哨兵模式

预警并应对突发公共事件的办法大致可以归为两种类型或模式:一是精算模式,二是哨兵模式[23]。对于预警并应对突发公共卫生事件来说,精算模式和哨兵模式的做法各不相同。

(1)指导思想不同。 精算模式的指导思想是注重疫情防控成本,精算经济效益,希望投入最少成效最大。 客观地讲,在应对新冠肺炎疫情过程中,一些西方国家实行的就是精算模式,在疫情警报全面拉响后,一些国家或地区不及时采取封城封社区和禁足禁聚会等应急措施,有的城市在短暂采取封闭措施后不等疫情根本好转就急于解封,导致疫情一波一波反弹,疫情的不断反复直接导致经济重启乏力,最后不得不付出惨痛的经济代价和社会代价。 哨兵模式的指导思想注重“人命关天”,将人而不是钱放在更重要的位置上,在预警警报拉响后迅速采取全面系统的应急防控措施。

(2)预测模型不同。 精算模式是基于可知模型,即基于历史数据预测未来事件发展的准确性;哨兵模式是基于不可知模型,即考虑突发公共事件的不可预知性。 一般来说,事件初期人们很难判断事件的特征和性质,特别是对“新型”公共卫生事件,仅仅依据历史经验数据和原来的经验知识很难预测其性质和强度。

(3)预测的数据基础不同。 精算模式已有一百多年的历史,是数据不完全时期的产物;哨兵模式是大数据时代的产物,也就是说,哨兵模式是在精算模式越来越暴露出其对未知的不确定性缺乏精准研判的情况下产生的。 在应对无法预知的突发公共卫生事件时,在“人民生命健康大于一切”的指导思想之下,哨兵模式显然具有非常重要的意义。 2020 年1 月31 日,在新冠肺炎爆发之初,世界卫生组织(WHO)就宣布新冠肺炎构成国际公共卫生紧急事件(PHEIC),这就是哨兵模式的具体表现,意在及时提醒国际社会应该高度重视疫情发展并紧急应对,但遗憾的是,一些国家并没有将PHEIC 预警当一回事,错过几个月宝贵的抗疫时机。

基于数据中台实行哨兵预警模式,并不是一概排斥精算模式的作用,但要实现对突发公共事件的精准应对,构建数据中台是新时代应急管理的必由之路。

四、数据中台在应对突发公共事件中的数据协同治理价值

《中华人民共和国突发事件应对法》明确规定:“国家建设统一领导、综合协调、分类管理、分级负责、条块结合、属地管理为主的应急管理体制。”[24]条块结合是应急管理的必然要求,由于历史和现实原因,“条块分割”“纵强横弱”“重复建设”“多头管理”“信息孤岛”等问题仍不同程度存在,数据中台能快速、及时、准确地协同各级各类数据,具有应对突发公共事件的数据协同治理价值。

1.数据中台协同数据治理的设计思路

大数据4V 特征是大数据区别其他数据方法的本质特征,4V 即Volume(海量)、Velocity(快速)、Variety(复杂)、Value(价值大、密度低)。 突发公共事件也是具有突发性(时间快)、公共性(海量、复杂)特征,两者的契合性是应用大数据处置突发公共事件的基本原理。 在大数据的实际应用中,一般奉行的设计思路是“大中台、小前台”,采用“大中台+微应用”的设计框架。

(1)基于数据中台改造“逻辑集中物理分散”的应急数据管理体系。 经过多年的电子政务建设,政府各部门已经建立起相对完备的信息管理系统,大都有独立的机房、物理服务器和网络,这种物理分散的状态形成一个个林立的“信息孤岛”和“信息烟囱”,虽然“逻辑集中”的指导思想一直存在,但条块分割造成数据不一致和逻辑不一致,特别是应对突发公共事件时,异构多源的数据是各个分立的信息系统难以快速处理的[25]。 数据没有实现互联互通,到了关键时刻就会心中无“数”。 因此,有必要通过构建数据中台改造升级分散林立的政务信息系统,打通数据应用的“最后一公里”。

(2)基于数据中台推动“物理集中逻辑一致”应急数据管理体系的重构。 重构设计思路是“云平台+微应用”,所有数据中台都是在一个或多个平台上运行的,云平台是数据中台的技术基础。 一般来说,政务数据中台在多个云平台上运行,通常采用混合云模式。 云平台是以“数战数决”来应对突发事件的高端技术,微应用则是实现数据实时交换、指令高效触达的精细方法。 因此,“云平台+微应用”是数据中台应对突发公共事件的新型数据管理架构。 这方面成功的例子是,在抗击新冠肺炎疫情的紧急时刻,浙江省卫生健康委员会迅速联合阿里巴巴钉钉、阿里宜搭团队、达摩院以及浙江谷瞰服务团队,仅仅只用一天时间就搭建起一整套“云平台+微应用”的新冠肺炎疫情联防联控平台,利用QQ 群、微信群、智慧社区客户端汇聚疫情数据,组织群防群控。 从这个意义上讲,通过构建数据中台汇聚数据,本质上也是在汇聚力量,数据治理架构的改变能够实现对突发公共事件的结构赋能。

2.数据中台协同数据治理的关键技术架构

(1)数据中台集中域架构。 数据中台集中域包括数据标准、数据仓库、数据资产管理等要素。 首先,统一数据标准。 政务大数据本来就具有多源异构的特异性,不仅数据量大,而且结构复杂,既包括一部分结构性数据,又包括大量的半结构性、非结构性数据,统一数据标准是统一数据交换和统一数据共享的前提和基础。 特别是在应对突发公共事件时,统一数据标准至关重要。 其次,分层次建立数据仓库。 传统的数据仓库一般使用ETL(extract transform load)将获取的数据经过清洗抽取后加载到数据仓库,但如果要应对突发公共事件类的多场景数据,必须建构符合数据中台要求的多层次数据仓库。 数据中台的数据仓库一般分为三个层次:一是ODS(operational data store),即操控数据层;二是CDM(common dimensions model),即公共模型层;三是ADS(aplication data store),即应用数据层。 三个层次的数据仓库依次递进,各层次之间低耦合高内聚,为数据计算、数据交换和数据共享提供数据支撑。 第三,管理数据资产。 数据只有经过清洗、抽取、降噪处理才能成为数据资产,数据资产是有价值的数据。 数据中台不是对局部数据加工赋能,而是着眼于连通全域数据,形成标准化的具有全域流通价值的数据资产。

(2)数据中台加工域架构。 数据中台加工域包括数据萃取、数据计算等要素。 首先,数据萃取是数据中台加工域的核心功能之一。 在新冠肺炎疫情防控工作中,中央提出“科学防控,精准施策”的工作要求,精准施策的前提就是有效快捷萃取数据。 2020 年2 月4 日《人民日报》客户端发表了《都什么时候了,还在搞填表抗疫》的文章,指出一些地方和部门工作方法陈旧老套。 在数字政府和数字经济建设最快的浙江省仅仅只用了两天时间就开发建立了供政府内部决策使用的“疫情信息采集系统”,并于2020 年1 月29 日正式在“浙政钉”上线运行,将全省市县镇乡村卫生健康机构以及疾病控制与预防部门和网格员全部串联,形成快捷的疫情直报通道[26]。 同时,浙江省有关政务部门与阿里巴巴合作,仅用一天时间开发了“新冠肺炎防控公共服务管理平台”,并在“浙里办”和支付宝上运行。 随后,该系统被国家卫生健康委员会推荐到全国十多个疫情严重的省市。 其次,数据计算是数据中台的核心能力。 数据中台的计算能力一般分为四种类型:一是批计算,主要用于批量数据的高延时处理场景,如离线数据仓库的数据加工、海量数据的挖掘等;二是流计算,主要用于实时数据毫秒级RT(响应时间),如网购狂欢节“5.18”和“双11”的大数据实时计算并进行可视化呈现。 三是在线查询,主要用于数据条件过滤 和筛选以及数据处理结果查询。 四是即席分析,主要用于分析型场景和经验统计。 与数据仓库需要分层一样,数据计算也需要细分,如应对突发公共事件这类复杂多维场景,就要针对不同场景分别使用不同类型的数据计算。

(3)数据中台服务域架构。 数据中台服务域包括检索服务、分析服务、查询服务、圈人服务、风控服务、推荐服务等要素。 其中,最常见的服务有四种:首先是查询服务,通过输入特定的查询条件,设定一个标识(key)来迅速锁定查询所对应的数据,通常以地址解析协议(API)形式供查询者调用;其次是分析服务,通过多源异构的海量数据的统计分析来挖掘数据价值,支持决策场景,最常见的工具如商业智能(BI)工具、路径分析、漏斗模型等;其三是推荐服务,通过对人与物以及人与人的行为数据分析来进行数据匹配,实现“千人千面”的个性化服务,如电商的购物推荐系统就是基于购物大数据精准算法掌握用户兴趣,通过用户画像来实施个性化推荐;其四是圈人服务,通过标签组合筛选出符合指定特征人群,即在全量人群数据中找出特定人群,以实现“群”管理。 数据中台服务域的四个主要服务功能有一个共同指向性,即提高数据服务的精准性。 对于应对突发公共事件来说,通过构建数据中台来提高应急的精准性至关重要。 如新冠肺炎疫情爆发流行高峰期正值中国传统的春节假期,人口流动量巨大,节后又面临全面复工复产,又形成人流高峰。 为精准甄别人群健康状况,杭州自2020 年2 月11 日启动“杭州健康码”,并迅速推广到全国,“健康码”既减少了因纸质登记而产生的人员密切接触风险,又减少了不同场景基层疫情防控人员的负担;既保障了人员流动的效率,又降低了复工复产人员再次被感染的风险。 “健康码”的有效运行需要功能强大的数据中台的强有力支撑。

五、数据中台在应对突发公共事件中的网络舆情治理价值

网络舆情具有不同于传统舆情的特异性,主要表现为匿名性、多元性、即时性和广泛性等基本特征。突发公共事件的舆情又同时具有突发性、群体性、易失控性等特征。 在自媒体和社交网络平台迅速发展的泛在网络和融媒体时代,面对突发公共事件,仅仅靠传统的数据信息管理系统已经很难管控汹涌而来的网络舆情,有必要构建数据中台以提升应对突发公共事件的网络舆情治理能力。

1.突发公共事件网络舆情的治理难点

突发公共事件往往会迅速形成“事件链”,“事件链”又会迅速形成“舆情链”,特别是突发公共卫生事件等重大疫情,更是将“疫情”迅速转变为“舆情”而引发蝴蝶效应。 “疫情”与“舆情”叠加增加了舆情治理的难度。

(1)主观情绪的治理难度,主要表现为人们主观上的应急心理反应。 美国心理学家Mackie 提出群际情绪理论[27],认为群际情绪是个体遭遇相同情景时对某一社会群体的情绪认同,这种情绪认同会导致个体与群体的情绪共振,这种情绪共振又会产生情绪感染。 情绪感染理论的代表人物MC Dougall 和Hatfield[28]认为,群体事件中的个人情绪大多处于非理性的冲动状态,个人情绪很容易感染其他人,而其他人的情绪反应又会反过来强化情绪传播者的情绪状态,最后导致某种情绪在群体间的相互感染和同质比。 突发公共事件特别是突发公共卫生事件很容易产生“羊群效应”,如果不正确规范、引导,不仅会严重影响网络舆情传播的正当进程,还会严重影响“疫情”的应急处理和有效防控[29],导致“疫情”和“舆情”双失控的危急局面。

(2)数据信息系统的“碎片化”问题。 一是舆情数据采集和处理系统各自为政,“烟囱”林立,导致数据标准不统一,数据获取多源异构,数据共享困难,数据沟通不畅;二是舆情分析目标冲突,目前普遍存在政务部门从部门维度出发分析舆情的情况; 三是数据共享和透明化机制不健全,虽然各级政府都严格要求重点事项必须在第一时间上报,但仍有一些相关责任人不负责任,延报、漏报、瞒报、谎报的情况时有发生,正规渠道的“大道消息”不能及时与相关机构和公众见面,就会出现“小道消息”甚至谣言“满天飞”的不正常状况;四是网络舆情监测软件使用不到位,特别是对自媒体和社交网站的监测存在明显短板[30]。

2.数据中台应对网络舆情数据治理的主要技术工具

数据中台应对突发公共事件网络舆情治理的主要技术工具是通用的大数据工具Hadoop。 Hadoop是免费应用的分布式计算系统基础框架。 该框架的核心技术主要有MapReduce(分布式计算模型),HDFS(分布式文件系统),Hive(数据仓库工具),Hbase(分布式数据库)。 这些技术中起关键作用的是MapReduce。 Hadoop 是一整套工作机制,即通MapReduce 提供数据挖掘和分析能力,监测跟踪网络动态,进行数据分析和趋势描述。 通过HDFS 提供数据存取和吞吐能力,实现对硬件资源和存储数据的高效管理利用。 通过Hive 提供数据查询和标签索引能力,实现数据的快速检索和高效服务。 通过Hbase提供数据兼容和分布式存储能力,实现对结构性、半结构性、非结构性数据的全数据利用。

(1)网络舆情数据萃取和监测的主要技术工具。 一是运用网络爬虫程序对定向站点网页信息进行数据抓取,特别是通过关键词设置来对反映问题最集中、舆情活跃程度最高的综合性论坛网址和网络社交平台进行网页数据信息抓取;二是运用RSS(聚合内容)摘要搜集技术对博客类网站和新闻类网站的新闻播报和跟帖进行数据聚合,以全面、快速了解突发公共事件的舆情发展动态;三是运用分布式微博爬虫程序对社交网络API(地址解析协议)进行信息抓取,对Tags(用户标签)和事件话题进行数据采集;四是运用大数据技术的全文检索系统,如SQL Server 的Microsoft Search 服务和MySQL 的ImmoDB引擎对特定网站的结构性数据或非结构性数据进行数据萃取。 突发性公共事件网络舆情往往具有时间集中和话题集中的特点,全文检索系统能发挥全景扫描功能,对网上文本或“超文本”进行不间断扫描,实现快速抓取舆情数据的目标。

(2)网络舆情数据处理的主要技术环节。 数据处理的主要工作环节包括数据分类、数据聚类、数据去重、数据降噪、数据转换等环节[31]。 这些环节也是运用Hadoop 系统的技术工具,通过HDFS 存储支持下的数据仓库工具Hive 和分布式数据库Hbase 共同运行完成。 HDFS 作为分布式文件系统,完成在数据底层提供数据存取和交换的任务;Hive 作为建立数据仓库模型的FTL 工具,完成对数据进行聚类、转换和加载的任务;Hbase 作为NOSQL(非关系数据库)运行的稀疏存储模式,完成社交网络平台大量“超文本”的数据处理任务。

(3)网络舆情播报的主要技术手段。 舆情播报除了利用互联网和移动互联网平台以电子邮件、APP 客户端、Web 等推送方式及时准确播报舆情信息外,可视化技术手段也被日益重视和广泛采用。数据可视化是将数据分析通过数据大屏直观呈现的大数据技术,这一技术将统计性、预测性、结论性数据通过可视化工具(D3、WebGL、three.js、mapbox 等)投屏,直观呈现给决策者或服务对象。 数据大屏的应用场景主要包括监控、决策、公关、播报等多种场景,其中监控场景日前已进入“天眼”阶段,是治安、交通管理和媒介管理[32]的重要数据获取渠道。 数据可视化是图形学的现代产物,现代医学是采用数据可视化最多的领域,GT 影像、核磁共振、心电监护仪、基因图谱等都是人机交互界面的可视化呈现,数据中台的价值功能是把这些零星分散的可视化数据变为集成的可统一处理的数据可视化资源。 在防控新冠肺炎疫情过程中,人群流动的关键场所如车站、机场、码头以及医院、学校、工厂、商店等人员集中场所的可视化数据都为抗疫决策和抗疫舆情治理发挥了重要作用。

六、结语

在应对突发公共事件过程中、尤其是在抗击新冠肺炎疫情的总体战、阻击战中暴露出政务大数据应用存在一些明显的短板,各地各部门在不同程度存在着“数据烟囱”“数据孤岛”“数据壁垒”现象,亟须构建应对突发公共事件的协同治理机制[33],并相应建立体现协同治理机制的数据中台。 随着云计算技术和新一代AI 技术的发展,数字政府建在“云端”已是大势所趋,尽管将原有的政务信息系统整合迁移到云平台上也能够进行云计算服务,但不能从根本上发挥云计算的优势,因此,数字政府2.0 建设一方面需要对政务信息系统进行升级改造,另一方面需要整合政务信息系统重构数据中台。 数据中台是整个政务中台的基础和核心,既能起到承前启后的作用,也能起到横向连接业务中台和技术中台的作用。数据中台既是政务大数据应用平台,也是数字政府2.0 运行架构;既是政务数据化战略,也是新的政务管理理念。 作为一种新架构、新实践,政务数据中台还处于成长期,但建设数字政府,提高政务大数据治理能力,有效应对影响全局的突发公共事件,构建数据中台都是题中应有之义。

猜你喜欢

中台舆情政务
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
靖边政务中心:“进一扇门,办所有事”
政务云上看政情
特鲁多:被政务“耽误”的网红
数字舆情
数字舆情
二维码让政务公开更直接