APP下载

从两个典型应用看气象信息业务的数据工作

2017-09-29沈文海何文春孙超

中国信息化 2017年9期
关键词:数据管理气象监控

文|沈文海,何文春,孙超

从两个典型应用看气象信息业务的数据工作

文|沈文海,何文春,孙超

称谓往往反映出冠名者对冠名对象的基本认识和判断,以我们所处的时代为例,有称其为“信息时代”者,有称其为“云计算时代”(或简称“云时代”)者,有称其为“大数据时代”者,最近更有好事者迫不及待地称当今时代为“人工智能时代”。对诸多时代的称谓笔者无意去评判。但有一点不可否认,即:所有这些倾向性色彩鲜明的称谓皆与数据有关;这反映出所有冠名者无意中形成的共识,即:我们当今所处的时代是一个与数据息息相关的时代,在这个时代里,数据的价值正在被越来越多的人们所认识,并已被迅速提升到前所未有的高度。与之相对应,数据工作正在变得越来越重要,也越来越不可或缺。

在气象部门,数据工作是气象信息业务的核心内容之一,其重要性尽人皆知,不言而喻。近年来有关数据质量、基础数据产品、数据管理系统、数据规范和标准等方面的工作接连不断、热火朝天;决策层对气象数据工作不可谓不重视,举措不可谓不积极;参与数据工作的员工们夜以继日、废寝忘食,工作不可谓不努力。数据工作已成为气象部门诸多工作中最为重要的内容之一,它的工作质量及产品水平甚至成为衡量我国气象事业达到现代化的重要标志之一。

重要的工作更需要突出重点,以纲带目,以期收事半功倍之效。然而,何为目前及今后一段时期内气象数据工作之纲,以及为何其所以为纲,这是需要静心思考和深入研讨的。笔者试图通过对两个正在设计之中的典型应用的分析,阐述自己的观点。

一、综合监控功能的数据支持

(一)综合监控系统概述

1.系统概述

气象综合业务实时监控系统的设计定位,是实现对观测、信息、预报预测、公共服务及政务管理的“全流程、一体化、可视化”监控;按照“横向集中、下沉一级、综合监控”的原则,建立横纵一体化的气象综合业务全流程监控:横向整合各国家级业务应用系统的运行监控功能,形成从数据采集、传输、处理、存储到服务的全流程监控;纵向延伸至省级运行监控,实现对全国省级数据中心的集中监视。该系统通过“两横两纵”实现对支撑气象业务的观测系统、信息系统的全面监控(见图1)。

图1 “两横两纵”一体化监控设计

气象综合业务实时监控系统软件总体框架由监视信息采集层、监视信息存储层、监视信息处理层、监视信息展示层组成。监视对象包括:气象观测系统、基础设施资源、气象业务数据全流程、各业务应用系统、信息安全设施等五类。

2.主要功能

监控系统主要功能的设计围绕监视信息的全生命周期中各个关键节点而展开,从监视信息汇聚、分析到可视化监视、集中告警、运维管理、运营服务等等;希望能从不同的业务视角综合掌控业务整体的实时运行状态,根据业务监控要求进行指标的多维度统计分析、业务影响分析等处理,生成监控系统的多级别、多维度综合性指标、超阈值监测指标和关联分析视图等。同时,监控系统具备集中告警和运维流程管理功能,具备与业务系统管理平台对接,并接入省级数据中心监视指标,实现全国集中监视的能力。

限于篇幅,各功能的具体内容不予详述。

(二)综合监控功能的数据复杂性

监控系统是对所辖范围内各监控对象状态的实时掌控,以及对其异常状态的及时发现、判识和应对。因此,各监控对象的状态信息如同血液一样,是监控系统的生命之泉。

1.数据种类的复杂性

综合监控系统的监视对象类型十分复杂,涉及气象观测系统、基础设施资源、气象业务数据全流程、各业务应用系统、信息安全设施等五大类,具体涉及各类气象探测设备状态、远程/同城/园区网络状态、卫星通信状态、服务器和存储设备状态、高性能计算机集群状态、基础软件(操作系统等)和平台软件(数据库、中间件、GIS等)状态、业务应用系统自身状态和运行状态、业务流程状态甚至数据中心场地环境状态等等,各监视对象的状态信息彼此差异甚大,数据种类十分复杂。

2.数据规格的复杂性

目前综合监控系统的监视对象中,多数并没有确立如血压、心率、心电图和血常规等衡量人体健康状态的常规检测要素,因此对于每一个监视对象,如何选定有限的几个关键检测要素和指标做为反映其真实状态的数据,是首先需要解决的问题。以业务应用系统为例,由于此前在气象应用软件研发及业务准入方面缺乏相应的规范,一些单位自行研发的业务系统不同程度地存在一定的缺陷,有些甚至较为严重(如:内存泄漏等);这些业务系统的自身状态如何检测,如何在第一时间内发现这些业务应用系统状态的异常、识别出异常的部位和程度、诊断出导致异常的原因、确定异常的影响范围并及时采取应对措施,的确是一个相当复杂而又必须面对并解决的问题。

由于综合监控系统的监测范围涉及国省两级,各地之间运行环境的差异也是导致数据规格复杂的因素之一。以应对大并发用户数压力为例,相同功能的业务应用系统,运行在资源池并已经云端/客户端化的系统,与运行在小型机上的系统,其检测指标和应对措施是截然不同的。因此,即便相同的业务应用系统,由于各地间运行环境的差异,其检测要素和评判指标也很难简单复制。

总之,由于相当多数监测对象的状态常规检测项目尚未确立,以及检测对象运行环境的差异,大大加深了综合监控系统在监测对象状态数据的数据规格方面的复杂程度。

3.获取途径的复杂性

在明确了各监视对象状态的核心要素后,关键的工作便是这些核心要素数据的获取,即所谓“状态数据的获取”。气象部门以往状态数据的获取途径主要是“直接采集”、“日志分析”和“平台对接”三种。

“直接采集”方式较适合于那些状态要素明确、且易于采集的监视对象,如:服务器、存储设备、网络设备等基础资源,各业务流程节点上游数据到达情况等。此外,目前一些气象观测设备在业务观测的同时,也在定时输出一些自身的状态数据,相当于这些观测设备状态数据的直接采集。遗憾的是,同样还有相当多数的观测设备尚不具备产生并发送自身状态数据的能力,无法“直接采集”;对于这些观测设备,目前判断其状态正常与否的方法是对其提供的气象观测数据进行质量检测,若通过质量检测,则数据正常、同时意味着设备状态也正常。若通不过检测,则数据可疑、同时设备状态亦可疑。这种方法强烈依赖于观测数据质量检测系统的能力,较为被动,而且对于那些被发现可疑之前该设备所产生的数据,究竟是否真实准确,以及究竟哪些数据真实准确,无从判别。因此,通过对气象观测数据质量检测来判断观测设备状态的方法,是不得已的、退而求其次的方案。

“日志分析”方法较适合于那些规范的设备和系统,这些系统产生的日志较为规范、包含的信息较为丰富、更新频率也符合要求,系统的状态数据可从其中直接提取或经简单分析处理后获得。而对那些各单位自行研发的业务应用系统,由于至今没有相应的规范要求,这些业务系统是否产生日志、日志中所包含信息的内容以及日志的更新频率是否符合要求等,彼此间都存在较大的差异,必须逐一分析甄别,不符合要求的须设法弥补。

“平台对接”适用于那些已拥有较完备管理平台的系统或设备集群(如:高性能计算机系统、安全系统、场地环境系统等),由于这些管理平台的相关信息和管理措施十分完备、自成体系且专业性很强,综合监控系统只需与这些平台实现对接,实时获取相关数据和信息,在综合监控系统中予以适当分析和综合展示即可,没有必要再自行单独采集这些对象的状态数据。

由此可知,监视对象状态数据的获取途径和方法亦相当复杂。

(三)需要完成的工作

1.气象业务数据架构的修订

综合监控系统所涉及的范围不止国家级业务单位所在的园区,而且覆盖到全国31个省、直辖市和计划单列市,必须动员各地相关技术人员共同协作完成。因此,标准规范必须先行。

即:首先必须完成对各业务应用系统状态要素的分析、遴选和归纳,确定有限的、带有普适性的(即便是在分类情况下的)业务应用系统核心状态要素,以及获取频次等数据规格要求,并予以规范化管理和贯彻执行。在此基础上,将各类探测设备、基础资源/平台和业务应用系统的核心状态要素等状态数据正式纳入气象业务数据范畴之中,完成气象业务数据在数据定义方面的修订工作,并在条件成熟时对其进行恰当的数据建模,从而完成气象业务数据架构的修订。以此作为目前及今后与综合监控管理相关各项工作的数据基础规范,并指导未来气象应用业务系统的研发工作。

2.状态数据的获取

在基本实现对状态数据的约束和规范的前提下,对综合监控系统所辖各业务系统逐一进行状态数据的提取。大致有如下几种方式:

直接提取:监视对象中有部分类型的气象探测设备可直接产生并发送自身状态数据;此外一些规范化的基础设施资源设备和平台亦可较方便地获取其状态数据。对这些对象的状态数据,可采取直接提取方式。

平台对接:分别与监视对象范围内已有的、已自成体系且较完备的各个专业化管理平台实现对接,获取相关的状态数据和信息。

规范日志分析:拥有内容完整、更新频次恰当的规范化日志,是考察一个业务系统是否规范的指标之一;这些规范化的业务应用系统虽不直接生成其自身的状态信息,但通过对其日志的分析,可以及时得到其核心状态要素的全部内容。这类对象的状态数据,可通过对其规范化日志的分析而得到。

不规范日志处理分析:目前并非所有业务系统都产生规范化的日志,事实上,由于此前相关规范的长期缺位,现存的相当数量的业务系统的日志不同程度地存在不符合综合监控要求的现象,主要表现在日志内容的不完整和更新频次的不及时。在这种情况下,如果可能,宜首先确立业务系统日志的相关规范;在此基础上,采取修订日志的内容和调整更新频次等方法,使日志符合或至少接近规范要求。倘无法使业务应用系统的日志规范化,而日志中的内容相对丰富,则可采取实时处理分析等方法,以及时提取出所需的状态要素数据。

替代方法:对那些既不生成日志、更不产生自身状态数据、且状态数据无法直接提取的监视对象(如部分探测设备等),如其必须纳入到监控范围之内,则须采取其它替代方法,通过其它途径,间接实现对这些对象的监视。

3.状态指标的确立

监视对象不同,监视的目的和判识状态的标准也不相同,监视服务器及存储设备是考察它是否正常运行、以及其CPU、内存和存储空间的使用情况,监视业务流程是考察其在规定的时间节点上游数据的到达情况以及到达数据的质量,监视业务应用系统则主要考察应用软件自身的运行情况以及业务工作(如数据处理)的实际情况,等等。参见表1:

表1 监控指标数据分类

因此,每类对象中的每一个具体监视对象,都必须设立经过认真审核的、可确信符合其状态特征的状态判定指标,并确认每一个监视对象的状态数据和状态指标是良好匹配的。

二、大数据平台的难题

(一)气象大数据云平台概述

全国综合气象信息共享系统(CIMISS)1.0版本已于2016年正式业务化,并完成了国省两级部署,初步实现了在气象部门内统一数据环境的战略目标,为气象部门业务系统部署分布由国省地县四级向国省两级过渡奠定了数据基础。

气象数据作为珍贵的资源,只有集约化管理,方才可能发挥出其应有的效益。因此,以CIMISS2.0的研发为契机,构建气象大数据云平台,既是目前信息化大潮的形势所致,也是气象学科和业务的发展所需。

气象大数据云平台是基于专有云和公共云构建的气象大数据云平台,对数据进行全网汇聚,统一支撑全国各级应用,并开放共享,提供社会众创服务,如图2所示。

图2 气象大数据云平台总体架构图

其中,1个国家级大数据中心、1个数据备份中心、31个省级数据节点和1个公共云数据节点共同构成了气象大数据云平台。省级数据节点将本省收集的数据上传至国家级大数据中心,备份数据中心从国家级大数据中心同步数据,公共云数据节点与国家级大数据中心、备份数据中心和各省数据节点间通过专线通道交换数据。国家级大数据中心异常时,备份数据中心代替国家级大数据中心;省级数据中心异常时,备份数据中心或国家级大数据中心提供该省及市县核心实时业务应急访问。

常规来源的气象数据(即:由气象部门通过探测业务系统等采集和生成的气象数据)仍主要通过专有云进行收集,新型来源的相关数据主要通过公共云进行汇聚。平台将数据进行全网同步和管理,通过服务接口提供气象业务、管理、服务和科研等应用访问,并回存业务产品,此外通过公共云提供社会众创支撑服务。

气象大数据云平台基于气象“专有云+公共云”,对气象数据、社会数据、行业数据、互联网数据、物联网数据等资源进行全网快速汇聚,进行规范的质量控制和加工处理,生产数据产品,进行全生命周期的存储管理,并提供标准统一、访问高效的服务接口,对业务产品进行便捷的回存管理。

气象大数据云平台提供气象应用开源框架,集成丰富的预报分析模型,支撑智能预报预测系统构建和运行;提供多源数据汇聚和挖掘分析能力,支撑大数据服务和社会众创。对数据和业务的全流程进行可视化监控管理,对数据和基础设施资源进行科学化调度管理和智能化运营。基于专有云和公共云,为气象业务和众创应用提供集约高效、按需供给的软硬件基础设施资源,对数据、系统、设施等提供可靠、全方位的安全防护。

限于篇幅,气象大数据云平台的架构及功能不予展开。下面重点讨论大数据平台的核心——数据管理平台的相关问题。

(二)数据管理平台需要解决的核心难题

资源丰沛、功能齐备、性能优越、使用便捷的数据管理平台(即:CIMISS2.0)是气象大数据云平台的核心,其工作的复杂性不言而喻,需要面对和解决一系列无法回避的问题。从使用者的角度考察,以“大数据”为特征的数据管理平台存在着一些共性问题,王轩先生将这些问题归纳成四个方面,即:数据不可知、数据不可控、数据不可取、数据不可联。

根据气象部门的特点,这四个问题可具体解释成:

(1)数据不可知:用户不知道数据管理平台中有哪些数据(或数据集),面对众多数据和数据集,不知道哪些数据符合自己的应用需求、哪些数据是关键数据、哪些则是关联或派生数据、到哪里去获取这些数据以及这些数据应如何使用。

(2)数据不可控:数据标准的不完整导致数据管理平台中数据的不完整以及数据获取途径的不规范;质量控制覆盖面的缺失导致一些观测数据因质量问题而难以被充分利用;技术架构的落后和流程的复杂导致数据管理平台的管理效率不高。

(3)数据不可取:用户知道自己业务/科研所需要的是哪些数据,并且知道这些数据的确存在于数据管理平台之中,也获得了这些数据的使用许可;但因种种非管理层面的原因,用户无法便捷自助地获取到这些数据,从而导致业务需求难以及时满足。

(4)数据不可联:数据管理平台汇聚了所有可以获取的气象数据,内容丰富,但一些数据和知识之间的关联还比较弱,许多必要的知识体系尚未建立起来,从而无法把数据和知识体系关联起来,这在业务运维管理领域尤为突出:员工难以做到状态数据与知识之间的快速转换,不能对数据进行自助的的探索和挖掘,数据的深层价值难以体现。

事实上,上述四个问题的存在由来已久,只是在当前大数据时代的背景下,在营造大数据平台的过程中更为突出而已。而如果不能有效解决这四个问题,作为气象大数据平台核心的数据管理平台(CIMISS2.0)的支持能力将很难满足要求,建设目标便难以实现。

(三)关于问题的分析

本节延续3.2节的思路,从上述四个问题,即:数据的可知性、可控性、可用性和可关联性四个方面,对气象数据管理平台(即:CIMISS2.0)进行探讨。

1.数据的可知性

气象部门自上世纪九十年代起便开始尝试运用数据库技术管理气象数据,二十多年来积累了较为丰富的管理经验,因此对于传统意义上的“气象数据”,亦即由行标《QX/T 102-2009气象资料分类与编码》所明确定义的气象观测数据及相关业务产品(下简称“传统气象数据”),气象部门已形成了一套较为成熟的管理方法,即:通过规范的元数据管理,实现对于传统气象数据的有效管理和服务,从而可较为圆满地解决这部分数据的“不可知问题”。

然而CIMISS2.0所需要收集、管理和使用的数据不止限于上述数据范围。事实上,除上述数据内容外,为直接支撑各业务工作,CIMISS2.0还应管理各类业务系统(平台)所需的中间产品;为支撑综合监控系统,CIMISS2.0亦应管理各类状态数据,以及相应的各类运行维护知识库;如果CIMISS2.0被赋予支撑气象部门的电子政务工作,它甚至还应管理人事、财务、项目等各类管理型数据。因此CIMISS2.0所管理数据的范围已大大超出《气象资料分类与编码》所确定的数据范围,而超出的部分(下简称“新增数据”)至今并未予以明确的数据定义;即:气象数据架构的补充修订工作并未随之而及时完成。该项工作的滞后,无疑加大了这些新增数据的管理难度。

规范的做法应当是首先完成这些新增数据的数据定义,以及相应的元数据设计和构建;在此基础上适当采用元数据管理技术,实现对这些新增数据的有效管理。亦即:在完成数据架构的补充修订的基础上,实现对新增数据的规范化管理。然而即便现在就开始着手完成这些工作,也需要耗费相当的时间和精力方可完成,远水难解近渴。而在没有完成数据定义的前提下,如何规范地管理这些新增数据,使这些数据在用户眼里看得见、找得到,是一个需要静下心来仔细推敲的问题。

2.数据的可控性

从用户的视角考察,数据的可控性主要体现在数据质量和数据规范两个方面,其中,数据质量包括数据的正确性、一致性、完整性和代表性等几个方面,而数据规范则主要指数据的规格规范和数据的业务规范,即:数据在内容和格式等方面是规范的(规格规范);同时在产生频次、可获取时间、可获取的时空范围以及数据量等方面也是规范的(业务规范)。如果数据在质量和规范方面有可靠的保障,则该数据在用户眼中便是“可控”的,因为他可在规定的时间获取到规定数量的、内容和格式符合规范的、具有正确性、一致性和完整性保障的数据。

对于“传统气象数据”,气象部门已经建立起一整套相对严格的业务体系和业务规范,并对其中一些类别的数据建立起相对严格的质量控制系统,可控性有一定的保障。然而对于那些“新增数据”而言,情况却很难乐观,相应的质量控制体系尚未建立起来,相关的业务体系和规范即便建立起来,也不尽协调统一;数据的可控性缺乏有效的保障。

要想使“新增数据”达到“可控”要求,必须提供“新增数据”的质量保障,并建立起相应的业务体系和规范。这涉及到了数据质量管理和数据治理两个方面的工作内容。

3.数据的可用性

如果把数据质量(尤其是数据的正确性)归入数据可控性范畴,那么数据的可用性便主要体现在数据的易于获取和便于使用。

数据的易于获取不仅限于数据读取的便利性、以及对核心用户使用习惯的适当尊重,而且应当包括读取方法和规则的规范性和延续性,即:一类数据的读取方式一旦确立,便将一直持续下去,不因数据库更新换代而发生改变。

数据对于熟悉并经常使用它的使用者而言,使用的便利性问题并不突出,但对于陌生者(即初次正面接触该数据的用户)而言,却并非如此。如何使陌生者在最短的时间内了解数据并正确地使用数据,是对数据是否便于使用的最重要的考量指标。

与此类似,气象部门在构建气象数据管理系统时,非常重视“传统气象数据”的可用性,以CIMISS1.0为例,不仅建立了颇被业界称道的规范化数据接口(“气象数据统一服务接口”,缩写:MUSIC),而且所有数据集都配有较详细的文字说明、使用案例甚至常用计算机语言的读取程序,使得传统气象数据在可用性方面拥有一定的口碑。同时,为使该系统能够支持一些核心业务系统,CIMISS1.0甚至不惜内部数据大量冗余,专门为一些核心业务系统定制了符合其格式和使用要求的数据子库。因此“传统气象数据”的可用性是有一定保障的。对于CIMISS2.0而言,这些成功经验完全可以在新增数据的可用性方面予以借鉴和发展。

4.数据的可关联性

分析产生关联,CIMISS2.0中数据的可关联性,是指该平台具有可在其上直接进行较为深入充分的数据分析的能力,这些能力具体由CIMISS2.0所直接支撑的各个专业化平台予以实现。

CIMISS2.0所管理的数据中,气象要素之间的关联性、以及天气过程与气象要素变化的关系,有其经典的物理规则和数学背景;传统的统计气候学自始至终都在寻找着气候要素与气候变化之间的关系。从本质上说,传统气象数据的内部关联关系的确立,是气象学科得以建立的基础;目前许多规律早已被发现,并借以建立起相应的学科,如动力气象学等。因此,传统气象数据中的数据关联,更多地是属于气象科学范畴,而不是技术问题。

对于新增数据的可关联性问题,因对于这些数据的组织和管理的经验相对欠缺,一些配属的知识管理体系和知识库尚未建立起来,因此其数据组织方案需要全面考虑;既需要考虑在线数据分析的要求,也需要考虑一些配套的在建系统(如综合监控系统等)的业务需求。

总之,从使用者的角度、以上述四个共性问题的可解决程度来考察,我们现有的知识、经验和体系机制中上存有很多短板甚至漏洞,需要尽快设法弥补。

三、气象信息业务的数据工作

气象信息业务中的数据工作千头万绪,目前最为核心的内容无外乎数据的管理、数据产品的研制以及数据的服务。

(一)数据的管理工作

气象数据需要构建完备的管理体系,方能有效地对这些具有极珍贵价值的数据进行全方位管理,笔者此前已有专文论述,不再赘言。从上面两个典型应用可以看出,其涉及的数据管理领域包括:数据操作管理、数据质量管理、数据架构管理、数据治理等多项内容。而由于我们在这些领域乃至整个管理体系建设和管理措施落实等方面工作的滞后,已经开始对我们的工作产生负面影响了。因此,数据管理体系的建立并非只是一些时尚名词的堆砌以及现有工作在名词下的重新排列组合,一些缺漏必须增补、一些短板必须修缮,与之相关的工作必须进一步推进。

“以问题为导向”的工作方针固然不错,但如果机械地被动地理解并执行这一方针,遇到一个问题解决一个问题,则容易陷入“头疼医头、脚疼医脚”的局面。如何发现问题产生的根源,在其未爆发之前便予以解决,防患于未然,这才应该是气象信息工作者追求的目标,所谓“上工治未病”,指的就是这种境界。就气象数据管理而言,构建起完备的数据管理体系,应当是趋向这一境界的有效途径和方法。

(二)数据产品的研制工作

人工智能是目前继大数据之后又一波为业界乃至全社会广泛关注的信息化浪潮,关于它对目前以及未来人类社会产生的深刻影响,有各种乐观、平和、悲观乃至绝望的推测。不可否认的是,人工智能正以超乎人们心理承受能力的速度快速介入人们的生活,以及社会的各个领域——气象学科也不例外。

人工智能有众多分支,就气象预报而言,较为适用的无疑是“深度学习”,而深度学习需要充足的样本做为其训练基础。因此,能够客观真实反映天气实况、以及各个气象专题(如:台风、龙卷、飑线、暴雨、干旱、洪涝、高温等)的气象数据产品(包括数据集)的建立、样本的质量水平以及样本数量的丰富程度,是“深度学习”能否应用于气象预报领域的基础和先决条件。

考察一下被冠以“气象大数据”大名的目前我们所拥有的所有气象数据,不难发现:这些数以PB级的所谓大数据当中,有60%以上是近十年积累起来的,当前采集数据的时空密度十分密集,种类也很多;然而向后追溯,则时代越久远,数据越稀疏,种类也越少,“气象大数据”的近因效应非常突出。以温度要素的采集频率为例,当前测站温度要素的时间频率是分钟级,二十年前的频率是小时级,而十九世纪以前的由历史气候学家通过各种方式建立起来的历史气候数据序列,其温度的时间间隔(时间频率)则是年际甚至十年际和百年际。长时间序列的、具有良好(或适当)时空密度的、可真实反映当时天气实况的气象数据序列产品尚未真正建立起来。此外,虽然国家和一些省级业务单位出于业务需求,各自建立了支撑其相关业务的气象灾害个例库,但在规模、灾种、规格及使用方式等方面彼此间皆或多或少存在差异,一些典型个例的天气类别至今存在争议,权威的、样本数量充足的各类专题库尚未真正建立起来。所以,虽然“气象大数据”体量不小,但我们的数据准备并不充分,数据基础也并不坚实。

因此,研制以再分析资料和多源融合产品为代表的高质量、高时空密度和长时间序列的基础气象数据产品,既是气象业务/科研工作的迫切需求,也是气象现代化的重要标志,更是未来发展的奠基性工作,应当长久地持续发展下去。与此同时,规范并建立各类专题个例库,形成权威的、专题鲜明且个例丰富的、可良好支撑相关业务的个例库,也应尽快提上议事日程,并举全部门之力予以尽快建成,以期尽早发挥效益,并造福于后来者。

(三)数据平台的意义和作用

气象数据的集约化管理和优质服务是气象信息业务的重要内容,数据只有被使用方能发挥出价值,因此数据的使用效果和效率、用户在使用过程中的实际感受,是数据管理工作是否卓有成效的试金石。

从时效上划分,气象数据服务可分为实时业务服务和非实时业务服务两类。对于气象部门实时业务(含同城数据服务业务)的数据支持,长久以来部门内已形成了一套完整严格的业务规范及业务体系予以全力保障,以达到并保持气象信息业务部门当时所能达到的最高服务水准和效果。

对那些实时业务之外的服务对象,其数据服务方式在近四十年来发生过许多变化,由最初的纸质气象档案抄录服务,到电话咨询和数据软盘/磁带/光盘的记录(刻录)和邮寄,直到目前的网站数据自助检索和直接下载。自本世纪初便开始建立并对外提供气象数据共享服务的、目前冠以“中国气象数据网”名称的气象数据对外共享系统,多年来在气象数据共享服务方面走在许多部委的前列,为业界所称道,并多次受到科技部的表扬。“中国气象数据网”与目前正在设计中的CIMISS2.0一道,构建起气象部门对外和对内的数据共享平台。

平台是资源快速配置的基础环境,数据平台的建立,解决了各业务、科研工作的数据资源问题。将业务平台和科研平台构建在数据平台之上,以数据平台直接支持业务和科研工作,而不是将数据下载(或传输)到业务/科研平台(系统)本地来处理,是大幅改善气象数据服务能力和效果、进一步提高工作效率的有效途径。基于这一常识,设计中的气象大数据云平台系统准备在CIMISS2.0(即“气象数据管理平台”)之上,构建智能预报与分析支撑平台、大数据服务众创支撑平台以及业务监控平台等(见图3),以实现对各项业务和科研工作的直接数据支持和服务。

图3 气象大数据云平台系统结构

以数据平台作为数据服务的基本载体,努力践行“复杂的问题简单化,简单的事情标准化,标准的工作自动化,自动的系统智能化”的“IT四化”理念,气象大数据云平台的建立将极有可能在气象部门营造出业务流程趋于最优、业务系统效率趋于最高、科研环境趋于更好、各项工作的效率、效益和效能越来越高的良好局面。这是值得人们期待的。

值得一提的是,为了在全社会营造“互联网气象+”的良好局面,实现智慧气象“开放的气象服务”和“深度的产业融合”的目标,作为气象数据对外共享服务窗口和平台的“中国气象数据网”,其未来的发展方向和路径,也应尽早思考并开始积极探索。

四、结语

建立完备的气象数据管理体系,这并非空洞的时髦辞藻,从上面的讨论可以看出,事实上数据管理体系的相关内容自始至终融入在气象信息业务的日常数据工作之中,许多内容是难以省略或绕开的,否则其负面影响便会像幽灵一样,时刻徘徊在相关工作的周围,纠缠在工作当中。因此,完备的气象数据管理体系应当而且必须尽早建立起来。衷心希望这项工作的重要性能够被更多的人所了解并接受。

尽管我们已经拥有了体量颇为可观、为业界所称道、不少互联网企业费尽心机试图获取的气象数据,但无论是业务应用和科学研究,还是新领域新技术(如人工智能)在气象预报领域的的应用探索,现有的数据都远远无法满足需求。因此,高质量、高时空密度、长时间序列的基础气象数据产品的研制,是未来气象事业发展的基础条件。

气象数据工作是极端重要的,但同时也是十分寂寞、相当单调、难以出成果,并极易遭受误解和批评的,需要参与该领域的同事们具有良好的耐心、甘于寂寞并长久地保持精益求精的工匠精神。

气象数据工作的确任重道远。

作者单位:国家气象信息中心

猜你喜欢

数据管理气象监控
气象树
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
The Great Barrier Reef shows coral comeback
冬奥项目训练监控方法的研究——TRIMP、sRPE在短道速滑训练监控中的应用
专栏:红色气象 别有洞天
航发叶片工艺文件数据管理技术研究
基于无人机的监控系统设计
基于量化的风险监控预警机制探索与实践
大国气象