基于CIMISS的能见度质控应用研究

2020-10-15王立俊贺永兴

计算机应用与软件 2020年10期

王立俊江益* 王旭贺永兴赵冰

1(海南省气象信息中心海南海口 570203) 2(海南省南海气象防灾减灾重点实验室海南海口 570203)

0 引言

近年来，气象预报和服务已成为人们出行和工作的关注重点之一，而实时气象观测数据的好坏直接影响到气象预报和服务的实效性和准确性，因此确保实时气象观测数据的高可用性，数据质量控制环节是至关重要的[1-2]。对此，中国气象局与各省、市级气象局一起设计、研发了国家级-省级-台站三级质控的气象资料业务系统(Meteorological Data Operation System，MDOS)[3]，实现对各种类型的气象原始观测数据进行质控，以人机交互的形式审核质控后产生的疑误数据[4]。

目前，MDOS仅使用界限值检查等基本方法对小时能见度数据进行质量控制，且质量控制算法较为薄弱，许多疑误数据被漏检，致使值班人员的数据审核效率降低。

中国气象局研发的气象信息共享系统(China Integrated Meteorological Information Service System,CIMISS)是MDOS系统的数据来源，主要由五个功能系统组成，分别是收集与分发模块CTS、数据加工处理模块DPC、数据存储管理模块SOD、综合业务监控模块MCP和数据共享服务模块GDS，部署在国家和各省级节点，对各种气象资料和产品进行收集、加工、存储及服务，是气象业务、服务和管理的核心基础数据支撑平台[5]。

针对上述问题，本文分析各台站的历年小时能见度数据，总结出各台站能见度要素与相对湿度、风速、降水等其他气象要素之间的关联性，引入时间一致性检查、内部一致性检查等多种方法，提出基于CIMISS的DBQC(Dual-Bound Quality Control)算法，算法多时次地双重质控原始能见度数据，能快速、准确地质控出能见度疑误数据，疑误信息显示在Web页面供值班人员筛查。业务试用结果表明，系统能快速、准确地质控出更多的能见度疑误数据，提高数据审核人员筛查疑误数据的效率。

1 相关技术

1.1 质控方法

针对不同类型的气象数据，国内外设计、研发了各种质量控制系统，例如：在地面观测业务中，北欧采用台站级质控、入库前实时质控、入库后非实时质控和人工质控的方式对自动站数据进行质控[6]；美国使用台站-州-国家三级的质控方式对地面观测数据进行质控[7]；我国采用的气象观测数据质控方式是台站级、省级和国家级三级质控[8]。

不同质控系统中使用的数据质量控制方法主要分为以下几种检查方法[9-13]，分别是气候界限值检查、台站极值检查、内部一致性检查、时间一致性检查和空间一致性检查。

1)气候界限值检查：通常是从气候学的角度去判断某个气象要素的数值是否超过了不可能出现的气象要素临界值[8]。一般通过选择极值上下界来判定气象数据是否为疑误数据。

2)台站极值检查：检查原始观测数据是否超出台站已出现过的历史极值，如果数值超过历史极值，由观测员分析站点历史数据，按照实际情况和工作经验判断观测数据的正确性[9]。

3)内部一致性检查：不同气象要素之间在同一时间内是否满足一定的物理关系。若相应要素不符合这些关系，则至少有一个要素为错误数据[10]。

4)时间一致性检查：在一定时间段内，气象要素必须满足规律性变化[11]。如小时紫外线有明显的日变化，如果连续24小时无变化，则数据可能为疑误或错误。

5)空间一致性检查：气象要素在空间上(相邻台站)满足一定的连续性，常用方法有空间插值法、Madsen方法[12]、空间回归检查法[13]等。

1.2 CIMISS系统

本文设计的应用是基于CIMISS的接口服务研发的，CIMISS系统中数据流转的流程如下：CTS实时收集台站上传至省级节点的各类气象观测数据，对数据进行格式检查，快速质控等操作后，分别分发至国家级和DPC；DPC实时对分发来的数据进行解码入库，并调用数据简约处理流程负责入库如地面、高空观测类的结构化数据，诸如雷达、卫星云图等非结构化数据由SOD上的处理流程负责入库；MCP实时接收其他模块发送的运行及告警信息，并监控、预警各类观测数据；CIMISS系统采用MUSIC接口形式封装数据库数据，对外提供数据读取服务。

1.3 SSH框架

本文设计的应用采用SSH框架技术，以Browser/Server模式来跨平台呈现能见度质控数据。SSH框架是由Struts 2、Spring和Hibernate组成的，属于主流的轻量级J2EE软件开发架构。采用该框架开发应用，能较好地对应用功能模块分层、解耦，明确项目成员分工，加快开发进度，缩短开发周期，使应用具有良好的扩展性和维护性。其中：Struts 2是以Webwork为核心的逻辑控制器，采用拦截器机制来响应前端用户提交的Web请求，将Servlet与业务逻辑控制器分离[14]；Spring是属于轻量级的Java Web框架，通过配置文件及事务管理机制，可灵活管理多种数据库，提供多元化的业务逻辑[15]；Hibernate采用O/R Mapping技术，通过配置XML文件或Annotation注解为Java对象和各类数据库中的表结构建立一种或多种映射关系，操控对象即操作数据库[16]。

2 算法设计

目前，MDOS对能见度要素仅使用界限值检查等简单方法进行质控，使得许多疑误数据被遗漏，降低数据审核值班人员筛查疑误数据的效率。因此，分析、研究海南省各国家气象观测站的能见度要素与其他要素间的相关性，总结得到小时能见度变化预估值拟合公式，并引入时间一致性检查、内部一致性检查等方法，提出基于CIMISS的DBQC算法，算法通过多时次质控原始气象观测数据，能快速、准确地质控出能见度疑误数据。

2.1 能见度与其他要素的关联性

与能见度变化直接相关的要素有降水量、天气现象(轻雾、雾、霾)，但由于台站实现自动观测后，天气现象数据由能见度与相对湿度等相关气象要素来判断，因此不能通过天气现象来判断能见度要素是否存在疑误，但相对湿度、风速这两个要素与能见度存在一定的关联性。

以部分国家气象观测站为例，选取2017年6月7日至2018年10月29日时间段，共计262 419条地面原始观测数据，分析能见度与相对湿度、风速这两个要素的相关性，得出能见度与相对湿度、风速的相关系数，如表1所示。可以看出部分台站能见度与相对湿度存在负相关，与风速存在正相关。

表1 部分台站能见度与其他要素的相关系数

对小时能见度实际变化值ΔV与相对湿度变化值ΔP、风速变化值ΔW进行二元线性拟合，得出拟合公式：

Δy=-1 186.7-745.36×ΔP+217.34×ΔW

(1)

式中：Δy为小时能见度变化预估值。将预估值与实际变化值进行对比，可作为判断能见度变化是否异常的参考。

此外，当能见度出现大幅度降低时，还可通过上一时次有无降水来判断能见度是否出现疑误：

(1)该时次有降水量，则能见度变化为正常现象；

(2)该时次无降水量，则通过前后时次相对湿度和风速的变化来进行判断。

根据对全省历史小时能见度与最小能见度进行分析和对各类差值的统计，得出阈值Δ的0取值公式，如式(2)所示，当对比数值小于阈值Δ时，则该时次能见度为正确数值。

(2)

2.2 算法思路

针对小时能见度质量控制存在的问题，分析海南本地能见度与其他气象要素的相关性，引入时间一致性、内部一致性等检查方法，重新设计小时能见度质量控制算法(DBQC算法)。其中对于能见度界限值的检查，根据最新气象观测业务规定，小时能见度的数值均应在0～30 000米的范围内。

算法思路分为两个质量控制阶段a和b，实现对能见度数据的双重质控，及时、有效地质疑出符合要求的疑误数据。其中：Δ为能见度阈值；V10i为10分钟平均水平能见度；VMINi为最小水平能见度；Flag为数据疑误标识；Δyi为小时能见度变化预估值；i为时次。

1)质量控制阶段a的流程如图1所示。遍历当前时次各台站的最小能见度，初始化阈值Δ，并对V10i和VMINi进行极值检查和同气象要素间的内部一致性检查，用于初步筛查出满足条件的疑误数据。接着，比较当前时次能见度实际变化值ΔV与阈值Δ的大小：(1)若ΔV小于Δ，则该时次不满足疑误条件，属于正常范围的数值。(2)若ΔV大于Δ，需要判断上一时次是否出现降水。若出现降水，则该时次能见度数据正确；若无降水，则需要计算VMINi与V10i-1的差值，并再与阈值Δ比较，若小于，则该时次能见度数据正确，反之，则由于式(2)的设定，数据被质疑为疑误。

图1 一阶段质控流程a

2)质量控制阶段b的流程如图2所示。对阶段a中产生的Flag为1的数据进行再质控，先遍历这些数据，依次初始化初始化阈值Δ，对VMINi进行极值检查后，计算当前时次和上一时次V10的差值，并与Δ比较。若小于，数据为正确的；若大于等于，需判断是否有降水。若有，数值未发生陡降，满足同一要素的时间一致性检查，数据为正确；若无，需要计算下一时次V10i+1和当前时次VMINi的差值绝对值，再与Δ比较。若大于等于，数据为正确；若小于，计算实际变化值ΔVi(V10i-V10i-1)与预估值Δyi的差值绝对值，与Δ作最终的比较，若小于，数据为正确，反之，为疑误。

图2 二阶段质控流程b

3 实验

3.1 实验环境

使用Java编程语言来实现DBQC算法，系统参数如表2所示。

表2 系统参数表

3.2 业务数据集

算法处理的业务数据集为2019年1月至2019年5月期间的所有国家站逐小时数据，调用CIMISS接口获取该时间段原始数据，预处理后入本地数据库。

3.3 结果分析

使用DBQC算法质控后的结果与MDOS系统快速质控后的结果进行对比，结果如表3所示。表3中的准确率表示从业务数据集中筛查出的能见度疑误数据，经人为确认后是否为疑误的概率。

表3 对比结果

由对比结果可知，使用DBQC算法质控原始观测数据的能见度要素，比MDOS质控出更多的疑误数据。这是因为MDOS仅使用界限值检查等方法对小时能见度数据进行质量控制。而DBQC算法引入时间一致性和内部一致性检查等方法，分析能见度与其他要素的关联性，对数据进行多时次双重质控，能较好地发现类似“低谷”数值的疑误数据。因此，本文提出的DBQC算法能快速、准确地质控出更多的能见度疑误数据。

4 平台实现

为了让值班人员能更好、更快地审核能见度疑误数据，在上述基础上，根据实际的值班需求，分析、总结小时能见度实时质控的流程，使用基于Java EE的SSH框架，研发一个用于展示、搜索经过DBQC算法质控后的小时能见度实时质控平台。

整个质控流程如图3所示，值班人员通过浏览器打开能见度监控页面后，后台将自动调用小时能见度质控模块：(1)数据入库：后台先从数据库查询最新的质控时次，若是第一次部署应用，数据库为新库，后台根据应用服务器的系统时间，自动生成Music语句读取接口，获取相应时间段内的原始观测数据来初始化数据库，若非新的数据库，后台自动获取数据库中最新的质控时次，并生成Music语句读取接口来获取需要入库的原始观测数据。(2)数据质控：数据入库后，后台自动遍历质控状态码为0(0为未质控过，1为完成一阶段质控，2为完成二阶段质控)，疑误码为2(0为疑误，1为正确，2为未判断)的数据，对这些数据进行一阶段质控，筛选出部分疑误数据；一阶段质控完成后，后台再对一阶段产生的疑误数据进行质控。

图3 实时小时能见度质控流程图

前台Web页面如图4所示，值班人员能实时看到最新的能见度质控结果，可查询相关疑误数据的相关时次数据，便于查找疑误数据出现的原因。

图4 能见度质控展示页面

5 结语

MDOS中现有的能见度质控方法比较薄弱，会漏检许多疑误数据，为提高能见度疑误数据的质控效率，在分析海南能见度要素与其他气象要素的相关性，引入时间一致性、内部一致性等检查方法，本文提出DBQC算法。算法对能见度数据进行双重质控，与现有MDOS的能见度质控效果相比，能有效地质控出更多的疑误数据。在此基础上，研发一个能见度质控监控平台，使值班人员能快速地筛查能见度疑误数据。经业务试用，各模块运行稳定，有效提高了数据审核人员的疑误筛查效率。