APP下载

中山市气候站数据质量控制的设计与实现

2020-02-04吴道航刘江顺吴添圆

电子技术与软件工程 2020年12期
关键词:中山市数据量差值

吴道航 刘江顺 吴添圆

(中山市气象局 广东省中山市 528400)

中山市气候站高效的工作,采集到了比以前更多的气象数据,但是气候站观测数据不仅数据量庞大,而且数据格式差异大,且由于气候站运行方式为全日时工作方式,数据采集以及传输受到电力、通信条件和观测环境等因素的限制,数据质量一直是资料使用人员和业务管理者关注的话题。

目前,气候站存在数据量大,数据格式不统一,测量数据不相关等现象,比较明显的有“数据不完整”、“异常数据”等现象,限制了气候站在中山市气象业务中的进一步应用。气象站数据质量控制是气象数据应用的预处理,其特点是:数据量大,系统结构复杂,系统模型不固定。针对中山市气候站观测的各气象要素数据格式特点,设计和实现其数据质量控制程序,能有效提高数据可用性,确保气候站观测数据质量的有效性,利于气象从业人员使用。

1 数据质量控制的设计

中山市气候站采集每分钟的数据,数据量大,人工对其进行数据质量控制工作量大且容易出错,现使用python 编程读取自动气候站数据、设置了对应的要素标识,进行界限值检查(检查要素值是否在其测量允许值范围之内)、时间一致性检查(大气中的有些观测数据与时间显著相关,具有良好的时间一致性,将此类数据与其时间上前、后的测值相比较,来判断其数据是否发生异常)等数据质量控制,最后再入库,如图1 所示。

针对入库的数据,读取整点数据,将其和新型自动气象站的气温、气压、风向、风速作对比分析,对对比结果进行分析研究。分析其相关性、显著性检验,检验自动气候站与新型自动气象站差值遵从正太分布,通过拟合曲线可视化。

2 数据质量控制的实现

定义综合质控码,如0 代表数据正确,1 代表数据可疑,2 代表数据错误。为方便使用,为各气象观测要素、统计值要素设置了对应的符号,对应着观测要素符号标识表。做出数据质量控制方法和符号,如质控方法为界限值检查,对应符号为f1(e),并添加备注f1(e)为该方法的QC 码,e 为要素。在气温、气压、风数据界限值检查、时间一致性检查算法上,给出质控方法、算法、QC方法质控码、备注,做成检查算法表。使用python 编程语言,PYCHARM 作为编程环境,ANACONDA 作为管理项目库环境。在读取单个TXT 文件时先做异常处理,去除双行为两个英文字符的行,同时去除数据缺少的行。

在读取文件过程中,找前一分钟温度和前一小时温度,并对其作界限值检查、时间一致性检查等数据质量控制,并对进行数据质量控制的数据标记数据质控控制码,如图2 所示。

因文件数据量大,需读取厂家文件夹下的所有TXT 文件, 为防止列表过长,每4 个文件插入一次,并清零列表。最终,经过数据质量控制入库。将错误数据、缺测数据依据前十分钟数据、后十分钟数据、内插法等方法补全气候站温度数据。同理,气压的数据处理同上。

3 数据对比分析

图1:数据质量控制程序

图2:时间一致性检查

气候站与新型自动站气温和气压的相关性较好,气温相关系数为1.0,气压相关系数为0.99,均通过0.01 的显著性检查。小时气温差值的频数分布如图3 所示,小时气压差值的频数分布如图4 所示。

在显著水平0.05 下(气象上常取),检验气候站与新型自动站气温差值、气压差值遵从正态分布。记偏度系数g1,峰度系数g2,计算公式如下:

式中m2, m3, m4分别为二阶、三阶、四阶中心矩,k 阶中心矩表示为:

气温计算结果如下:

图3:小时气温差值的频数分布

图4:小时气压差值的频数分布

|g1|>0.074,|g2|>0.5384,则拒绝假设,认为气候站与新型自动站气温差值不遵从正态分布。气候站与新型自动站气温差值的偏度系数为正,分布图形的顶峰偏右,峰度系数为正,表示分布图形坡度较陡。

气压计算结果如下:

|g1|>0.075,|g2|>0.576,则拒绝假设,认为气候站与新型自动站时数气压差值不遵从正态分布。气候站与新型自动站气压差值的偏度系数为负,分布图形的顶峰偏左,峰度系数为正,表示分布图形坡度较陡。

4 结论

气候站数据经过数据质量控制程序进行数据格式读取、数据预处理、界限值检查、时间一致性检查后再入库,再对错误数据、疑误数据进行处理,保证数据的完整性。将质控后的气候站数据和新型自动站数据进行对比分析,相关性较好,确保气候站观测数据质量的有效性,利于气象从业人员使用。

猜你喜欢

中山市数据量差值
中山市威硕机械制造有限公司
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
差值法巧求刚体转动惯量
宽带信号采集与大数据量传输系统设计与研究
枳壳及其炮制品色差值与化学成分的相关性
基于区域最大值与平均值差值的动态背光调整
用平均差值法制作乡镇精细化温度预报