APP下载

基于云储存的气象数据动态可视化重建算法设计

2023-01-24高晓静艾文文王博妮张岚许福根

电子设计工程 2023年2期
关键词:数据量储存气象

高晓静,艾文文,王博妮,张岚,许福根

(江苏省气象局,江苏南京 210019)

随着大数据技术在气象检测数字化中的应用,气象部门积累了大量历史气象数据。如何储存和处理产生的海量数据,并及时将检测结果进行可视化分析,成为了气象领域相关学者研究的热点课题之一[1-3]。各类先进、精密的设备不间断地产生海量数据,这些数据的背后蕴含着一定的逻辑关系,可为气象灾害风险评估提供必要的数据支撑[4]。

传统数据挖掘分析方法在面对以兆为数量级高速增长的数据时,存在处理速度慢、计算效率低等缺点;而云计算技术则在海量数据计算方面展示出了强大的优势[5-9]。利用云计算技术来储存与处理海量气象数据,已成为当前的研究热点方向之一。借助动态监测技术,并将分析结果利用计算机图形技术以图像的形式展示出来,可提高人们对气象信息的整体认知,进而降低气象灾害带来的损失[10-13]。

该文针对气象数据采集途径和数据特点,使用云储存技术进行气象数据的储存与处理,并提高数据处理效率。采用基于视频压缩编码的方法将气象数据进行分解,并利用双线性插值法对其进行修正,最终通过压缩矩阵Apriori 改进算法完成数据压缩。

1 云储存技术结构

根据研究对象的不同,气象数据可分为地面气象数据、高空气象数据、海洋气象数据和卫星探测资料等,这些气象数据通常包含了一系列气象要素:气温、气压、湿度、风速、紫外线指数及降水量等。这表明气象数据为多源多维数据。由于数据采集方式的不同,地面站与高空站采集到的气象数据为关于时间的连续性数据,这些数据也关联了采集地的地理信息。

针对气象数据的上述特点,面向气象动态数据可视化重构算法的云储存技术被设计为五层结构:基础设施层、平台层、应用层、大数据层及用户层,具体架构设计如图1 所示。

图1 该文云储存架构设计

其中,基础设施层为主要用于气象数据动态可视化的物理设备,主要有主机、储存器、数据中心及网络设备等。在云计算环境下,原有的基础设施需要进行云化处理,这些设备的计算资源与储存资源可实时动态调动,以实现资源的整合并提高资源利用率。平台层主要依托基础设施层进行云计算平台的搭建,涉及数据的储存、计算等操作。该文使用Hadoop 分布式文件系统进行文件冗余储存,同时采用MapReduce 实现气象数据的并行计算。应用层在平台层的基础上进行应用开发,实现气象站点、云平台的管理与监控等应用;大数据层则为应用层提供必要的数据支撑;用户层为气象业务部门、气象科研部门以及其他需要气象信息的行业提供访问渠道,从而实现气象数据的共享。

2 气象数据可视化重建算法

2.1 气象数据的预处理

考虑到气象数据的传输途径为无线网络,在网络环境下传输海量数据进行可视化应用,对数据处理算法的效率和速度要求较高[14-16]。该文根据相邻空间标量场与矢量场数据的特点,采用视频压缩编码的方式对数据重新进行编码,以提高数据传输的速度。

由于不同气象监测设备的数据格式不统一,无法建立相关联的可视化成像算法,因此需要将数据格式进行统一化处理。该文用于可视化重建算法的数据,在结构上分为数据头和数据主体两个部分。数据头为统一的储存日期、时间、预报时效、经度格距、纬度格距以及数据的类型信息;数据主体则为具体内容。

以温度数据为例,该文利用多维数据分解算法按照不同的时间,将四维数据分解成一系列同一空间的三维数据体;再将三维数据体按照不同高度分解成一系列结构一致的二维网格数据。这些网格数据代表着某时刻、某高度、某空间位置的温度信息,四维数据分解为二维数据体示意图如图2 所示。

图2 四维数据分解为二维数据体示意图

考虑到大多数气象设备采集到的数据存在精度低、可视化效果差的问题,需要进行插值处理来提高数据量。通常采用左上、左下、右上、右下这4个数据来获得采样点的数值。当这4 个网格点的数值相差较小时,则直接选取距离该采样点最近的网格点数值作为采样值,从而降低计算量。其取值示意图如图3 所示。而当4 个网格点的数值差异较大时,采用双线性插值法来获得采样点数值,如图4 所示。假定P为采样点,其坐标被定义为P(x,y),其数值为F(x,y)。而基于双线性插值法的表达式如下所示:

图3 不插值采样点取值示意图

图4 基于双线性插值采样点取值示意图

经过双线性插值处理后的温度数据具有以下特点:

1)具有时间、高度、经度、维度四维特征;

2)在不同高度层面上,经度、维度组成的二维网格数据是规则的二维网络数据;

3)数据量显著增加,新增了大量的无效图像化数据。

针对上述特点,由于采用了视频图像格式进行数据传输会产生无意义的2 GB 和Alpha通道,且这部分数据具有各向同值的特点,所以压缩操作对后续数据可视化处理并不会产生较大影响。

2.2 改进Apriori算法

为了提高对气象数据的潜在联系与规律数据挖掘的能力,需要对数据进行关联。由于气象数据的体量较大,使用少数计算机进行大规模数据处理需要消耗大量的时间;而云计算技术采用并行算法,则可显著提高数据关联的效率。关联规则是数据挖掘的一个重要领域,其目的是发现各类数据之间的关联性,实现数据的整体把控。对于任意一个事务数据库,关联规则被用来产生支持度和置信度,所生成的数值均不小于预定的最小值。

传统基于矩阵的改进Apriori 算法需要巨大的计算量,并在连接时生成过多的候选结果,增加较多的无用元素。针对此问题,该文将矩阵中重复的事务整合成一列,通过设定一个权值数组w来储存重复事务的条数,同时另外设定数组m,储存矩阵中元素为1 的列数。通过数组m来获取事务的长度,进而缩短压缩矩阵的时间。为了降低无用元素的个数,需要对矩阵的行与列进行压缩。

定理1:假定集合的项均按照字典顺序进行排列。当从k项集合生成k+1 项集合时,若这两个集合前k-1 项不一致,则称这两个集合为不可连接的。

推论1:根据频繁项集I支持度的计数递增顺序将每个项目集合中的元素进行排序,若存在两个频繁项集Ix和Iy是不可连接的,则Ix、Iy后续的项目集合均为不可连接。

由于无法连接的项集对数据挖掘的意义较小,根据以上定理和推论,可将矩阵中不能与相邻项集连接的子集行向量删除。同时修改数组m,将剩下的行向量按原顺序组成新的矩阵,进而缩小矩阵的规模。

在四维数据体被双线性插值处理为规则二维网格数据后,采用色彩空间变换方法将规则二维数据处理为RGB 图像;然后使用VP9 视频编码器和色度子采样模型将RGB 图像转化为视频数据,实现数据的可视化。在这一过程中,VP9 编码以最大冗余来进行编码压缩,从而保证数据质量。

3 测试与验证

该文测试使用的数据来自中国科学院国家空间科学中心网站,主要包含温度数据和风速数据两类,如表1 所示。测试硬件采用了Intel Core i7-6700HQ处理器、16 GB 内存、1 TB 固态硬盘以及Nvidia GeForce GTX 960M 显卡;软件则选用了Win7 64 位操作系统、HTML、CSS、JavaScript 等编辑语言。

表1 原始数据气象数据明细

从表1 可以看出,温度场和风场在纬度方向上并不是等间隔的,这对后期可视化处理效果具有较大影响。原始数据在经过双线性插值处理后,变为规则数据如表2 所示。在表2 中,温度场数据和风场数据在纬度方向已转变为5°的间隔数据,且整体数据量有所增加。

表2 插值后气象数据明细

为了验证该文所提出的视频压缩编码方法(M3)在数据传输方面的优势,使用局域网环境进行对比实验。对照组采用基于DAT(M1)和分包ZIP(M2)两种数据传输方法进行同等可视化质量数据传输试验。在试验中,同等可视化质量被定义为单帧图像分辨率为1 080 P,其具有相同的数据可视化实际空间分辨率和比例尺数值。为了降低网络传输的影响,均采用HTTP 协议进行数据的网络传输,并采用连续25 帧的数据传输量以降低缓存效率与传输丢包的影响。对比实验结果如图5 所示。

图5 不同方法所需数据量对比

从图5 可以看出,在进行同质量可视化单帧图像处理时,三种数据传输方法所需的数据量具有明显差异。针对温度场和风场,二进制化的DAT 格式所需的数据量比分包ZIP 压缩需要的数据量多52.1%。这是因为分包ZIP 压缩能够去除冗余的数据,大幅减小需要传输的数据。而该文所提出的基于视频压缩编码算法在进行同质量可视化单帧图像处理时,所需的数据量在三种数据传输方法中最小,比分包ZIP 压缩算法低31.8%。这是因为基于视频压缩编码方法传输的数据是每一层网格数据的差异值,而不是原始数据。在保证数据信息不丢失的情况下,降低了传输数据量。

4 结束语

该文利用云计算平台进行气象数据可视化处理,有效提高了海量数据的储存效率和计算能力。所述方法利用视频压缩编码算法实现了网格化的数据降维,通过引入双线性插值法完成了分解后的必要性修正,最后基于改进Apriori 算法实现了数据的大幅压缩。实验验证结果表明,该文所提出的基于云储存的气象数据动态可视化重建算法,在提高数据传输速率方面具有良好的工程应用价值。

猜你喜欢

数据量储存气象
气象树
基于大数据量的初至层析成像算法优化
《内蒙古气象》征稿简则
冬季养羊这样储存草料
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
大国气象
美丽的气象奇观
安防云储存时代已来
精液长时间冷冻储存与冷冻复苏率的相关性研究