基于MVC架构的多维数据压缩存储方法研究

2022-05-14常会丽周金莲

计算机仿真 2022年4期

常会丽，周金莲，2

(1. 宁夏理工学院计算机科学与工程学院，宁夏石嘴山 753000；2. 东北大学计算机科学与工程学院，辽宁沈阳 110169)

1 引言

科技迅速发展导致数据量朝着大容量以及多样性的方向发展，增加了存储方式的难度。多维数据内存在庞大的冗余信息[1]，多维数据压缩方法的目的是以确保重构数据精准性为基础，最大限度地降低传输所需的码字，利于数据流的传输和存储[2，3]。

王鹤等人提出基于分布式压缩感知和边缘计算的配电网电能质量数据压缩存储方法[4]，利用同步正交匹配追踪算法进行配电网电能质量数据压缩，各节点稀疏系数间的互相关度实现配电网的谐波污染动态分区，通过K-SVD字典学习算法对配电网测量值进行分析，实现电能质量数据的高精度压缩。赵会群等人提出基于密度划分的数据存储方法[5]，通过密度区域划分算法降低高度重复数据的冗余度，利用缩LZW算法有效减少数据存储空间。但这两种方法压缩效率较低，因此以节约多维数据存储空间为前提，提升数据压缩效率以及适用范围为目的，研究基于MVC架构的多维数据压缩存储方法。

2 基于MVC架构的多维数据压缩存储方法

2.1 MVC架构

MVC架构主要包含三个单元，分别是多视角视频编码器、传输/存储与多视角视频解码器，其具体架构如图1所示。

图1 MVC架构

MVC技术是依据视角间的相关性与视角内部的相关性，提升多维数据的压缩效率；多视角视频编码器利用多维矢量矩阵的MVC方法压缩多维数据；传输/存储单元利用关系数据库方法存储压缩后的多维数据；多视角解码器通过多视角编码器的反过程实现解码，方便用户查询。

2.2 基于多维矢量矩阵的MVC多维数据压缩方法

基于多维矢量矩阵的MVC多维数据压缩方法的流程如图2所示。

图2 多维数据压缩流程

利用8×8分块采样处理原始数据，方便变换编码的实现，8×8×8分块代表各分块在长度维度、宽度维度与时间维度的限制值分别是8、8与8。

利用多维DCT正交变换方法处理重组的数据，表达公式如下

(1)

(2)

变换表达公式如下

(3)

通过压缩编码处理变化后的系数矩阵数据，提升多维数据压缩效果；压缩编码操作是利用非均匀量化方式量化编码变换后的系数矩阵数据；依据差分编码方式实现量化后数据内相关性强的系数的预测编码，达到多维数据压缩目的[6]；多维扫描处理差分后的数据，提升零元素的连接数量；行程编码扫描后的数据，增强多维数据压缩效果[7]。

正交变换后的多维数据内低频分量值基本处于四维空间坐标原点周围，其值与距原点的距离成反比，绝大多数高频分量值无限接近0；多维数据量化矩阵的表达公式如下

A=(αxymn)8×8×8×8

αxymn=1+q((x+1)2+(y+1)2+(m+1)2+

(n+1)2-1)p

(4)

式中，坐标原点为x，y，m，n=0，1，2，…，7；多维数据排列表用αxymn表示；量化因子分别是p与q，且-0.8≤p≤0.8，1≤q≤100；在p=0，q=0情况下，量化矩阵A内全部系数均是1，说明未展开量化处理；量化因子的取值与量化效果密切相关。

差分编码量化后的数据，设变换后的数据将矩阵内与坐标原点距离最近的首个元素作为直流分量DC，剩余元素属于交流分量AC。针对n个视角8×8×8×n分块的多视角数据，各分块均包含8×n个直流系数。因为直流分量数值大于交流分量数值，说明直流分量具备很强的相关性[8]，所以通过差分编码形式预测编码DC分量，保留AC分量，完成多维数据压缩。

令多视角数据分块数量是K，每个分块间直流系数差分的表达公式如下

(5)

式中，差值是Diff。

通过多维扫描处理差分编码后的数据，增加零元素数量，多维扫描的数学表达公式如下

F(B1，B2，…，Bm)=H

(6)

式中，多维数据量化矩阵集合是Vm；常数是H；在数据的多维分块是N1×N2×…×Nm时，H的取值范围是0≤H≤N1+N2+…+Nm-m，Bm的取值范围是0≤Bm≤Nm-1；Bm的函数是F(*)；计算公式如下

F(z)=B1+B2+…+Bm=H

(7)

针对8×8×8×8分块方式的多维数据，按照多维扫描公式获取其表达形式如下

u=a+b+c+d

(8)

式中，每个维度中的坐标值分别是a、b、c、d，0≤a≤7，0≤b≤7，0≤c≤7，0≤d≤7且四个坐标值均为整数；多维扫描后的数据是u，0≤u≤28且数值是整数。

依据从小至大的顺序排列各个坐标集合中的全部坐标值，多维扫描的坐标排序结果如下

a+b+c+d=0⟹0000

a+b+c+d=1⟹0001→0010→0100→1000

a+b+c+d=2⟹0002→0020→0101→…→1100→2000

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

a+b+c+d=26⟹5777→6677→6767→6776→…→7766→7775

a+b+c+d=27⟹6777→7677→7767→7776

a+b+c+d=28⟹7777

(9)

因为多维扫描结束后，多维数据内存在大量连续的零元素，没有重复的非零元素，所以仅利用行程编码处理多维数据内的零元素，仅保留一个连续且一致的零元素并记录一致零元素的数量。在0之后是负数的情况下，仅保留一个0，重复次数为1；在0之后是整数的情况下。以(0，1)形式保存数据，降低解码过程中0之后的正数被解码成重复次数的可能性。

2.3 基于关系数据库的多维数据存储方法

利用关系数据库存储压缩后的多维数据，压缩后的多维数据格式是XML多维数据；关系数据库的存储流程如图3所示。

图3 关系数据库的存储流程

利用关系数据库存储压缩后的多维数据关系的具体步骤如下：

步骤1：大部分多维数据均是基于DTD(Document Type Definition，数据类型定义)，转换XML DTD至XML Schema，提升压缩后多维数据的标准化。

步骤2：深加工处理XML Schema，生成DOM(Document Object Model，数据对象模型)树模型。

步骤3：构建存在所有模式的模式空间，根据哈希连接算法构建代价评估模型，获取查询代价最小的模式，哈希连接算法的代价模型表达公式如下

O=3(|G1|+|G2|)+P1·P2·|G1|

(10)

式中，压缩后多维数据列表的大小分别为G1与G2；查询对关系表的选择概率分别为P1与P2。

根据压缩后多维数据实例信息获取第i个子图元素Ei的实例数量是|Ei|，Ei的属性列宽度是Wi，依据这两个统计量获取第i个扩展子图Mi的大小，计算公式如下

(11)

式中，j表示子图编号。

模式S内依据连接操作顺序获取查询Ei包含的子图是{M1，M2，…，Ml}，与子图相应的关系的大小是|Mk|，路径选择率是Pk；按照关系数据库连接操作代价和XML查询表达式的关系，并基于哈希连接算法的代价模型计算出Ei的查询代价，计算公式如下

(12)

式中，k表示子图编号；l表示子图数量。

针对模式S，其查询负载的计算公式如下

(13)

式中，查询代价的权值是ωi。

步骤4：通过改进的爬山算法获取最优模式，利用映射规则结合DOM树模型将最优模型映射成关系模式，构建关系数据库。

3 实验分析

在某网站随机抽取10组多维YUV视频数据为实验对象，并按照数据量从小到大的顺序排列这10组多维YUV视频数据，10组多维YUV视频数据的数据量范围是1GB-100GB，Y帧代表多维视频数据的亮度信息，U帧与V帧代表均多维视频数据的颜色信息，利用本文方法对10组多维YUV视频数据实施压缩存储。

3.1 压缩效果分析

将压缩比与峰值信噪比作为分析本文方法压缩效果的评价标准，压缩比代表压缩能力的好坏，其值与压缩效果成正比，压缩比Cr的计算公式如下

(14)

峰值信噪比代表压缩后数据和原始数据的差距，其值与数据还原度成正比，与压缩效果成正比，峰值信噪比PSNR的计算公式如下

(15)

式中，原始多维视频数据是f(m，n)；压缩后多维视频数据是g(m，n)；目前帧的长是M；目前帧的宽是N。

在10组多维YUV视频数据内随机选取1组多维YUV视频数据，利用本文方法对这组多维YUV视频数据的全部分块实施压缩，在不同数值的量化因子p与q时，计算本文方法的压缩比与峰值信噪比，评价本文方法的压缩性能，压缩比与峰值信噪比计算结果如表1所示。

表1 不同量化因子时的压缩比与峰值信噪比

根据表1可知，情况1中，在Y帧的量化因子pY与qY固定时，其峰值信噪比也未发生变化；在U帧的量化因子pU降低qU增加时，其峰值信噪比不断降低；V帧的峰值信噪比变化情况与U帧一致；在降低U帧与V帧峰值信噪比的同时提升整体多维YUV视频数据压缩比，但提升幅度较小，此时多维数据压缩效果不明显。情况2中，在不改变U帧与V帧的量化因子仅改变Y帧的量化因子时，随着量化因子pY不断增加，qY不断降低，其峰值信噪比呈现小幅度降低趋势，同时多维YUV视频数据压缩比存在较大幅度的提升趋势。实验证明：在U帧与V帧量化因子数值固定不变时，合理增加Y帧量化因子数值，可确保以最小峰值信噪比下降幅度，换取最大程度压缩比提升幅度，提升多维数据压缩性能。

将文献[4]的配电网电能质量数据压缩存储方法与文献[5]的密度划分数据存储方法作为本文方法的对比方法，分别记为方法1与方法2，利用三种方法对10组多维YUV视频数据的全部分块实施压缩，三种方法的压缩时间如表2所示。

表2 三种方法的压缩时间(s)

根据表2可知，随着多维PUV视频数据的数据量不断增加，三种方法的压缩时间均开始延长，本文方法的压缩时间明显低于其余两种方法，本文方法的平均压缩时间是40.345s，方法1的平均压缩时间是190.929s，方法2的平均压缩时间是175.714s。实验证明：本文方法的压缩时间较短，具有较优的多维数据压缩效果。