APP下载

基于多维日志数据的典型可视分析问题研究

2021-10-12王佳付荣李明东姜飞李雪竹

客联 2021年8期
关键词:关联性可视化

王佳 付荣 李明东 姜飞 李雪竹

摘 要:数据可视化能够把数据中隐藏的规律和特征以图形的方式呈现出来,使得用户可以快速地、直观地了解数据中的信息,多维数据可视化是对海量的多维数据进行分类是一项复杂的工作,本文提出了一种多维时空数据协同可视分析的方法。

关键词:多维数据;可视化;关联性

一、数据可视分析概述

(一)数据可视原理介绍。数据可视化综合运用计算机图形学、图像处理、人机交互等技术,将原始数据变换为可识别的图形符号、图像、视频或动画,并以此呈现对用户有价值的信息。用户使用可视化交互工具进行数据分析,通过对可视化结果的感知获取知识,并进一步提升为智慧。因此,数据可视化的终极目的是对事物规律的洞悉,即从数据中发现、决策、解释、分析、探索和学习,而非所绘制的可视化结果本身。在数据可视化的工作中更关注数据和图形,由此建立的数据可视化领域模型如图1所示。

“数据可视分析”是指实时的、人机互动的、更加直观的数据分析工具,让人和机器进行真正的交流,给予企业真正的“大数据认知能力”。在大数据时代,可视化在数据的获取、处理和分析阶段都发挥着重要的作用。以大数据为基础,以可视化和数据分析模型作为两翼,共同为用户创造价值,三者缺一不可,相辅相成。

(二)数据可视与数据挖掘之间的关联。数据可视化与数据分析和数据挖掘的目标都是从数据获得信息与知识,但方式有异。数据可视化将数据呈现为可以直观感知的图形图像,用户可以通过交互操作发现数据中隐藏的规律和特征;而数据分析和数据挖掘根据特定的模型,自动地获取数据中隐藏的信息,并把最后的结果直接交给用户,缺乏交互性。为了充分利用可视化技术,数据挖掘领域已提出了可视数据挖掘的方法,其核心是将数据挖掘的结果用可视化方法予以呈现

二、数据可视过程

(一)數据可视化的环节。学可视化和信息可视化均设计了可视化流程的参考体系结构模型,并被广泛应用于数据可视化系统中。它描述了从数据空间到可视空间的映射,包含串行处理数据的各阶段:数据分析、数据滤波、数据的可视映射和绘制。可视化模式:是指据展现形式的概括。数据可视化的首要任务是选择合适的视觉编码,采用何种视觉编码由感知系统的特性、数据的属性和任务目标等因素决定。在大数据时代,由于采集的数据量大而且数据具有动态性,这就要求可视化方法不仅能静态展示还能够高效地进行动态展示。

(二)多维时序数据趋势性分析问题的描述。多维时序数据趋势性分析的难点在于当数据量很庞大时,如何对大量客观对象的变化趋势进行同时展示,在有限的空间内如果对数据的各个属性都进行展示则会导致图形或图像相互覆盖的问题。假设每个对象在一个时间段内有一个数据记录,共有n个时间段,可以得到时间和数据的二元组集合:

                        (1)

si为ti时间段的数据值,i=1,2,… ,n。在此基础上计算出每个对象在t1

到tn时间段内阶段数据值的相关信息,数据结构如下:

(2)

(三)可视分析中数据降维设计。对于具有多维性和时序性的数据如果不能有效地进行投影,将使可视结果混乱,如交易数据。数据走势图可以让用户直观的了解对象的数据走势,通过时间和阶段值二元组可以绘制出走势图。

(四)规程变化中性能趋势预测。波动性反映对象的变化趋势是否平稳,数据值是否存在较大波动;动力性反映对象的数据量是否具有较好的持续性以及数据值的增长是否比较强劲。通过这两个指标用户对观察对象的前景有一个预期,可以提前做好预测和计划。

三、多维数据流CCA跟踪算法

(一)算法基本思路。TCCA建立在滑动窗口模型基础上。根据滑动窗口模型,时间流逝过程中,窗框持续前滚,每步删掉窗框内一条最早到达的记录,同时新增一条当前时刻到达的新记录。若窗框中的两组数据都有相同的记录数见而第一组数据的维数为p第二组数据的维数为W则第/时刻窗框中的记录构成的矩阵表示如下:

(4)

(二)算法稳定性分析。实验主要考察算法TCCA的稳定性,评估时用算法运行时间的标准差大小度量其稳定性。为求解算法TCCA的执行时间标准差,需多次重复执行算法。实验在人工合成的数据集DSG上进行。算法执行过程中所产生的数据维数较低,而数据规模则为中小规模,确切地说,第一组数据是5维,第二组数据是8维,两组数据的总容量皆为1100,而窗框长度固定为100。共进行了两个实验,第一个实验在一次随机产生的数据上观察,结果如图2所示;而第二个实验则考察算法在重复15次产生的数据上的平均执行时间。

四、总结

提出的多维时空数据的多维属性协同可视分析方法,该方法可以对多层次属性的值分布及其相互关系进行分析;对隐藏在时空数据中的时序特征也设计了可视分析方法,利用MDS算法进行空间变换,把原始的多维时空数据按时间顺序映射到时序坐标轴上,通过坐标轴空间的放缩增强用户对数据的理解;为了解决平行坐标中大量曲线无法识别的问题,设计了层次聚类算法对数据按类别进行特征分析,以使用户可以快速对大量数据的时空演变规律进行总体分析。

参考文献:

[1] 张怡,熊朝阳,张加万.多维数据的不确定性可视相关分析[J].计算机辅助设计与图形学学报,2018,30(06):1089-1099.

[2] 不确定性数据管理技术研究综述[J]. 徐震.中国新通信.2018(02)

[3] 王雄斌. 面向大规模多源传感流数据的关联在线检测方法[D].北方工业大学,2017.

基金项目:2020年宿州学院虚拟仿真实验教学项目(编号:szxy2020xnfz02);2021年国家级大学生创新创业训练计划项目(编号:202110379027);2020年安徽省教育厅高等学校省级质量工程项目(编号:2020szsfkc1004);2020年宿州学院校级质量工程项目(编号:szxy2020xxkc07);2020年宿州学院专创融合重点课程项目(编号:szxy2020zckc22)。

猜你喜欢

关联性可视化
蒙授高中英语教学与课外活动的关联性
基于单元视角的关联性阅读教学策略浅探
数据可视化设计在美妆类APP中的应用
画图:数学思维可视化的有效工具
学贯中西(4):AI的时序性推论技能
思维可视化
基于GeoGebra的高中物理可视化教学研究
利用问题间的关联性思考问题
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学