APP下载

基于旅游大数据的数据降维方法分析与研究

2017-12-01张成龙

度假旅游 2017年7期
关键词:降维复杂度线性

张成龙

(茅台学院酿酒工程自动化系,贵州遵义564500)

基于旅游大数据的数据降维方法分析与研究

张成龙

(茅台学院酿酒工程自动化系,贵州遵义564500)

当前,大数据技术在金融、贸易、和医疗健康等行业得到了较好的应用,但在旅游领域的应用还处于起步阶段。该文首先对旅游大数据的特点进行了简要的分析,针对这些数据特点系统总结分析了旅游大数据降维方法,并详细介绍了当前应用最为广泛的几种数据降维方法,深入分析、比较了不同降维方法的优缺点,最后提出了数据降维技术仍待解决的问题与今后的研究方向。

旅游大数据;数据降维;主成分分析;拉普拉斯特征映射

近年来,随着我国“互联网+”发展战略的提出,旅游行业得到大力发展,信息技术等高端技术在旅游产业广泛应用,各大景区景点管理监测系统不断完善,以及同城旅游、飞猪等相关旅游APP的应用推广,这些系统应用通过记录与游客相关文本、图像、音频、视频数据,产生并积累了大量的旅游数据[1],这些数据组成类别多样,同时还存在强非线性、样本分布不均、低信噪比、高维度等特点,由于这些数据与传统意义上的数据有很大的不同之处,因此在进行旅游数据的分析处理过程中,我们要根据不同数据的特点采取不同的技术方法。

数据降维技术是当前对大数据进行分析的最常用的方法,其目的是通过线性或非线性映射将样本从高维空间映射到低维空间。对旅游行业来说,其主要的数据来源是旅游系统、应用不断储存积累记录的与游客相关的文本、图像、声音、视频等数据,这些数据普遍具有高维性。如果用传统的数据处理方法对数据进行处理往往会存在“维数灾难”[2]与“空空间现象”[3]等问题,因此对旅游行业产生的数据进行降维处理就成了旅游大数据分析的一个重要步骤和组成部分。

目前大量国内外研究学者提出了许多降维方法,单纯从技术层面上讲,降维方法可以分为线性以及非线性两种类别,因此本文从两种不同分类类别出发,详细阐述了现有几种经典降维方法以及它们之间的区别,并对所述方法进行系统分析比较,最后针对待解决的问题提出自己的观点。

1 数据降维的线性方法

1.1 主成分分析方法

主成分分析方法[5](Principal Component Analysis),也被称为PCA算法。它是最早开始使用的线性降维方法,该算法通过构建样本协方差矩阵进行特征提取,可以快速有效完成样本数据的处理、压缩和提取。

假设数据空间RD中的一个具有N个样本的样本集{Xi},样本点的维度为d,协方差矩阵为M。其算法实现步骤如下:

Step 1:将样本集表示成矩阵形式,并对矩阵进行归一化处理。

Step 2:计算协方差矩阵,并求出对应的特征值及特征向量。

Step 3:降序排列特征值对应的特征向量,取前k行组成新矩阵M。

Step 4:计算Y=MX,Y即为降到k维后的低维数据。

尽管PCA算法被人们所广泛使用,但PCA算法还是有一定的局限。第一,作为一种线性降维技术它不适用于非线性结构数据分析;第二,当前还没有精准可靠的方法代替过往经验,用来确定主成分保留程度。

1.2 线性判别分析法

线性判别分析法(Linear Discriminant Analysis),也被称为LDA算法。作为一种经典的模式识别算法,该算法主要采取映射实现原始数据到低维空间的投影,最大化不同类别的样本点的类间距离,同时最小化同类别的样本点的类内距离。

其算法实现步骤如下:

Step 1:输入原始数据,并进行各类别的均值向量;

Step 2:针对输入原始数据,根据Step 1求解均值向量,分别计算样本点总距离、类间距离、类内距离;

Step 3:根据各类内距离,构建总体类内距离的逆矩阵,并进行投影向量和阈值计算;

Step 4:完成原始数据到低维空间的投影。

LDA算法是一种高效的特征提取方法,相比较PCA算法,该算法在进行降维过程中针对样本点进行信息标注,为样本点分类提供明确的方向,可以更加有效的保证在高维数据空间下,实现不同类别数据在低维空间中的最佳分离。

2 数据降维的非线性方法

当前环境下,数据结构更加复杂,为了能够针对高维数据中的非线性结构数据进行处理,需要采用非线性方法进行数据降维,目前非线性数据降维方法主要分为基于核的非线性算法和基于流行学习的非线性算法两种类别。

2.1 基于核的非线性方法

基于核的非线性方法能够有效避免“维数灾难”,减少降维运算的计算量,该算法主要通过引入核函数将样本数据从原始空间映射到更高维的特征空间,进而采取现有的线性降维方法对高维空间数据进行降维[7]。我们可以理解为基于核的非线性降维方法是通过核函数实现对线性降维方法的扩展。

以核主成分分析法(Kernel Principal Component Analysis,KPCA)为例,我们可以将KPCA算法看成是PCA算法对于非线性结构数据的推广,其主要思想是把输入数据X经过一个非线性映射φ(X)映射到特征空间R,然后在特征空间中执行线性PCA算法。此方法虽然在一定程度上起到非线性降维的作业,但由于其本质仍是在高维特征空间利用线性方法降维,所以有时在面对非线性结构的数据时仍然无法处理,并且对起降维关键作用的核矩阵的设计目前仍然处于研究阶段。

2.2 基于流形学习的非线性方法

随着对降维理论方法的不断研究与探索,在实际应用领域人们逐渐发现,现实问题中的许多高维数据,往往具有内在的低维流行结构,并且通过观测发现这些高维数据其实往往只受几个内在约束变量控制。

例如对于某一对象X进行观测,得到D个观测变量(x1,x2,…,xD),对这些观测变量而言其内部仅由D个因素决定。这样观测n次,我们就能得到D维空间中的n个数据点,X=[x1,x2,…,xn]由于其内在参数只有D维,因此这n个观测数据将在D维的观测空间中形成低维流行。通过对这D维流行的研究有助于对观测对象X的影响因素进行了解。近年来许多专家学者针对流行学习算法进行了综述,其中最为常用的基于流形学习的经典算法拉普拉斯特征映射算法。

黄山云海摄影 邓根宝

拉普拉斯特征映射(Laplacian Eigenmap),简称LE,它是由Bekin和Niyogi二人提出的一种基于局部的算法[8-9]。其思想是通过保持数据的局部性来发掘潜在的流行结构,也即高维空间中相互接近的点在低维的嵌入空间应该比较接近。此算法来源于图谱理论,通过数据样本及相邻样本间的边构成一个拉普拉斯图,嵌入映射就通过求解拉普拉斯映射的特征向量得到,算法过程如下:

Step 1:构造邻域图,主要是构造边系数,如果两个样本点间是“接近的”,就在这两个数据样本间设置一条边,否则两个数据样本间就不存在边。

Step 2:计算拉普拉斯图的边系数,即如果节点i与节点j之间存在一条边,则Wij=1,否则Wij=0。

Step3:计算嵌入结果,为保持局部性,在低维空间中用各个样本的近邻重构样本数据,使得在原始空间中相近的点,在低维嵌入空间中也比较接近,最小化以下目标函数如式1:

其中L被称为拉普拉斯算子。L的特征向量近似等同于标准LEE算法中求M=(I-W)T(I-W)的特征向量。

3 算法分析与比较

数据降维方法的实施效率与算法的复杂度大小、参数选择息息相关,其中算法的时间复杂度以及空间复杂度大小直接关系到算法的可行性;算法的参数选择影响到算法的稳定性。因此本文分别从算法的数据集要求、参数设置、时间复杂度以及空间复杂度对上述各类降维算法进行分析对比。

数据降维方法的复杂度主要由样本点的个数n、样本原始维数D、目标维数d以及算法涉及的参数如近邻点个数k和迭代次数协同决定。

数据降维算法的参数主要存在于非线性算法中,其主要参数为近邻点数k与样本目标维数d。

对于数据降维线性方法PCA算法和LDA算法,协方差矩阵时间复杂度为O(Dn),D×D协方差矩阵特征分析时间复杂度为O(D3);对于数据降维非线性方法KPCA算法,KPCA时间复杂度为O(Dn2),n×n矩阵特征分析时间复杂度为O(n3)。

拉普拉斯特征映射算法与KPCA算法相似,同样需要对n×n矩阵进行特征分析,由于基于流形学习的非线性方法,其n×n矩阵为稀疏矩阵,降低了矩阵特征分析的时间复杂度,其时间复杂度为O(Pn2),同时对拉普拉斯建立稀疏的邻近图计算需要时间复杂度O(Dn logn),计算拉普拉斯高斯核需要O(PnD),其中P表示稀疏矩阵中非零元和零元的比率。

综上所述,各算法对比情况如表1。

表1 各算法参数对比

4 结束语

本文针对旅游大数据分析中的数据降维方法进行了全面的总结,并从待处理数据的性质与几何角度对几种典型的数据降维方法进行了分类阐述、详细比较。总结得出现存数据降维方法的缺点如下:

1)现存非线性数据降维方法实际应用效果较差,甚至效率低于传统的非线性算法,因此对于非线性数据降维方法有待继续深入研究;

2)基于核的数据降维方法其性能相较于传统的数据降维方法有所提升,但是对与该方法的关键技术-核矩阵的设计还没有一种明确的设计方法,需要后续继续研究;

3)流形学习的提出为数据降维提供了非常有利的框架,但是它们大多都为局部方法,因此这类算法受噪音影响大,特别是面对低信噪比的旅游数据时,影响尤为明显,如何减少噪音的干扰、提高算法的精度也是今后研究的一个重要方向。

[1]刘强,秦泗钊.过程工业大数据建模研究展望[J].自动化学报,2016(2):161-171.

[2]Bellman R.Adaptive Control Processes:A Guided Tour[M].Princeton,New Jersey:Princeton University Press,1961.

[3]Scott D,Thompson J.Probability density estimation in higher dimensions[C].In Proceedings of the 15thSymposium on the Interface Computer Science and Statistics,1983:173-179.

[4]吴晓婷,闫德勤.数据降维方法分析与研究[J].计算机应用研究,2009(8):2832-2835.

[5]李荣雨.基于PCA的统计过程监控研究[D].杭州:浙江大学,2007.

[6]Kruskal A J.Linear discriminant[M]//Modern Multivariate Statistical Techniques.Springer New York,2013:237-280.

[7]詹宇斌.流形学习理论与方法及其应用研究[D].长沙:国防科学技术大学,2011.

[8]刘海红,周聪辉.半监督拉普拉斯特征映射算法[J].计算机工程与设计,2012(2):601-606.

[9]Zhang Z,Zha H.Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[M].Society for Industrial and Applied Mathematics,2005.

[10]Zhang Z,Zha H.Linear low-rank approximation and nonlinear dimensionality reduction[J].Science China Mathematics,2004,47(6):908-920.

[11]Zhan Y,Yin J.Robust local tangent space alignment via iterativeweighted PCA[J].Neurocomputing,2011,74(11):1985-1993.

TP311 文献标识码:A 文章编号:1672-7517(2017)07-0097-03

2017-06-12

2017-06-25

张成龙(1992—),男,山东枣庄人,硕士,研究方向为大数据分析,多源数据融合与集成。

猜你喜欢

降维复杂度线性
混动成为降维打击的实力 东风风神皓极
全球大地震破裂空间复杂度特征研究
数字经济对中国出口技术复杂度的影响研究
基于数据降维与聚类的车联网数据分析应用
Kerr-AdS黑洞的复杂度
降维打击
关于非齐次线性微分方程的一个证明
非线性电动力学黑洞的复杂度
非齐次线性微分方程的常数变易法
线性耳饰