APP下载

几种降维技术在分类问题中的效果评估

2018-09-14詹鹏伟谢小姣

科技创新与应用 2018年21期
关键词:降维效果评估

詹鹏伟 谢小姣

摘 要:高维数据将会给数据分析带来极大的困难,因其所导致的数据分布稀疏化和数据组织效果的下降将会大大影响模型的性能。降维就是用于解决“维度灾难”的方法之一。文章从PCA、LLE、Isomap三种常见的降维方法入手,首先介绍了它们的实现原理,进一步结合KNN、SVM、RandomForest、Naive Bayes以及Logistics Regression模型构建了用于评价三种降维方法的综合交叉模型。结果表明,在文章所使用的数据集中,经过PCA方法与Isomap方法降维后的数据在可视的2维空间上分布较为均匀,而LLE方法分布则较为集中。且使用了PCA与Isomap方法的分类模型训练后的平均准确率高达96.44%与96.90%,高于LLE方法处理后所得的90.74%,PCA与Isomap具有较优的降维效果。本研究中所采用的方法与所得的结果为降维方法的选择提供了有益的参考。

关键词:降维;PCA;LLE;Isomap;效果评估

中图分类号:TP311.13 文献标志码:A 文章编号:2095-2945(2018)21-0022-03

Abstract: High-dimensional data will bring great difficulties to data analysis, and the sparse distribution of data and the decline of data organization effect it causes will greatly affect the performance of the model. Dimensionality reduction is one of the ways to solve the "dimension disaster". Starting with three common dimensionality reduction methods, i.e., PCA, LLE and Isomap, this paper introduces their implementation principles, and then constructs a comprehensive cross model for evaluating the three dimensionality reduction methods based on the models of KNN, SVM, RandomForest, Naive Bayes and Logistics Regression. The results show that in the data set used in this paper, after dimensionality reduction by PCA method and Isomap method, the distribution of the data is uniform in the visible two-dimensional space, while the distribution of LLE method is more concentrated. The average accuracy of the classification model trained with PCA and Isomap is 96.44% and 96.90%, which is higher than 90.74% with Isomap and 90.74% with LLE. The methods used in this study and the results obtained provide a useful reference for the choice of dimensionality reduction methods.

Keywords: dimensionality reduction; PCA; LLE; Isomap; effect evaluation

引言

隨着计算机和互联网的发展,数据呈现爆炸式的增长,高维数据已经越来越常见。但是随着数据维度的增加,数据利用的难度也越来越高。因“维度灾难”而导致模型的参数估计困难,模型结果下降的情况已经影响到了包括机器学习、模式识别、自然语言处理在内的诸多领域。随着数据维度的增高,会导致数据的分布越来越稀疏、数据的组织效果下降,且对计算机硬件的要求也更高,这些问题都会导致模型性能下降、效率下降,给数据分析带来了极大的挑战。

为了解决“维度灾难”的问题,研究者们提出了一系列用于数据降维的方法,本文将从包括PCA(主成分分析)、LLE(局部线性嵌入)、Isomap(等距特征映射)在内的三种常用的降维方法入手,介绍它们的实现原理,并分别搭配KNN、SVM、RandomForest、Naive Bayes、Logistic Regression分类模型在Collagen spectroscopy数据集上综合探究不同降维方法与分类器组合的性能与效果。

1 数据与材料

1.1 数据集

本文采用了Collagen spectroscopy数据集,该数据集通过使用傅里叶变换红外光谱(FTIR)测量细胞数据并对细胞中不同部位的化合物含量进行标注。数据一共有731例样本,每个样本包含234个特征,样本被分为四类:胶原、糖原、血脂及DNA。

1.2 数据预处理

为了消除量纲对降维与分类结果的影响,首先对数据进行标准化处理,将每个特征集合X={x1,x2,…,xN},映射到[0,1]区间,方法为:

2.3 Isomap(等距特征映射)

Isomap(Isometric Mapping)是由Tenenbaum于2000年提出的[3],其认为高维空间中的直线距离在低维空间中是不可达的,并引入了“测地线”距离来代替直线距离进行计算。其算法过程为:

(1)确定领域,对xi的领域进行搜索,找到K个最邻近的样本点。(2)计算xi与K个最邻近的样本点之间的欧氏距离,其余点认为无穷远,构造距离矩阵。(3)利用Dijkstra算法或Floyd算法计算任意样本点之间的距离,并将该距离作为MDS(Multiple DimensionalScaling,多维缩放)算法的输入,MDS所返回的结果的集合即为X在低维空间的映射。

3 建立模型

为了比较上述的三种降维算法的效果,本文选择了五种常见的分类算法(KNN、SVM、RandomForest、Naive Bayes、Logistic Regression)来使用降维之后的数据进行分类预测,构建交叉模型,将三种不同的降维方法与以上五种分类模型分别组合,组成用于评价降维方法性能的综合交叉模型,可通过不同模型分类结果的投票评分找出性能最优的降维算法,如图1所示。

4 实验结果与分析

为了方便可视化,我们将三种降维方法的目标维度d'都设置为2,于是在三种不同的降维方法下,原始数据集的731个样本被映射到2维空间后的分布如图2所示。

可见经过三种降维方法的映射之后,数据的投影在2维空间内呈现不同的分布。其中经过PCA与Isomap处理之后的数据分散的较为均匀,而LLE处理之后的数据则集中分布在几条线上。在这样的降维结果下,为了探究降维算法对最终分类结果的影响,进一步将降维之后的2维数据分别输入如图1所示的五种分类模型中,并将数据集分为10等份,采用10倍交叉验证方法来验证模型的准确性,每次使用九个子集作为训练集,剩余的一个作为测试集,最终得到的预测情况如表1所示。

表中的数值为同种情况下运算了三次之后所取得的平均值,可见,三种降维方法在不同的分类模型下表现十分不同。其中在经过LLE算法降维之后的数据分类的结果要比PCA以及Isomap处理之后的结果普遍要差,各模型准确率的下降程度最高可達12%,但也偶有上升的情况。最终的平均准确率PCA高达96.44%,LLE高达90.74%,而Isomap高达96.90%。不光是准确率,PCA与Isomap处理后结果的F1值也普遍高于LLE,说明不管是查全率还是查准率在PCA与Isomap方法下都能有较好的结果。

5 结束语

在本文的数据集中,PCA与Isomap方法取得了较好的性能,但是在不同的数据集中出现的结果可能会有所不同。本文所用到的综合交叉模型可以方便的对算法的选择提供帮助,通过多种模型结合的投票评分可以选择出最适合于当前数据集的降维方法,从而在最大程度上改善数据高维问题,提高模型的性能,为降维方法的选择提供了一定的参考。

参考文献:

[1]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(08):25-31.

[2]白俊卿,闫桂荣,王成.利用局部线性嵌入的模态识别[J].西安交通大学学报,2013,47(01):85-89+100.

[3]Tenenbaum J B, de Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-338.

[4]周颂洋,谭琨,吴立新.基于邻域距离ISOMAP算法的高光谱遥感降维算法[J].遥感技术与应用,2014,29(04):695-700.

[5]余肖生,周宁.高维数据降维方法研究[J].情报科学,2007(08):1248-1251.

[6]吴晓婷,闫德勤.数据降维方法分析与研究[J].计算机应用研究,2009,26(08):2832-2835.

[7]张少龙,巩知乐,廖海斌.融合LLE和ISOMAP的非线性降维方法[J].计算机应用研究,2014,31(01):277-280.

猜你喜欢

降维效果评估
短期海外游学项目实施效果调查和建议
企业培训效果评估策略探讨
导数在几何中的“降维”作用
几种降维算法的研究及应用
浅谈不可移动石质文物表面污染物的清洗