面向高维数据的随机森林算法优化探讨

2016-03-24罗超

商 2016年4期

关键词：优化

作者简介：罗超，2003年毕业于湘潭大学测控技术与仪器专业；2013年至2016年，就读于人民大学统计学院；现任职于霍尼韦尔航空航天部门，专注于航空航天和空中交通管理大数据方向的研究和挖掘。

摘要：面向高位数据的随机森林算法属于数据挖掘领域中的一部分内容，做好随机森林算法的优化工作，对于高维数据的分析及处理效率的提高有着极大的促进作用。文章主要论述的便是有关这方面的内容。首先，文章针对随机森林算法的定义及其泛化误差进行了简要的概述，继而在此基础上分析了高维数据的可视化及基于随机森林的有监督降维技术，最后，文章对整个实验的结果进行了分析，得出了最终优化结论，希望能够为数据挖掘领域提供具有参考价值的意见，同时也为面向高维数据的随机森林算法优化奠定坚实的基础。

关键词：高维数据；随机森林算法；优化

一、引言

互联网技术的出现及发展使得计算机逐渐进入了千家万户，并成为了各个领域处理数据的一个主要手段，目前，随着社会的不断进步，高维数据的增长速度也开始越来越快，海量的高维数据为其分析与处理过程带来了困难。就目前的情况看，我国在对高维小样本数据进行挖掘时还存在一定的问题，而将随机森林算法应用到高维数据的处理方面对其准确性以及分析效率的提高都具有重要作用，因此，相关领域必须认识到这一点，要做好其利用与优化工作，这样才能最大程度的保证我国数据挖掘技术的进一步提高。

二、随机森林算法

想要做好面向高维数据的随机森林算法优化工作，首先就必须要对随机森林算法达到一定程度的了解，这是优化工作的基础，同时也是工作人员必须具备的基础性知识。

（一）随机森林算法定义

总的来说，随机森林是一个树形分类器的集合，其中元分类器是使用CART算法来构建的未剪枝的分类回归树，在树形分类器的集合中，分别存在代表输入向量的部分以及代表独立同分布的随机向量的部分，一般情况下，想要得出随机森林算法的结果，主要应通过投票法来实现。

随机森林这一算法的核心特点体现在其随机性，主要表现为以下两方面：首先，在选取训练样本集时，随机森林算法要求必须用Bagging算法来实现，且必须要随机对样本进行选择，这是这一算法随机性的第一点体现。其次，在对随机森林算法进行应用时，需要选取分裂属性集，而这一算法随机性的第二点体现便在于对分裂属性集的选取方面。例如：假设样本一共存在X个属性，可以指定其中一个属性数Y小于等于X，这样一来，可以通过全部样本X中随机抽取Y个属性，将其作为分裂属性集，而分裂方式则可以有多种选择，通常情况下，为提高分裂效率，节省分裂时间，相关人员往往会选择最容易分裂的方式进行分裂。

（二）随机森林的泛化误差

作为随机森林算法中的一项重要内容，对随机森林泛化误差进行了解对于了解以及应用整个随机森林算法具有重要作用。

对此，可以对学习器的输入向量以及输出标记进行假设，前者可以假设为X，后者可以假设为Y，除此之外，还需要对角色树节点特征的随机向量进行表示，通过对各向量的整合，可以得出随机向量的间隔函数，如下所示：

mg（X，Y）=Pθ（h（X，Θ）=j）

在函数中，等号前边的mg（X，Y）通常用来表示样本数据被分对与分措的概率之差，因此，对随机森林泛化性能的确定便可以通过分类器的分类效果来确定，而分类器的分类效果则可以通过间隔函数看出，通常情况下，三者成正比。

分类器集合的泛化误差如下所示：

PE*=PX，Y（mg（X，Y）<0）

随机森林分类强度如下所示：

S=EX，Y（mg（X，Y））

随机森林的泛化误差的估计结果如下所示：

PE*≤P〖TX-〗（1-S2）/S2

根据对随机森林泛化误差估计结果的分析，可以发现，随着随机森林中分类树数目的增长，这一算法不会导致过拟合。

三、基于随机森林的可视化

（一）高维数据可视化

人们在对世界已经事物的了解过程中，往往首先利用的感觉器官便为眼睛，高维数据的可视化便利用了人类的这一特征。目前，面对海量的高维数据，其数据挖掘过程十分困难，高维数据的可视化可以将数据以直观的图像形式呈现给工作人员，这对于其了解数据的特征及分布情况具有重要意义，因此对于数据挖掘的结果也便能够很好的理解。高维数据的可视化充分利用了人脑功能，相对于以往传统的分析方法讲得到了很大程度的进步。

在数据挖掘领域，应用效果较好的高维数据可视化方法包括很多种，其中平行坐标法便属于其中一种，所谓的平行坐标法主要指的是通过对多为空间的各属性对应映射到二位空间中等距离的多个平行坐标轴上的方法，去使每个样本都能够用多个坐标轴上点之间的连接线段连接来表示。总的来说，平行坐标法具有使用简单、容易理解的特点，因此得到了数据挖掘领域足够的重视。

脸谱图也是高维数据可视化中的一种方法，这一方法是通过事先设置好的人脸去对多维信息进行表示的一种方法，其中，每一个设置好的人脸中，其器官都是存在差别的，根据对不同人脸器官大小以及形状方面差别的分析，便可以得出多维信息不同的属性。脸谱图这一方法充分利用了人眼睛这一器官的特性，由于眼睛对于人脸种种特征的分析及处理具有相当精确的特点，因此，利用脸谱图的方法对多维数据进行分析也会较其他方法更为精确，同时，可视化的特点也使其分析效率得到了极大程度的提高。

可视化的方法对于多维数据属性等方面的分析具有巨大价值，但一旦数据达到了更高的维度，其分析过程便会相应变得困难，此时，传统的可视化方法明显已经无法满足具体的分析需要，将PCA与平行坐标的数据可视化结合起来进行应用对于解决这一方面的困难具有重要价值。PCA的应用可以将高维数据降维，这样一来，可视化方法的应用便能够很好的发挥其效果。

（二）基于随机森林的有监督降维技术

从本质上讲，随机森林算法属于一种分类器算法，这一算法作用的实现是在分类与回归树两者结合的基础上完成的，总的来说，随机森林是采用Bagging这一方法去对分类树进行创建的，并利用随机子空间方法对上述分类树进行处理。所谓的随机子空间方法主要指的是通过对特征的随机选择来将其作为每个节点处的候选特征个数的一种方法，通过这一方法的定义可以看出，其主要特征是具有随机性，这一性质是造成其分类树之间差异度巨大的一个主要原因，因此在对数据进行分类的过程中会较容易。巨大的差异度使得这一方法别越来越多的应用在了实践过程中，同时其应用均取得了良好的效果。

四、实验和结果分析

实验过程对于分析面向高维数据的随机

森林算法优化的实现具有重要作用。实验过程首先需要对数据及实验进行设计，继而可以通过对图像的绘制对随机森林可视化结果进行分析，最后将其与无监督降维可视化进行对比，分析出哪一种更适应可视化过程的完成。

（一）数据和实验设置

实验所采用的样本集如下：

通过样本集列表可以看出，本次实验主要采用了五个高维数据集，分别是Prostate Tumor、Leukemia、SRBCT、LungCancer以及Madelon五种、前四个高维数据集的来源为基因数据库网站，而后者的主要来源则是UCI数据库。

本次试验是在R语言的基础上完成的，实验对象主要为带类标的数据集，数据集中数据的分类情况较为清晰，同时也遵循可视化方法应用的原理，因此通过本次实验以及对实验结果的分析，是有条件得出可视化的应用水平及效果的，同时也能够得出面向高维数据的随机森林算法优化的方法。

（二）基于随机森林的可视化结果与分析

对降维前后数据可视化结构的分析是基于随机森林的可视化结构分析的基础。总的来说，未经降维的原样本集具有非线性复杂度，因此，必须要对未经降维的数据进行散点图矩阵可视化。在上述过程完成之后，相关人员需要做的便是利用RF对源数据进行进行有监督的降维处理。降维处理的过程需要通过对图像的绘制来完成，通过对绘制过后图像的分析，各类数据能够被有效分开，这对于可视化过程的顺利实现十分有利。

上述降维过程主要针对前四个数据集，而对于第五个数据集来说，由于其具有可分性差的特点，因此也就对降维过程提出了很大的挑战，大量的实验以及实践经验表明，基于RF默认参数的降维方法对于这一数据集可视化的实现并不适用，因此，有必要对RF参数进行调整，使其可视化过程能够得到最大程度的保证。对RF参数进行调整以计算出最适合Madelon数据集的可视化的过程同样需要通过对图像的绘制来完成，通过各个参数下所绘制的图像的对比，工作人员可以很容易看出哪一参数对于其可视化的完成比较有利。

（三）与无监督降维可视化结果对比与分析

作为高维数据可视化中的一种降维方法，RF不仅可以实现有监督降维，同时也适用于无监督降维，所谓的无监督降维主要指的是通过无监督学习后得出的样本相似度度量。相对于有监督降维来说，无监督降维的主要特点是没有真实数据的参与，通过绘制完成的图像可以发现，相对于有监督降维可视化技术来说，无监督降维可视化技术在有效性方面还有所欠缺。因此，在对RF降维技术进行利用的过程中，要尽可能的利用有监督降维可视化技术来完成，如果其中存在诸如Madelon这种数据集，则可以通过对RF参数进行修改的方式来实现降维，从而实现对有监督降维可视化技术的应用。

五、结束语

通过上述文章可以看出，在高维数据不断出现并发展的今天，对数据进行分析已近成为了数据挖掘领域的一大难题。将随机森林算法应用到高维数据的分析中，对于分析结果准确性及有效性的保证十分重要。高维数据的可视化对于其分析效率的提高具有重要作用，可视化过程可以通过RF降维来实现，而RF降维又包括有监督降维由无监督降维两种，实验结果证明，前者相对于后者来说具有更高的利用价值。在利用随机森林算法对高维数据进行分析与运算的过程中需要严格保证其随机性，这对于计算过程十分重要。（作者单位：霍尼韦尔航空航天部门）

参考文献：

[1]姚登举；杨静；詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版），2014（01）.

[2]吴潇雨；和敬涵；张沛；胡骏.基于灰色投影改进随机森林算法的电力系统短期负荷预测[J].电力系统自动化，2015（12）.

[3]黄哲学；曹付元；李俊杰；陈小军.面向大数据的海云数据系统关键技术研究[J].网络新媒体技术，2012（06）.

[4]尹华；胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版），2014（05）.

[5]吴琼；李运田；郑献卫.面向非平衡训练集分类的随机森林算法优化[J].工业控制计算机，2013（07）.

[6]张雷；王琳琳；张旭东；刘世荣；孙鹏森；王同立.云南松分布模拟为例[J].生态学报，2014（03）.