Fused Lasso模型的特征选择

2020-01-15于娜

科技资讯 2020年35期

于娜

摘要：该文考虑了一类Fused Lasso问题的特征选择方法。与之前的方法不同，该文利用变分不等式为对偶问题提供充要条件，构造了特征选择方法。通过给出优化问题的对偶问题，进而导出对偶问题变分不等式形式下的必要条件。构造一个包含对偶最优解的对偶可行域，并在这个可行域上估计对偶约束上界，建立筛选规则，识别出具有相同系数的相邻特征，进而实现特征剔除。

关键词：特征选择变分不等式筛选规则对偶问题

中图分类号：O177.5 文献标识码：A 文章编号：1672-3791（2020）12（b）-0032-03

Abstract： This paper considers the feature selection for Fused Lass. Unlike the previous method， this paper uses variational inequality to provide sufficient and necessary conditions for the dual problem， and constructs the feature selection. By giving the dual problem of the optimization problem， derive the necessary conditions in the form of variational inequality of the dual problem. Construct a dual feasible region containing the dual optimal solution， and estimate the upper bound of the dual constraint on this feasible region. Established a screening rule， to identify adjacent features with the same coefficient， and achieve feature removal.

Key Words： Feature Selection; Variational Inequality; Screening Rules; Dual problem.

传统的线性回归，作为一种基本的数据分析技术被广泛的应用。但对于高维数据的处理上仍面临着巨大的困难，如何挖掘出有用的信息变得尤为重要，因而促使了新的变量选择方法的产生。1996年Tibshirani[1]提出了一种基于正则（罚）的Lasso模型，模型如下：

其中，p表示模型系数。稀疏学习是一门有效分析高维数据的技术，被广泛地应用到各个领域，并且这类模型的系数只含有少量的非零项。通过惩罚模型系数的绝对值函数，将模型系数进行压缩，可以把权重很小的特征系数压缩为零，进而剔除其所对应的特征。

很多学者也对Lasso模型进行了改进，2005年针对相邻特征间有很强相关性的高维数据，Tibshirani和Saunders[2]提出了 Fused Lasso估计。模型如下：

该模型不仅将较小系数压缩为零，也可以将部分系数差分压缩为零。不仅实现了系数差分的稀疏性，同时也使得相邻系数之间更加平滑。关于该模型的一些筛选方法也应运而生[3-6]。

1 筛选规则的建立

该文主要研究的是如下优化问题：

2.2 可行集建立

在給定参数时，初始问题和对偶问题的最优解，可知。不难看出，通过该文构建的筛选规则知，要想提高计算效率，降低计算难度，需要通过对偶最优解进行筛选。但难点在于，无法通过简单的运算，求得在下的对偶最优解。由此，该文考虑利用定理1中的变分不等式构建一个紧的对偶可行集。

3 结语

大数据时代，当采集到的特征维数和样本数据集很大时，数据挖掘编的尤为重要如何求解这些问题变得尤为重要并且充满挑战。但是在众多数据中，并不是所有的数据特征都是具有代表性的，所以需要剔除一些非积极的特征（不具有代表性的），这就是特征选择，主要是为了提高模型的计算效率。

该文提出的特征选择方法如下。

（1）通过估计特征和在对偶问题最优解集中的上界，来找到相邻特征中具有相同系数的特征，并将其剔除。

（2）筛选的关键是对偶最优解的估计。因此该文利用变分不等式筛选方法构建一个更紧的对偶可行集，来准确地估计出对偶最优解。该筛选方法可以准确的快速识别解中具有相同系数的相邻特征。

参考文献

[1] Rob. Tibshirani. Regression Shrinkage and Selection Via the Lasso[J].Journal of the Royal Statistical Series B：Methodological，1996，58（1）：267-288.

[2] Robert Tibshirani，Michael A.Saunders，Saharon Rossent，et al. Sparsity and Smoothness via the Fused Lasso[J].Journal of the Royal Statistical Series B（Statistical Methodology）， 2005，67（1）：91-108.

[3] WANG Jie， FAN Wei， YE Jieping. Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE Transacyion on. Pattern Analysis and Machine Intelligence， 2015，37（9）：1806-1820.

[4] 张环.Fused-LASSO惩罚最小一乘回归的统计分析与优化算法[D].北京交通大学，2016.

[5] LIU Jun， ZHAO Zheng，WANG Jie， et al. Safe Screening with Variational Inequalities and Its Application to Lasso[C]// ICML，14： Proceedings of the 31st International Conference on International Conferece on Machine Learning，2014：289-297.

[6] Nataliya. Sokolovska， Yann. Chevaleyre， Karine. Clement. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[C]//2017 International Joint Conference on Neural Networks（LJCNN）.2017.

[7] REN Shaogang，HUANG Shuai，YE Jieping，et al. Safe Feature Screening for Generalized LASSO[C]//IEEE Transactions on Yattern Analysis and Machine Intelligence.2018：2992-3006.

[8] 李怡.數据挖掘技术及应用[J].科技资讯，2017，15（24）：21-22.

[9] Alnur. Ali， Ryan J. Tibshirani. The Generalized Lasso Problem and Uniqueness[J].Statistics Theory， 2019，13（2）：2307-2347.