APP下载

基于LASSO算法的水平压缩方差分析*

2017-01-09林少炜邓锂峰吴思英

中国卫生统计 2016年5期
关键词:回归系数总体人格

林少炜 邓锂峰 吴思英

福建医科大学公共卫生学院流行病与卫生统计学系

环境因素与肿瘤福建省重点实验室

环境与健康福建省高校重点实验室(350108)

基于LASSO算法的水平压缩方差分析*

林少炜 邓锂峰 吴思英△

福建医科大学公共卫生学院流行病与卫生统计学系

环境因素与肿瘤福建省重点实验室

环境与健康福建省高校重点实验室(350108)

方差分析(ANOVA)是一种用于检验多组总体均数之间是否存在统计学差异的常用方法。进行方差分析的主要目标有两个,其一是找出对因变量改变有影响的因素,其二是探索这些因素内部的水平之间是否有差异[1]。方差分析方法在某研究因素的水平数超过两个时,若F统计量显著,只能说明多个水平中至少有两个水平不同,至于这几个水平中哪些不同,还需要进行事后的多次两两比较,即post-hoc analysis,用以发现是哪些水平之间存在统计学差异。主要两两比较方法有SNK法、Dunnett-t法和Bonferroni法等[2],不过这些方法都有一个明显的缺陷,即可能出现方差分析结果有统计学差异,但两两间比较都没统计学差异或者不一致的情况。如对于一个三水平的因素,方差分析得到有统计学差异,但三个水平间都没有统计学差异,或者出现水平1和水平2有统计学差异而水平1和水平3,水平2和水平3没有统计学差异这样比较难以解释的情况。

Tibshirani[3]提出的LASSO(least absolute shrinkage and selection operator)基于L1惩罚,可以使回归系数的值压缩成0。Bondell受其启发,将LASSO的L1惩罚引入方差分析,提出了基于LASSO的方差分析方法——水平压缩方差分析[4]。水平压缩方差分析在估计因素水平系数的同时可以对因素水平间的系数进行压缩,将方差分析和两两比较的两个步骤合二为一,即在进行方差分析认为各因素水平之间是否有统计学差异的同时,完成因素各水平间两两比较,提高了统计效率。

原理与方法

1.LASSO方法

LASSO方法是一种压缩估计。它通过对回归系数加以L1惩罚得到一个较为精炼的模型,使得它压缩一些系数,从而使某些对结局不重要的变量系数压缩为0,实现了对因素的压缩,是一种处理具有复共线性数据的有偏估计。

LASSO的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型,其数学表达式如下:

其中t>0,是调整参数,通过控制调整参数t可以实现对总体回归系数的压缩。t值的确定可以利用Efron和Tibshirani(1993)[5]提出的交叉验证法来估计。这个数学表达式还等价于最小化下述惩罚最小二乘法:

其中λ与t一一对应,可以互相转换。LASSO方法的主要优势在于其对参数估计较大的变量压缩较小,而参数估计较小的变量压缩成0,并且LASSO分析的参数估计具有连续性,适用于高维数据的模型选择[6]。Tibshirani在2005年提出了Fused LASSO方法[7],这个估计方法满足了模型系数以及系数差分的稀疏性,使得邻近系数间更加平滑。

2.水平压缩方差分析

若在方差分析中有J个因素,每个因素有pj个水平,则水平压缩方差分析的数学表达式为

其中t>0是调整参数,通过控制调整参数t可以实现对总体回归系数的压缩是惩罚项权重。在这个表达式中含有两个限制项,其中第一项限制与标准的方差分析相同,它的作用是将某因素内各水平的系数和限制为0,使得模型参数可以进行识别。第二项限制便是水平压缩方差分析的特别之处,它将LASSO回归的想法应用于传统的方差分析中。这一项是Fused LASSO的一种广义版本,可以实现各个因素内部水平的两两比较。若某个水平与作为参照组的水平无显著差异,则该水平的系数与作为参照组的水平系数将会相等,即该水平的系数与参照组的系数之差将严格为0。与传统的方差分析两两比较方法不同,水平压缩方差分析算法将会根据计算结果中产生的不同系数来产生不同的分组:若两水平无显著差异,则它们将被归入系数相同的组中,即这些水平的系数将会相等;反之,它们的系数将会不相等,这也避免了在传统的两两比较中可能出现计算结果自相矛盾而难以解释的问题。

在LASSO分析中,可能会出现过度压缩非零系数的情况,增大了估计结果的偏差,使估计结果不具有相合性。为了提高LASSO方法的相合性和准确性,Zou H(2006)[8]提出了自适应的LASSO方法,其把LASSO中的惩罚项修正为

模拟实验

1.模拟数据产生

考虑只有一个三水平的因素情形,三个水平对应的总体都是来自方差是1的正态分布,其总体均值分别为9.5,9.5和10,即

模拟数据见表1。

表1 模拟数据

2.传统方差分析和两两比较

对上面数据进行方差齐性检验,P=0.7923,可认为三个水平对应的总体方差满足方差齐性。方差分析结果显示,F=4.12,P=0.0274<0.05,差异有统计学意义,可认为三个水平的总体均数不全相同。使用HSD方法进行两两比较,结果如表2。

表2 模拟数据HSD两两比较结果

HSD两两比较结果出现了比较难以解释的情形:水平1与水平2、水平3的差异都没有统计学意义,而水平2和水平3的差异有统计学意义。

3.水平压缩方差分析

在水平压缩方差分析中,使用BIC准则选择λ=0.9,水平1、水平2和水平3的回归系数分别为9.683、9.683和10.198,由此可见:水平1和水平2的回归系数相同,说明两者之间的差异无统计学意义;而水平3的回归系数与水平1和水平2不同,说明水平3与水平1和水平2的差异均存在统计学意义,这与模拟数据的设置吻合,并且回归系数值与对应的总体均值非常接近。

实例分析

1.实例资料

使用一项关于“福州地区大学生睡眠质量与人格”的调查为实例数据,其样本量为300。其中大学生的睡眠质量PSQI评分是根据匹兹堡睡眠质量指数量表(pittsburgh sleep quality index)[9]进行计算得到的,总分范围为0到21分,分数越高睡眠质量越差。人格类型使用钱铭怡等人修订的艾森克人格问卷简式量表中国版(EPQ-RSC)[10]中的外向性和神经质两个分量表,根据艾森克的人格气质理论,形成4种典型人格气质类型:胆汁质、抑郁质、多血质和粘液质。

2.实例数据分析

传统方差分析的结果为F=17.2,P<0.001,说明四种人格气质的总体均值不全相同。HSD两两比较结果表明,除多血质和粘液质人格、胆汁质与抑郁质人格外,其余人格两两比较差异均有统计学意义,即对大学生睡眠质量的影响差异有统计学意义(表3)。HSD两两比较并没有把四种人格严格区分成不同的亚组。而水平压缩方差分析中胆汁质、抑郁质、多血质和粘液质对应的回归系数分别为4.624,4.624,3.369和3.978,其把人格分成3个亚组:胆汁质和抑郁质在一个组,而多血质、粘液质各自成一个组,说明除胆汁质以及抑郁质人格外,各种人格对大学生睡眠质量的影响差异存在统计学意义。

表3 实例数据HSD两两比较结果

讨 论

方差分析是统计分析方法中,最重要、最常用的方法之一。经方差分析后,如果各总体均数间有统计学差异时,常需进一步确定哪两个总体均数间有统计学差异,哪两个之间无统计学差异,即多重比较。然而,各种多重比较方法经常会得到没有严格的分组,使得各组间的统计学差异不具传递性,结果难以解释。

通过模拟数据分析表明,HSD两两比较方法不具有组间严格分组能力,出现了矛盾的结果,没有发现模拟数据的自身结构。水平压缩分析方法在进行方差分析的同时构建了因素内部水平与水平之间的分组,使得这些分组是相互不重叠的,克服了出现传统方差分析两两比较不具严格分组的问题,并且得到了模拟数据的真正结构。水平压缩方差分析把方差分析和两两比较两步骤合二为一,可以同时对因素以及水平进行分析,避免了传统方差分析方法中找出因素间有差异后还需要再对因素内各水平进行两两比较的过程,在提高分析结果准确性的同时也提高了统计效率。

[1]方积乾主编.卫生统计学.北京:人民卫生出版社,2012.

[2]JW T.Comparing Individual Means in the Analysis of Variance.Biometrics,1949,5(2):99-114.

[3]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society B,1996,58:267-288.

[4]Bondell HD,Reich BJ.Simultaneous factor selection and collapsing levels in anova.Biometrics,2009,65:169-177.

[5]Efron B,Tibshirani RJ.An introduction to the bootstrap.New York:Chapman and Hall,1993.

[6]李根,邹国华,张新雨,等.高维模型选择方法综述.数理统计与管理,2012,31(4):640-658.

[7]Tibshirani R,Saunders M,Rosset S,et al.Sparsity and smoothness via the fused lasso.Journal of the Royal Statistical Society,2005,67(1):91-108.

[8]Zou H.The adaptive LASSO and its oracle properties.Journal of the American Statistical Association,2006,101:1418-1429.

[9]刘贤臣,唐茂芹,胡蕾,等.匹兹堡睡眠质量指数的信度和效度研究.中华精神科杂志,1996,29(2):103-107.

[10]钱铭怡,武国城,朱荣春,等.艾森克人格问卷简式量表中国版(EQP-RSC)的修订.心理学报,2000,32(3):319-7-323.

(责任编辑:邓 妍)

福建省中青年教师教育科研项目(JA14144);福建医科大学女性研究课题(2014FN002)

△通信作者:吴思英,E-mail:fmuw sy@163.com

猜你喜欢

回归系数总体人格
列宁的伟大人格及其当代意义
共产党人的人格力量
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
远去的平凡背影,光辉的伟大人格
外汇市场运行有望延续总体平稳发展趋势
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
直击高考中的用样本估计总体