APP下载

改进累积logistic回归在生存质量研究中的应用*

2012-12-04山西医科大学卫生统计学教研室030001罗艳虹王瑾瑶陈培翠赵春妮余红梅

中国卫生统计 2012年6期
关键词:类别前景间距

山西医科大学卫生统计学教研室(030001) 罗艳虹 王瑾瑶 陈培翠 赵春妮 余红梅

多分类有序变量指分类数大于等于3,且类别之间存在等级关系的变量。通常有序变量类别之间的差距并不相等。例如,人们对生存质量的评价从“很差”到“差”,再到“不好也不差”、“好”、“很好”,这5个类别之间的间距往往不同,传统分析方法通常将其作等距对待,此时结果往往不精确。

为了使生存质量的评分更客观,我们对生存质量各水平之间存在的差异进行了分析。首先介绍衡量间距差异的统计量,并对间距差异进行统计检验,在此基础上,引入工具虚拟变量对累积logistic回归模型进行改进,以生存质量的评价值为应变量,采用改进累积logistic回归分析生存质量的影响因素〔1〕。

原理与方法

1.衡量间距差异的统计量

2.间距差异的统计检验

(1)χ2检验

采用拟合优度χ2检验,H0为“各个类别间的间距相同”,即发生每种类别的概率π都等于1/k。引入变量 ψi(i=1,2,…,k),它对应于各个类别的代表值,此时 H0为:“ψ1-0= ψ2- ψ1= … = ψk- ψk-1”。若H0为真,样本点落入各个类别的概率均为π,期望频数为fe=nπ,统计量服从自由度为df=k - 1 的 χ2分布,其中 k为类别数〔1,3〕。

(2)Kolmogorov-Smirnov单样本检验

Kolmogorov-Smirnov适用于确定有序分类变量的样本观测结果是否来自指定理论分布的总体。如果有序变量不存在间距差异,则每个类别被选中的概率应该相等,即服从均匀分布〔1,4〕。

3.改进累积logistic模型

累积logistic回归模型通常将有序反应变量各水平间存在的间距按等距处理。如果通过 χ2检验或Kolmogorov-Smirnov单样本检验,发现多分类有序变量各水平间存在间距差异,经证明通过对累积logistic回归模型的截距项的调整修正模型,具体证明过程参见参考文献〔1,5,7〕,故以加法的方式引入虚拟变量 Dj修正截距项,即有:

Dj的分类与应变量y相同。由于累积logistic模型要求βi、αj的大小与k无关,故Dj的取值与k无关。借鉴计量经济学中的“工具变量法“思想,引入一个与应变量y类别分布相似且高度相关的工具变量zt,zt确定虚拟变量Dj的取值。当zt=1时,Dj=1,其他为零,称Dj为工具虚拟变量〔5-7〕。

实例分析

为了解某医科大学硕士研究生生存质量的整体状况及影响因素,随机抽取来自公共卫生学院、基础医学院和第一临床医学院的一、二、三年级研究生各100名,收回有效问卷285份。生存质量评价采用WHOQOL-BREF。应变量Y为生存质量的自我评价:“很差”、“差”、“不好也不差”、“好”、“很好”。可能的影响因素如下:一般情况包括性别、年龄、年级、来源地、是否独生、婚姻状况、父亲文化程度、母亲文化程度和家庭收入;健康和生活情况包括是否生病、个人消费、生活条件、每周运动情况、每周上网时间和兴趣爱好;工作学习情况包括参加工作年限、成绩/科研满意度、学习/课题压力、本科专业、硕士专业、专业满意度、就业前景和就业压力。

1.间距差异的衡量

有序变量y(很差y=1,差y=2,不好也不差y=3,好y=4,很好y=5)的频数分布见表1。由表1可知生存质量自我评价“一般”以上(包括不好也不差、好和很好)者252名,占88.7%。G(ξ)= -1.4961≠0,表明多分类有序反应变量y各类别之间的间距不同。表 2 χ2检验结果,χ2=279.663 >=13.28,Kolmogorov-Smirnov检验 Dn=mxax|Fn(X)-F(X)|=0.287。由于是大样本,可通过公式求临界值=1.36/=0.081<Dn(α=0.05),均拒绝原假设,即各个类别间的间距是不同的。

表1 研究生生存质量自我评价

表2 χ2检验表

2.改进累积logistic回归

由于有序反应变量y存在间距差异,故需要引入工具虚拟变量对模型加以修正。引入就业前景Z(很差=1,不太好=2,一般 =3,较好 =4,很好 =5)为工具变量(其与因变量y相关,P=0.013),设工具虚拟变量为 ci,以就业前景 Z一般为参照,ci的取值为〔1,5〕:

当我们以就业前景不太好为参照标准时,设工具虚拟变量为bi,bi的取值为:

当我们以就业前景较好为参照标准时,设工具虚拟变量为di,di的取值为:

采用改进累积logistic回归分析,“比例性”假设条件满足(Wald Chi-Square=83.153,P=0.914)。回归结果见表3。

表3 改进累积logistic回归分析结果

由表3可知,以就业前景一般为参照时,c1和c2的系数有统计学意义,而c4和c5的系数无统计学意义。同理以就业前景不太好为参照时,b3的系数有统计学意义,而b1的系数无统计学意义。以就业前景较好为参照时,d3与d5的系数均没有统计学意义。

结果表明生活条件、工作年限、成绩/科研满意度、食欲、性别、兴趣爱好以及是否生病与生存质量有关。

讨 论

1.间距差异的分析

(1)以就业前景一般为参照时,从表3可知c1的系数有统计学意义,而c5的系数无统计学意义。故当以生存质量“不好也不差”(y=3)为参照时,生存质量“很差”与生存质量“不好也不差”的间距和生存质量“很好”与生存质量“不好也不差”之间的间距有差别,生存质量“很差”与生存质量“不好也不差”的间距比生存质量“很好”与生存质量“不好也不差”之间的间距大,因此要想改善研究生生存质量现况,从“很差”提高到“不好也不差”比从“不好也不差”提高到“很好”需要付出更多的努力。

从表3可知c2的系数有统计学意义,而c4的系数无统计学意义。故当以生存质量“不好也不差”(y=3)为参照时,生存质量“差”与生存质量“不好也不差”之间的间距和生存质量“好”与生存质量“不好也不差”之间的间距有差别,生存质量“差”与生存质量“不好也不差”之间的间距比生存质量“好”与生存质量“不好也不差”之间的间距大,因此要想改善研究生生存质量现况,从“差”提高到“不好也不差”比从“不好也不差”提高到“好”需要付出更多的努力。

(2)以就业前景不太好为参照时,则设就业前景为bi,将其作为工具虚拟变量,可得出b3的系数有统计学意义,而b1的系数无统计学意义。故当以生存质量“差”(y=2)为参照时,生存质量“不好也不差”与生存质量“差”之间的间距和生存质量“很差”与生存质量“差”之间的间距有差别,生存质量“不好也不差”与生存质量“差”之间的间距比生存质量“很差”与生存质量“差”之间的间距大,因此要想改善研究生目前的生存质量,从“差”提高到“不好也不差”比从“很差”提高到“差”需要付出更多的努力。

(3)以就业前景较好为参照时,则设就业前景为di,将其作为工具虚拟变量,可以得出d3与d5的系数均没有统计学意义。故当我们以生存质量“好”(y=4)为参照时,尚不能认为生存质量“不好也不差”与生存质量“好”之间的间距和生存质量“很好”与生存质量“好”之间的间距有差别。

2.影响因素分析

生活条件、工作年限、成绩/科研满意度、食欲、性别、兴趣爱好以及是否生病与生存质量有关。生活条件越好,工作年限越短,成绩/科研满意度越高,食欲越好,兴趣爱好越广泛,生存质量越高;男性的生存质量比女性差;生病者比不生病者生存质量差〔8-10〕。

1.陈民恳.多分类有序变量间距差异的统计分析与实际应用.厦门大学硕士学位论文,2007:1-50.

2.张尧庭.定性资料的统计分析.广西:广西师范大学出版社,1991:21-30.

3.颜金锐.科研中常用的统计方法-自由分布统计检验.北京:中国统计出版社,2002:62-64.

4.柯惠新,沈浩.调查研究中的统计分析法.北京:中国传媒大学出版社,2005:227-228.

5.陈民恳,朱建平.数据挖掘中多分类有序变量间距差异分析及应用.统计与信息论坛,2007,1:27-31.

6.王济川,郭志刚.logistic回归模型-方法与应用.北京:高等教育出版社,2001:237-239.

7.David J.Lunn,Jon Wakefield,Amy Racine-Poon.Cumulative logit models for ordinal data:a case study involving allergic rhinitis severity scores.Statistics in Medicine,2001,20:2264.

8.王虹,彭晓霞,徐春丽,等.高校医学生生存质量影响因素分析.数理医药学杂志,2003,16(3):233-236.

9.赵静波,解亚宁,侯淑晶,等.军医大学研究生的生存质量及其影响因素的研究.中国临床心理学杂志,2005,13(1):233-239.

10.罗艳虹,丁蕾,余红梅,等.基于中国26省面板数据的城乡居民医疗保健支出实证分析.中国卫生统计,2010,27(2):118-121.

猜你喜欢

类别前景间距
我国旅游房地产开发前景的探讨
四种作物 北方种植有前景
一起去图书馆吧
离岸央票:需求与前景
高速公路指挥中心小间距LED应用探讨
量子纠缠的来历及应用前景
算距离
基于离差的被动电磁装甲板间距优化分析
煤层气井的扶正间距及位置确定方法研究
多类别复合资源的空间匹配