APP下载

Logistic回归模型的理解及应用

2019-05-09金澳

文理导航·教育研究与实践 2019年2期

金澳

【摘要】本文由线性回归的局限性出发,引出Logistic回归模型,介绍其重要意义。再通过与线性回归模型的比对,研究了Logistic模型的理论推导过程,介绍了模型中的连接函数和发生比。最后简单介绍了Logistic回归模型在实际生活中的具体应用和广阔的应用前景。

【关键词】Logistic回归;广义线性回归;发生比

一、引言

在回归模型的实际应用中,因变量在常规的选为连续变量情况以外,也可以选为分类变量,比如:日常生活中顾客对于某种商品是否选择购买;病人在服用某种药物后是否有效果;个人在使用信用卡后是否按时还款。此时我们可以选择分类变量来代替数值型变量,但同时目前应用最广泛的统计方法——线性回归模型也已不再适用。

在处理分类变量形式的因变量时需要对线性模型有所改变,通常使用对数线性模型。分类型因变量为特殊的二分类,并且选取特定的连接函数时,此时即为Logistic回归模型。

在线性回归模型中,对于自变量的变量类型和其值域是没有限制的。但是线性回归模型中的因变量必须为连续的。而在实际研究中,线性回归的因变量为连续测量的假设往往不能接受,特别的当因变量为分类值时会与假设发生矛盾。Logistic回归模型就是完善线性回归对于因变量类型限制的不足。

二、线性回归模型的局限

1.Gauss一Markov假设

在应用线性回归模型y=α+βX+ε进行理论推导和实际数据拟合时是有前提和假设的——其称为Gauss-Markov假设,具体定义如下:

(1)自变量对因变量有显著的线性影响;

(2)误差项作为随机变量,其期望值为0;

(3)方差齐性即所有随扒误差项具有相同的、为常数的方差;

(4)不同的随机误差之间彼此不相关;

(5)自变量与误差项之间相互独立;

(6)自变量之间不存在(完全的)线性关系。

上述假设在线性回归模型的参数估计、检验,模型的拟合优度评价等方面的理论推导发挥了重要作用。

2.线性回归模型的局限

由于回归方程中对自变量值域没有限制,因此作为自变量x1,x2,…,xn的函数,因变量y的值域也为(-∞,+∞)。然而,现实生活中,y的取值通常是有限制的,比如观察对象的死亡年龄只能在一个有限区间取值,又如观察对象死亡与否只能取死亡(记为1)或者存活(记为0)这两个值。当因变量为分类型而不是数值型时就无法满足上述的Gauss-Markov假设。同时,由线性模型yi=α+βxi进行估计或预算时,祒xi取值很大时可能超出[0,1]区间,这与y的值域矛盾。

当因变量为分类变量时,自变量与因变量之间的关系为非线性关系,线性模型y=α+βx+ε不能拟合这种关系。

三,Logistic回归模型

1.Logistic回归定义

我们假设因变量服从二元分布为f(y|π)=πy(1-π)(1-y),并且引入连结函数θ,这里θ的定义为:。我们再假设θ服从线性回归,即θ=α+βx。

由上述代数运算可以得到事件其中一个结果的发生概率π的表达式,这是一个非线性函数。且这个非线性函数可以通过线性函数转化而来。Logistic函数的形状如下图所示呈S型。

由图形所示,Logistic函数的值域为[0,1]区间,这保证了由Logistic模型估计的概率值域的合理性。Logistic函数的S型曲线表明某个事件发生的概率受x变化的影响,当x从-∞开始增加时,事件发生的概率为0且保持基本不变,但增加到中间阶段时,概率突然增加很块,再增加到某一程度后,概率又开始保持基本不变的水平,逐步接近于1。

这里特别需要指出两点。首先是,本文在这里将连接函数选择为。但在处理相同的问题时连接函数可以有其他不同的选择。Logistic回归是特指因变量仅有两个分类并且连接函数选为时的情形。其次是,Logistic回归对于因变量服从伯努利分布有假设。而伯努利分布属于指数分布族,因此Logistic回归可以整合入广义线性回归的框架中。

2.Logistic回归的发生比

我们将发生比(odds)定义为事件不发生的条件概率与发生概率之比,即:

由0≤π≤1则odds>0.若x增加,则当β为正时eβx>1,发生比odds增加;当β为负数时eβx<1,odds减小;当β=0,eβx=1是发生比不受自变量变化的影响。

由可知,当x增加一个单位时有

两式相除后可午。因此eβ可以表示当x增加一個单位而导致的发生比的变动。

四、应用场景

Logistic回归模型的应用范围十分广泛,如利用上市公司的财务指标数据来估计其信货违约概率;利用糖尿病和糖耐量的人群的身体指标等相关信息筛选出对糖尿病发生的危险因素以及估算患病率;顾客在商品购物中又不满意结果的情形中,其抱怨行为:直接抱怨、私下抱怨和第三方抱怨和该顾客重新购买的意愿行为进行分析。

在现实生活中,在连续性变量以外,我们也会遇到非线性的、是与非的问题,因此在理论上和应用上对Logistic回归模型的理解是必要的。在实际应用中,该模型的评价、枯计等各个阶段都已经有了充分的理论保证,因此有着广阔的应用前景。

【参考文献】

[1]吴晓刚.广义线性模型[M].格致出版社,上海人民出版社,2011

[2]于立勇,詹捷辉.基于Logistic回归分析的违约概率预测研究[J].财经研究,2004.1001-9952

[3]马林茂,向红丁.2型糖尿病危险因素的Logistic回归分析[J].中国糖尿病杂志,1999

[4]庄贵军,朱美艳.顾客抱怨行为与重购意愿的logistic回归分析[J].商业经济与管理,2009.1000-2154