分位数回归在宜昌市带状疱疹就诊费用及其影响因素研究中的应用*

2021-07-07胡跃华刘晓俊李贵文徐承中殷大鹏冯国双

中国卫生统计 2021年3期

胡跃华丁雄蒋蔚刘晓俊李贵文徐承中武英殷大鹏冯国双

【提要】目的结合宜昌市带状疱疹就诊费用及其影响因素的应用实例来介绍分位数回归分析方法。方法选取2018-2019年宜昌市健康管理大数据中心关于带状疱疹的数据，采用多因素分位数回归，分析不同分位数回归下的偏回归系数。结果应用实例结果发现，不同分位数下针对带状疱疹就诊费用的影响因素的作用，同时也影响了不同分位数下在控制了其他因素影响后的就诊费用不同：性别对带状疱疹就诊费用在0.1～0.9百分位数上均没有统计学意义；就诊年份在回归曲线之下能够包含40%的数据点的时候，2019年就诊费用高于2018年的就诊费用；但是在回归曲线之下能够包含80%的数据点的时候，2019年就诊费用低于2018年的就诊费用。对于就诊机构对带状疱疹就诊费用的影响在0.3至0.9百分位数上均有统计学意义，而且整体呈上升趋势，只有在0.9百分位数上有所回落。结论不同分位数下影响因素作用大小不同，同时也导致了不同分位数下控制了其他因素影响后的就诊费用不同。读者通过该应用实例对分位数回归分析方法有所了解，并能在以后的科研工作中正确选用分位数回归模型，提高数据统计分析水平。

回归分析目的在于确定自变量与因变量之间的关系，通过建立相应的数学模型，以便观察特定变量来预测研究者感兴趣的变量[1]。但在很多情况下，模型残差并不能满足正态分布这个条件，使得线性回归分析方法并不能很好地反映一个分布的全部状况，进而导致研究结论偏向反映中心位置，对非中性位置的情况的反映就会有所阻碍，从而导致研究重点被忽视。此时可以考虑采用分位数回归，分别描述自变量对不同分位数下因变量的作用情况，还能观察因变量在给定自变量下的各个分位数处的局部特征或完整分布特征，是经典线性回归补充的常用方法之一。

分位数回归是把分位数的概念融入到了经典线性回归，其将条件分位数模型化为预测变量(自变量)的函数。随着协变量的改变，经典线性回归通过最小二乘法估计的是因变量条件均值关于协变量的变化，而分位数回归模型描述的是因变量条件分位数关于协变量的变化[2]。分位数回归方法相对于经典线性回归方法，在处理有异常值的数据时更为稳健，反应的数据信息也更为全面。

目前国内对带状疱疹的研究多是通过经典线性回归方法分析其临床治疗效果，对其就诊费用影响因素的研究较少。若采用经典线性回归通过最小二乘法来分析就诊费用的影响因素，其就只能估计影响因素对带状疱疹就诊费用的平均变化水平，且对研究资料要求严格。分位数回归不对研究资料的分布作严格要求，且在分析过程中不仅可以体现整个带状疱疹就诊费用及其影响因素的各部分信息，还可以充分考虑极端值影响的特点，进而分析各个影响因素对高就诊费用和低就诊费用人群的影响差异及变化程度。因此，本文利用分位数回归分析方法对带状疱疹患者的就诊费用及其影响因素进行分析，探讨不同分位数下影响因素对就诊费用的影响，阐述在特定条件下使用分位数回归分析的必要性。

模型基本原理

1.分位数回归的概念[3-5]：分位数回归其实是一种被用来估计一组自变量X与因变量Y的分位数之间线性关系的建模方法。经典线性回归实际上研究的仅仅是因变量Y的条件期望，但在实际研究中，人们也关心自变量X与因变量Y分布的中位数和分位数之间的关系。它最早由Koenker和Bassett(1978)提出，相似于经典的线性回归估计量的计算原理，分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化，且中位数回归(最小一乘回归)运用的是最小绝对值离差估计(least absolute deviations estimator，LAD)。分位数中的n分位即是把整个参考群体平均分成n个相等的部分，所谓的n分位数回归，就是希望回归曲线之下能够包含n%的数据点。

2.分位数回归模型公式原理[6-7]：首先假设随机变量Y的分布函数为：F(y)=P(Y≤y)。则对于0<τ<1，那么这个随机变量Y的第τ分位数为：

相同地，对于其余的第τ分位数，minξ∈R∑i=1ρτ(yi-ξ)

3.分位数回归参数估计方法：分位数回归估计方法，即求得上述公式参数估计量的方法。有两类：一类是直接优化方法，例如单纯形法、内点法等；一类是参数化方法，例如结合MCMC(Markov Chain Monte Carlo)的贝叶斯估计方法。常用的计量经济和统计软件都可以实现对分位数回归模型的估计和假设检验，如SAS、Stata、R、Eviews等。这里不介绍这些估计方法的具体理论与步骤，有兴趣的读者可以参考相关的文献。

应用实例及结果解释

本研究的数据信息由中国宜昌市健康管理大数据中心提供，该中心数据来自于宜昌市医疗机构的临床就诊信息数据链，数据由患者的就诊记录组成，包括完整的就诊基本信息、疾病史、检查、诊断和处方信息等。该研究的病例资料是由所有18岁及以上带状疱疹患者组成，诊断日期在2018-2019年。获得有效数据5370人次就诊记录。采用excel 2010对数据进行整理清洗，使用SAS 9.4软件进行统计分析，利用R 3.6.0做不同分位数下偏回归系数图。此研究就诊费用(y)为因变量，同时选取年龄分组(x1)、性别(x2)、就诊年份(x3)、现患其他疾病(x4)、就诊机构(x5)为自变量，见表1。下面结合实例详细阐述分位数回归的步骤。

表1 研究变量及定义

1.对因变量y做正态性检验，SAS程序如下：

procunivariatenormal；

var y；

run；

结果发现Kolmogorov-Smirnov检验、Cramer-von Mises检验、Anderson-Darling检验，P值均小于0.01，证明因变量“就诊费用”不满足正态分布。

2.拟合不同分位数回归

对因变量y不同影响因素分析采用多因素分位数回归，分别模拟在P0.1，P0.2，P0.3，P0.4，P0.5，P0.6，P0.7，P0.8，P0.9分位数下的分位数回归方程，记录不同分位数回归下的偏回归系数。SAS程序如下：

procquantregci=resampling；

model y=x1x2x3x4x5/ quantile=0.1 to 0.9 by 0.1；

run；

“ci=”指定回归系数置信区间的估计方法，选项有：①resampling重复抽样法，这是最常用的一个选项；②rank通过倒转等级分数测试估计；③sparsity通过估计稀疏函数。

“quantile=”指定分位数，如quantile=0.5，拟合中位数回归，这是最常见的一种分位数回归；quantile=0.1 to 0.9 by 0.1，分别拟合10%～90%的分位数回归。

结果见表2。可见，在0.1和0.2分位数上，各个影响因素的偏回归系数均为0；在0.3百分位数上，控制了“年龄分组”、“性别”、“就诊年份”、“现患其他疾病”后，“就诊机构”对“就诊费用”影响有统计学意义(P<0.001)；在0.4、0.5和0.8百分位数上，控制了其他影响因素后，只有“性别”因素没有统计学意义，其余影响因素均有统计学意义(P<0.05)；在0.6和0.7百分位数上，控制了其他影响因素后，只有“性别”“就诊年份”因素没有统计学意义，其余影响因素均有统计学意义(P<0.001)；在0.9百分位上，在控制了其他影响因素后，只有“年龄分组”和“现患其他疾病”对“就诊费用”影响有统计学意义。

表2 带状疱疹就诊费用与不同影响因素分位数回归分析

3.将各影响因素分位数回归系数作变化趋势图。R语言代码如下：

require(ggplot2)

dat<-read.csv(“E：/tmp/a.csv”)

ggplot(dat，aes(x，y))+

geom_point()+

geom_line()+

geom_ribbon(aes(ymin=a，ymax=b)，alpha=0.2)+

labs(x=“quantile”，y=“beta”)

图中，实线为在不同分位数上的偏回归系数，灰色区域为相应偏回归系数的置信带。所有的回归系数和置信带均调整其他影响因素。从结果可以看出，从0.1～0.9分位数上的偏回归系数来看，“年龄分组”和“就诊机构”两个影响因素偏回归系数总体呈现逐渐增加的趋势，“就诊机构”在0.9百分位数上有所回落；“性别”、“就诊年份”和“现患其他疾病”三个影响因素偏回归系数总体呈现逐渐下降的趋势。见图1。

图1 各影响因素分位数回归系数变化趋势图

小结

通过本文中的应用实例结果可以发现，不同分位数下针对带状疱疹就诊费用的影响因素作用大小不同，同时也影响了不同分位数下在控制了其他因素影响后的就诊费用：性别对带状疱疹就诊费用在0.1～0.9百分位数上均没有统计学意义；就诊年份只在0.4和0.8百分位数上对就诊费用影响有统计学意义，而在其他百分位数上没有统计学意义，考虑该结果可能与本研究选择的就诊年份比较接近有关。就诊年份对带状疱疹就诊费用的影响从0.4和0.8百分位数上的偏回归系数来看，在0.4百分位数偏回归系数为12.79，P<0.05，表明在回归曲线之下能够包含40%的数据点的时候，2019年就诊费用高于2018年就诊费用；但是在0.8百分位数上偏回归系数为-10.76，表明在回归曲线之下能够包含80%数据点的时候，2019年就诊费用低于2018年就诊费用。对于就诊机构对带状疱疹就诊费用的影响在0.3至0.9百分位数上均有统计学意义，而且整体呈上升趋势，只有在0.9百分位数上有所回落。表示患者在三级医院就诊的费用会高于私立医院、一级医院、二级医院。由此可见，利用分位数回归分析每一个影响因素对费用的影响，不再像普通的线性回归一样只偏向反映中心位置的情况，而是能反映分布的全部状况。需要在每一个分位数下具体情况具体分析。即便是同一个影响因素，在不同分位数下对就诊费用的影响作用大小也会出现不一样的情况。

采用分位数回归分析方法来估计参数，有以下优点：分位数回归的应用条件更加宽松。经典线性回归的正态误差假设能确保用最小二乘法可以得到最优拟合，如果不做正态性假设，也可以通过最小二乘法来分析数据，但只能达到纯粹描述的目的，仅可以做自变量对因变量的作用是否显著的一个参考。而分位数回归并无这一限制，因为相对于经典现象回归只对因变量的条件期望进行拟合，其不仅可以将研究重点放在因变量的任意条件分位数上，而且还能精确反应因变量不同部分随自变量变化的差异。在特定条件下比经典线性回归更加稳健。如果模型中的残差方差不齐或不满足正态分布，此时采用分位数回归比经典线性回归更加稳健，因为分位数回归对模型中的随机误差项的分布不做任何假定，且能够抵抗数据中出现的离群值，还可以对全部分位数进行建模分析。结论的丰富程度比较高。分位数回归关注的是条件分位数函数的变化，因分位数τ不同，拟合出的条件分位数一般各不相同。假设数据是二维的，则拟合得到的τ条件分位数函数所代表的曲线将所有数据点分为两部分，一部分在该曲线下方，占所有点的比例为τ，曲线上方的点占所有点的比例为1-τ。因此，拟合结果为一组曲线，按τ从小到大的顺序依次从数据点的底部排列到顶部。如果我们对因变量的低尾部分感兴趣，可以将注意力放在0≤τ≤0.5对应的分位数回归拟合结果上；如果对高尾部分比较感兴趣，可以重点研究0.5≤τ≤1时的回归结果[8]。总之，分位数回归给出一组曲线，能够有足够的信息来了解因变量的条件分布的全貌。在大样本理论的基础上，分位数回归估计出来的参数具有渐进更优的性质[3，7]。