APP下载

基于纵向数据部分线性单指标模型的CD4细胞统计分析

2020-07-04钱苏安王从志王清燕善俊

现代信息科技 2020年3期
关键词:最小二乘法

钱苏安 王从志 王清燕 善俊

摘  要:部分線性单指标模型是一类非常重要的半参数模型,它对于克服非参数统计中的维数灾难问题具有重要的理论价值。以该模型应用于HIV血清转换器中CD4细胞的统计推断,研究CD4细胞和SMOKE(通过香烟包测量的吸烟状况)、Year(自血清转换后的时间的影响)、PreCD4(感染前CD4细胞数)、年龄(相对于给定的时间来源)的关系。研究结果表明,CD4细胞和吸烟状况、血清转换的时间、年龄成正相关,与感染前细胞数成负相关。

关键词:部分线性单指标模型;最小二乘法;CD4细胞

中图分类号:O212.7       文献标识码:A 文章编号:2096-4706(2020)03-0025-03

Abstract:Partial linear single index model is a kind of very important semi parametric model,which has important theoretical value to overcome the dimension disaster in nonparametric statistics. The model is applied to the statistical inference of CD4 cells in HIV serum transducers to study the relationship between CD4 cells and SMOKE (smoking status measured by cigarette packs),Year (effect of time since serum conversion),PreCD4 (number of CD4 cells before infection) and age (relative to a given time source). The results showed that CD4 cells were positively correlated with smoking status,time of serum conversion and age,and negatively correlated with the number of pre infection cells.

Keywords:partial linear single index model;least square method;CD4 cell

0  引  言

艾滋病一直是全球关注的热点话题,而艾滋病主要传染途径是性接触或血液传播,艾滋病患者的身体免疫力会越来越低下。目前艾滋病患者的数量还在不断增加,只能通过降低艾滋病载体的数量来进行控制,无法彻底治愈,所以目前的研究对于延长艾滋病人的寿命具有积极的意义[1]。

HIV病毒是一种传染性逆转录病毒,可感染人体免疫细胞,引起人体内免疫细胞水平下降。它主要攻击人体免疫系统中最重要的CD4T淋巴细胞,使人体易于感染多种疾病,并诱发恶性肿瘤,病死率较高。所以研究CD4细胞检测结果对艾滋病治疗效果的判断和对患者免疫功能的判断有重要作用。艾滋病感染已经成为一个非常严峻的问题,因此研究艾滋病病毒感染细胞与时间的关系非常重要。本文希望通过部分线性单指标模型对艾滋病数据集的分析,找出病毒感染与所选指标之间的关系,提出相关合理的建议。

1  模型和方法

1.1  单指标模型

单指标模型(Single Index Model,SIM)[2]的一般表现式如下:

Y=g(X Tθ)+ε

式中,X是p维解释变量,Y是被解释变量,θ是未知的参数且能够满足条件:(范数为1),‖θ‖=1(‖·‖是欧几里得范数),g(·)是未知的关系函数,ε是随机误差,且满足E(ε)=0,Var(ε)=σ 2。

在推测数据的初始阶段,一般使用线性回归来使用函数进行模拟,一般情况下,拟合的结果并不符合期望(且会产生误差),参考文献[3]中后来采用非参数回归来进行分析时在一定程度上会避免这些问题,但同时信息会大量浪费。在多变量的情况下,某些自变量对因变量的影响显著,采用非参数回归会使得耦合度增加。

1.2  部分线性单指标模型

对于单指标模型,最重要的是解决关系函数和参数未知的问题,这里对于未知参数可以采用最小二乘估计和半参数最大似然估计(参数都满足渐近有效性),对于函数可以采用核估计法和局部多项式回归估计等非参数估计方法。

对单指标模型进行扩展得到和文献[4]中类似的部分单指标模型的一般形式:

式中,β是未知参数,当θ=1时,模型变成部分线性模型,当模型中的线性部分不存在的时候,相应地就简化为了单指标模型。部分线性模型是由参数部分和非参数部分组成的。

1.3  纵向数据部分线性单指标模型及其求解

2  三纵向数据部分线性单指标模型在HIV血清转换器中CD4细胞统计分析中的应用

下面将纵向数据部分线性单指标模型应用于HIV血清转换器中CD4细胞统计分析,HIV血清转换器中CD4细胞计数的数据集详情见参考文献[6-8]。在该数据集中,对感染HIV病毒的283名男性的CD4细胞计数进行了1817次观察。我们将CD4细胞计数的根源作为之前研究中的响应。参考文献[7]和[8]中表明有几个因素可能影响这一计数的水平,一个重要的问题是估计这些因素的影响并确定它们是否重要。具体而言,数据集包括解释变量SMOKE(通过香烟包测量的吸烟状况)、Year(自血清转换后的时间的影响)、PreCD4(感染前CD4细胞数)和年龄(相对于给定的时间来源)。数据集中年龄与CD4细胞之间的关系如图1所示,感染前CD4细胞数与CD4细胞之间的关系如图2所示,数据集中吸烟对CD4细胞数据的影响为线性关系。

其中,β1与β2,θ1,θ2是未指定的参数,所有这些都需要估计。Z1,t表示SMOKE(通过香烟包测量的吸烟状况),Z2,t表示Year(自血清转换后的时间的影响),X1,t表示PreCD4(感染前CD4细胞数),X2,t表示年龄(相对于给定的时间来源)。

估计的参数系数β1与β2,θ1,θ2相应的标准差如表1所 示,从表中可以看出,所有协变量的影响都是显著的。

从表中可以看出,β1和β2的估计是正的并且是显著的,而θ1的估计是负的,θ2的估计是正的,并且均是显著的。这表明在调整相同个体内的协变量后,CD4细胞计数正相关,并且随着观察到的时间距离增加,相关性趋于降低。链接函数  的局部线性估计图如图3所示。

由图3可以看出,年龄与感染艾滋病之后的CD4细胞数在随着年龄增长,感染后CD4细胞数也越来越多,但增长的趋势逐渐变缓,所以增长的速度也逐渐变低。

3  结  论

本文将该纵向数据部分线性单指标模型应用于HIV血清转换器中CD4细胞的统计推断,研究CD4细胞和SMOKE(通过香烟包测量的吸烟状况)、Year(自血清转换后的时间的影响)、PreCD4(感染前CD4细胞数)和年龄(相对于给定的时间来源)。通过分析艾滋病CD4数据集,我们发现感染前CD4细胞数与感染后成非线性的关系,在调整相同个体内的协变量后,与CD4细胞计数正相关,随着观察到的时间距离增加,相关性趋于降低。在几个影响变量中我们发现,年龄与感染后CD4细胞数的相关性比较强,且与之呈正相关。所以随着年龄的增长,感染艾滋病毒之后,CD4细胞数量的增长也会随之提高,但是增长的速度会逐渐变缓。

参考文献:

[1] 曹金红.武汉市建筑工人艾滋病健康教育干预评价 [D].武汉:武汉科技大学,2009.

[2] CHEN J,GAO J,LI D. Estimation in Partially Linear Single-Index Panel Data Models With Fixed Effects [J].Journal of Business & Economic Statistics,2013,31(3):315-330.

[3] 宋涛涛.基于部分自回归单指标模型的社交网络分析 [D].青岛:青岛大学,2018.

[4] XIA Y,HARDLE W. Semi-parametric estimation of partially linear single-index models [J].Journal of Multivariate Analysis,2006,97(5):1162-1184.

[5] 刘强.纵向数据下半参数混合效应模型的估计 [J].应用概率统计,2010,26(4):411-418.

[6] ZHOU X C,LIN J G. Empirical likelihood for varying-coefficient semiparametric mixed-effectserrors-in-variables models with longitudinal data [J].Statistical Methods & Applications,2014,23(1):51-69.

[7] BOENTE G,RODRIGUEZ D. Robust estimates in generalized partially linear single-index models [J].TEST,2012,21(2):386-411.

[8] HUANG Z S,ZHAO X. Statistical estimation for a partially linear single-index model with errors in all variables [J].Communication in Statistics-Theory and Methods,2018,48(5):1136-1148.

作者簡介:钱苏安(1999-),男,汉族,江苏泰兴人,本科在读,研究方向:应用统计;通讯作者:燕善俊(1978-),男,汉族,江苏沛县人,副教授,硕士,主要研究方向:数学与信息

科学。

猜你喜欢

最小二乘法
基于压电陶瓷的纳米定位与扫描平台模型辨识算法研究
基于惯导角度量测的轨道平面最佳线形参数估计算法
马尔科夫链在市场预测中的应用
一种改进的基于RSSI最小二乘法和拟牛顿法的WSN节点定位算法
最小二乘法基本思想及其应用
全国各省份经济发展影响因素的实证分析
全国主要市辖区的房价收入比影响因素研究
手动求解线性回归方程的方法和技巧
一种基于最小二乘法的影子定位技术
基于最小二乘拟合的太阳影子定位模型