APP下载

基于子模型加权的因果效应估计方法

2023-07-10耿智琳张丽丽张耀峰张志刚

统计与决策 2023年12期
关键词:集上概率个体

耿智琳,张丽丽,张耀峰,张志刚

(湖北经济学院a.统计与数学学院;b.湖北数据与分析中心,武汉 430205)

0 引言

随着科学不断发展,探寻事物之间的因果关系逐渐深入到自然科学和社会科学的各个学科中,如何识别处理效应也成为研究热点之一。处理效应的标准识别方法为严格的随机对照试验,但在解决现实问题时,由于伦理、成本或其他现实因素限制,无法满足随机对照试验的随机性[1]。

为了从观测性研究数据中获得无偏处理效应,研究者们通常选择基于倾向得分的方法[2]和基于回归分析的方法[3]平衡偏倚。当给定可忽略性假定时,基于倾向得分的方法和基于回归分析的方法才有可能得到无偏平均处理效应,其中基于倾向得分的方法应用更为广泛。倾向得分是平衡得分的一种形式,是给定协变量时个体接受处理的概率。平衡得分的主要思想是将对照组和处理组之间的相似个体划分到一个子集中进行比较,倾向得分在满足平衡得分基本思想的情况下,将总体尽可能划分为更少子集,以确保每个子集中样本尽可能多。因此在倾向得分相似的子集中,对照组和处理组个体具有相似协变量分布。倾向得分能平衡观测性研究数据中处理组和对照组之间的偏差,得到偏差较小的处理效应估计。基于倾向得分的方法既可以使用倾向得分进行匹配[4],也可以使用倾向得分进行加权[5]。

倾向得分方法能够平衡处理组和对照组个体间的差异,但仍存在协变量间重要性的不平衡。在观测性研究数据中,为了不遗漏混杂变量,需要将可能的协变量都纳入模型内,这样虽然能使所有混杂变量都被观测到,但也可能会引入过多干扰信息。许多学者提出变量选择方法来应对这个问题[6],通过充分协变量选择得到最小协变量集合[7],或是排除无关变量仅保留混杂变量和结果预测变量[8],以提高估计效率。变量选择方法能对高维数据进行降维,提高因果推断的估计效果,但是变量选择方法需要删除部分原始变量,删除过程中可能会导致重要信息丢失。

为了提高协变量利用效率,减少重要性较低的协变量带来的干扰,本文在倾向得分方法的基础上,提出了基于子模型加权的因果效应估计方法。该方法对基于倾向得分的逆概率加权方法进行改进,先对原始变量进行分组,再使用子模型加权的方法赋予不同组变量不同重要性,得到加权倾向得分。对协变量进行加权的方法通过赋予协变量不同的权重,使用加权方法区分协变量的重要性。加权能在不丢失原始协变量信息的情况下,减少重要性较低协变量对估计结果的影响,达到提升因果推断估计效果的目的。

1 基于倾向得分的逆概率加权方法

处理效应可以使用接受处理和未接受处理的差异来定义。设被研究的个体为i,i=1,…,n。个体i有两个可能的结果变量和,分别表示个体i未接受处理和个体i接受处理的结果。在观测性研究数据中,每个个体只能观测到和中的某一个值,另一个未被观测到的值被称为反事实(counterfactuals)[9]。将处理变量设为T,则当个体接受处理时Ti=1,个体未接受处理时Ti=0;观察到的结果变量为。总体的平均处理效应(ATE)是所有个体接受处理结果的期望和所有个体未接受处理结果的期望之差:

ATE 体现了在研究总体中处理变量对结果变量的直接影响,为了得到无偏ATE估计,处理分配机制必须要满足可忽略性假定。在给定协变量V的观测值时,处理分配不影响潜在结果,即:

且每个个体接受处理的概率介于( 0,1) ,即:

则称处理分配机制是可忽略的。在满足可忽略性的情况下,基于倾向得分的估计方法能提供无偏因果推断估计。给定协变量的观察值xi,倾向得分定义为给定协变量时,个体接受处理的概率,记为:

基于倾向得分的方法可以分为匹配和加权两类,基于倾向得分的匹配方法使用倾向得分来构建匹配集合[2],将倾向得分相似的个体放到一个集合中,每个集合中同时包含处理组个体和对照组个体,并且集合中个体具有相似分布;基于倾向得分的加权方法使用倾向得分来创造权重,对观测协变量进行平衡。逆概率加权法是一种基于倾向得分的加权方法,将倾向得分的倒数作为个体权重,单个个体i的权重记为:

逆概率加权方法通过加权方法平衡处理组和对照组,使观察性研究数据尽可能接近随机对照试验数据,从而减少使用观测性研究数据进行因果推断时产生的偏倚。

2 子模型加权法

为了进一步提高ATE 估计效果,区分不同变量的重要性,本文提出基于子模型加权的因果效应估计方法。该方法基于逆概率加权方法,先根据原始变量类型对协变量进行分组,探讨每组变量对ATE估计的重要性,然后使用子模型加权法计算加权倾向得分,用加权倾向得分估计ATE值。

2.1 变量分组

根据协变量与处理变量和结果变量的关系,可将其分为混杂变量、处理预测因子和结果预测因子。混杂变量组同时对处理变量和结果变量产生直接影响,会给因果推断带来混杂偏倚,影响ATE估计效果;处理预测因子对处理变量有直接影响,并对结果变量有间接影响;结果预测因子仅对结果变量有直接影响,对处理变量既无直接影响,也无间接影响。因此可以根据变量关系将协变量V分为3 组,混杂变量记为V1,处理预测因子记为V2,结果预测因子记为V3。

2.2 构建子模型

使用分组后的协变量构建子模型,不同子模型具备不同的重要性,因此赋予协变量组不同权重,以此提升估计效果。本文使用不同的变量组合来构造子模型,再用对子模型结果进行加权的方式达到变量加权的目的,构建子模型的过程分为以下两步:

第一步:将V1、V2、V3进行组合,将变量的不同组合形式作为变量子集。为了得到不同变量的组合,对V1、V2、V3进行组合,排列组合情况有3种:3组变量全部被选择、从3 组变量中选取2 组、从3 组变量中选取1 组。3 种情况分别对应、、种组合形式,因此共有种协变量的组合模型。不同组合模式对应的变量集合记为Uj,j=1,…,7,具体如表1所示。

表1 不同组合模式对应变量表

第二步:对所有的数据子集分别建立模型,得到相应的子模型。每种变量组合模式对应一个子模型,记为

2.3 子模型倾向得分

子模型Sj构建完成后,计算子模型的倾向得分。将个体i对应的变量集合Uj的观测值记为Qj,满足映射函数:

对于每个模型Sj都有相应的变量集合Uj,因此分别使用Qj训练子模型Sj,进行倾向得分pj的估计。使用logit回归方法估计倾向得分,得到所有个体接受处理的概率

其中:

式(9)表示logit函数分布的累积概率分布,Uj中若协变量个数为k,则参数αj使用极大似然估计方法进行估计。每个子模型根据上述估计方法得到对应的子模型倾向得分pj,其中pij对应第j个协变量子集下的个体i的倾向得分。

2.4 加权倾向得分及ATE估计

对子模型倾向得分结果进一步加权,得到整个模型组对应的加权倾向得分。使用加权倾向得分对个体i进行逆概率加权,达到平衡原始个体的目的,进而减少估计平均处理效应时的偏倚。

其中,参数α使用极大似然估计方法得到。

个体i加权倾向得分通过对子模型倾向得分加权得到。一方面,平衡处理组和对照组间的个体差异;另一方面,赋予协变量不同权重,使用加权倾向得分估计ATE能够减少混杂偏倚,还能够减少权重较低变量对估计结果的影响。

得到p*后进一步使用逆概率加权计算ATE,根据加权倾向得分估计的倒数生成个体权重,从而对协变量进行平衡。当混杂因素带来的偏差由逆概率加权法平衡时,ATE估计可以表达为:

基于子模型加权的因果效应估计方法通过对不同的变量组合模式构造子模型,分两步计算加权倾向得分,加权后的倾向得分能够突出不同类型协变量的重要性,为ATE估计提供更好的效果。

3 模拟实验

为了进一步验证基于子模型加权的因果效应估计方法的效果,本文使用模拟数据进行模拟研究,对比该方法与传统的基于倾向得分的逆概率加权方法的估计效果。

3.1 生成模拟数据

本文使用的模拟数据生成方式参考文献[10]中的设置,包含10 个协变量ν1,ν2,…,ν10,1 个处理变量T和1 个结果变量Y。

10个协变量中有4个混杂因子(ν1、ν2、ν3、ν4),3个暴露预测因子(ν5、ν6、ν7)和3 个结果预测因子(ν8、ν9、ν10),其中协变量ν1和ν5的相关系数为0.9,协变量ν2和ν6的相关系数为0.2,协变量ν3和ν8的相关系数为0.2,协变量ν4和ν9的相关系数为0.9。处理变量T对结果变量Y的直接处理效应为-0.4,即真实的处理效应值为-0.4,变量关系图如图1所示。

图1 模拟数据变量关系图

模拟研究中数据集个体数量分别为n=500,2000,5000,数据生成方式遵循以下步骤:

步骤1:生成协变量ν1,ν2,…,ν10,其中ν1,ν3,ν5,ν6,ν8,ν9~Bern(1,0.5) 为二元变量,服从伯努利分布;ν2,ν4,ν7,ν10~N( 0,1) 为连续型变量,服从正态分布。

步骤2:根据下页表2中7个场景的模型设置,计算真实倾向得分,根据倾向得分可以从二项分布中得到个体对应的处理变量T的值。

表2 不同场景的真实倾向得分模型

步骤3:通过步骤1 和步骤2 获得协变量ν1,ν2,…,ν10和处理变量T生成的数据,设置如下结果变量Y的模型:

其中,θ=(θ1,…,θ7)T=(0.3,-0.36,-0.73,-0.2,0.71,-0.19,0.26)T,θ0=-3.85,根据上述模型生成真实的结果变量,Y对T的回归系数为真实处理效应,设为λ=-0.4。

3.2 实验设置

(1)评价指标选择

本文使用的4个评价指标分别为:绝对偏差B、相对偏差BR、标准误差SE、均方根误差RMSE。绝对偏差B的计算公式为,其中为所有ATE 估计的均值,γ为真实ATE值,在本文实验中设置为-0.4。BR是在B的基础上得到的,计算公式为:

标准误差SE 评价多组预测值的接近程度;均方根误差RMSE衡量预测值与真实值之间的偏差,计算每个估计值与真实值γ之间差异的均方根,计算公式为:

(2)建立子模型

在不同场景下生成数据集后,先根据变量类型进行分组,原始的10 个变量可以分为共3 组。从V1、V2、V3选取变量组构成不同的组合模式,选择3组变量进行组合有1种情况,选择2组变量进行组合有3种情况,选择1组变量进行组合有3种情况。如表3所示,共有7种组合模式,分别对应子模型Sj。

表3 组合模式对应的变量

(3)ATE估计

每种组合模式Uj分别对应于子模型Sj,所有子模型Sj构成了模型组。使用logit 回归分别计算7 种组合模式下的子模型倾向得分,再计算模型组的加权倾向得分,最后使用逆概率加权方法计算总ATE。

(4)对比实验

在500、2000、5000不同个体数量的模拟数据集上,分别重复生成100 组数据值,进行100 组实验求得ATE 估计结果的平均值,并将基于倾向得分的逆概率加权方法与子模型加权法得到的ATE估计结果进行比较。

3.3 实验结果

根据实验设置模拟出数据量为500、2000、5000 的数据集,分别进行模拟实验。其中,将基于倾向得分的逆概率加权方法记为传统方法,将基于子模型加权法的估计方法记为加权方法。

表4为各数据集上计算的ATE估计均值的绝对偏差B结果对比,可看出当数据的生成场景比较简单时,如在场景1 和场景2 中,传统方法和加权方法得到的B 值都比较小,加权方法没有显著优势。但在场景3 至场景7 的5 个场景中,加权方法在3个数据集上得到的数值均小于传统方法,说明当数据生成场景更复杂时,加权方法更加有效。此外,在场景3、场景4、场景6 和场景7 中,加权方法相较于传统方法估计效果提升的幅度更大。在3 个数据量不同的数据集上的表现也说明,当模拟场景比较简单时,样本量的增加能适当减少偏差;但是当模拟场景更复杂时,样本量的增加对B的减少没有明显作用。

表4 不同场景下绝对偏差B的结果对比

表5 为各数据集上计算的ATE 估计均值的相对偏差BR 结果对比,BR 能够更加直观的展示ATE 估计均值与ATE 真实值的偏离程度。在数据集大小为500 和5000 的数据集上,加权方法在5个场景上的偏离程度小于传统方法,在数据集大小为2000 的数据集上,加权方法在6 个场景上的偏离程度小于传统方法。总体上看,场景1、场景2、场景4和场景7的BR均小于20%,场景3、场景5和场景6 的部分BR 大于20%。结合模拟场景的特征,非线性程度越高,估计偏差越大,同时当不可加性的程度更高时,也会引起较大的偏差。但是当非线性和不可加性的程度都很高时,加权方法能显著提升估计效果。

表5 不同场景下相对偏差BR的结果对比(单位:%)

下页图2为各数据集上计算的ATE估计均值的SE结果对比,可以发现随着样本量的增加,SE的值整体在逐渐减小。也就是说,随着样本量的增加,SE的值逐渐接近0。

图2 不同场景下的SE结果对比

下页图3为各数据集上计算的ATE估计均值的RMSE结果对比,可以发现随着样本量的增加,传统方法对应的实线不断接近0,加权方法对应的虚线更接近0。

图3 不同场景下的RMSE结果对比

本文共使用4 个评价指标来对比加权方法和传统方法的ATE估计效果,结果表明,加权方法优于传统方法的估计效果。当数据生成场景更复杂时,加权方法展现出更明显的优势。并且随着数据集大小增加,ATE估计均值与ATE真实值的偏离程度变化不大,稳定性更高。

4 总结

使用观察性研究数据进行因果推断时,基于倾向得分的方法是解决混杂偏倚的有效方法之一。本文基于倾向得分的逆概率加权方法,提出了子模型加权法,通过计算加权倾向得分来估计处理效应。子模型加权法赋予不同变量组不同重要性,能更好地平衡处理组和对照组。在模拟数据研究中,证明了子模型加权法的表现优于传统的倾向得分方法,尤其当数据生成模型的非线性和不可加性的度都很高时,基于子模型加权的因果效应估计方法能显著提升ATE估计效果。

猜你喜欢

集上概率个体
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
关注个体防护装备
复扇形指标集上的分布混沌
个体反思机制的缺失与救赎
How Cats See the World