APP下载

Bootstrap方法及其在医学统计中的应用研究

2019-09-03刘蕊

健康必读·下旬刊 2019年9期

刘蕊

【摘 要】:文章主要针对Bootstrap方法在医学统计中的应用进行具体分析,主要包括原理方法、模拟分析和实例应用几部分,希望能给相关人士提供有效参考。

【关键词】:Bootstrap方法;医学统计;模拟分析

【中图分类号】R212【文献标识码】B【文章编号】1672-3783(2019)09-03--01

引言:在利用样本对某个整天统计量进行估计分析的过程中,通常期望能够掌握统计量估值准确度,只有掌握统计量抽样分布,才能掌握通过样本统计量对整体统计量进行准确预估的方法,但在大部分情况下,想要推导总体统计量抽样分布存在较大的难度,而Bootstrap方法的提出能够有效解决这一问题。

一 Bootstrap原理

在对未知统计量实施抽样分布的过程中,通常都是利用刀切法对统计量准确定的反映指标进行估算。但这种方法实施中的可用信息较少,甚至在部分条件下会因为数据集中某一被测数值产生微小波动,而影响统计计量结果,导致计算失效,而Bootstrap方法能够有效解决这一问题。Bootstrap方法主要运算逻辑如下:某一统计量准确度相关评价指标都是在其抽样分布中提取出来的。如果该统计量是通过对某一总体容量为N的样本进行估计所产生的,则其抽样分布便可以将这一统计量内部各个数值相对频数呈现出来,抽样分布由统计量估计中的计算公式好总体分布所决定的[1]。

二 Bootstrap方法

在使用Bootstrap方法的过程中,应该满足基础的假设条件,即被测样本应该将总体准确反映出来。应用过程中的主要机制是先找出被测数据集,也可以叫做原始数据集,其中包括N种观测点,随后需要结合相关分析结果,对统计量公式进行准确计算,并在数据集中随机选择N种观测对象,形成一种样本,便叫做Bootstrap样本。随机抽样中,原始数据集的各种数据被抽到的次数也各不相同,其中有的只被抽到了一次,而有的超出了一次,也存在没有被抽到过的样本。通过被抽样本,结合提前预定的公式,对统计量进行计算,并得到自己所需要的数值,像这样重复估计和抽样的工作,便叫做复制,将所有估计出来的统计量数值集中到一起,创建数据集,并通过这种数据集准确反映出统计量抽样分布,假如其抽样是一种正态分布形式可以通过标准差公式计算,能够得出统计量百分之九十五的可信区间,以及标准误差。如果其抽样并非是正态分布状态,可以通过第97.5或2.5的百分位数对百分十九十五的可信区间进行估算[2]。

模拟分析和实例应用

例一:在一个呈正态分布、标准差是1,而均数为0的总体内随机选出一个拥有100样本含量的样本,并通过这种样本对总体均数进行准确估算,并估计95%可信区间以及标准误差。可以先根据正态分布原理对样本可信区间、标准误差和平均数进行准确计算,随后通过Bootstrap方法对95%可信区间以及标准误差进行准确估计。通过STATA软件处理上述问题,具体流程如下:将样本含量设定为100,产生总体为正态标准分布随机数,结合正态分布原理计算标注差和平均数,最终的运算结果是标准差为1.0747,而均数是-0.0177,按照标准差的计算公式,计算出来的百分十九十五可信区间为(-0.2284,0.1929),而标准误差是0.107。

将上述一百个随机数当成原始数据集,并在其中随机选择1000个容量是一百的数据样本,并对1000个样本均数进行计算,通过均数来估算x标准差。通过STATA软件中的BSTRAP实施Bootstrap操作,进行再抽样计算,具体流程如下所示:先定义一种名字为MEAN的程序,并将$_1里面的数值存储到MESNX变量当中,将用来描述x聘书分布状态的统计量准确计算出来,将x均数存储至$_1当中,并对程序MEAN实施一千次的Bootstrap操作运算。Bootstrap方法再抽样后的最终计算结果如下:变量MEANX均数是0.0138,97.5%分位数是0.1976,,25%的分位数是-0.2115,标准差是0.1058,由此可见Bootstrap方法再抽样后计算出来的x均数,以及通过对原始数据进行分析观测所得到的x均数两者之间的差值是0.0039,估计标准差值时0.105,十分接近于上面计算出来的标准差值0.1074.通过Bootstrap方法计算标准差值,随后通过标准差估计可信区间,均数依然选择-0.0177,最终计算出来的可信区间是(-0.2253,0.1898),Bootstrap一千个样本均数从第2.5个百分位数至97.5个百分位数之间的区间为(-0.2115,0.1976),和上面计算出来的百分之九十五的可信区间基本相同。此次案例证明,通过Bootstrap方法在抽样方法,能够对均数可信区间和标准差进行准确计算。

例二,50例链球菌咽峡炎病患身体中的潜伏期如下所示,并对这种疾病的中位潜伏时间进行估算。潜伏期18个小时的有1例,30个小时的有7例,42个小时的有11例,54个小时的有11例,66个小时的有7例,78个小时的有5例,90个小时的有4例,102个小时的有2例,114个小时的有2例。上述五十例的咽峡炎病患中位潜伏时间为54个小时,如果通过这一数值来估算链球菌咽峡炎中位潜伏时间,由于不知道总体分布,可以通过Bootstrap方法计算,具体流程如下:先把一个程序定义成MEDIAN,随后把$_1里面的数值储存到MIDPEERIOD变量内,对描述PERIOD的分布頻数统计量,将PERIOD中位数存储到$_1当中,针对MEDIAN程序重复实施一千次的Bootstrap运算。最终通过Bootstrap方法计算出来的咽峡炎相关中位潜伏时间结果如下:MIDPERIOD变量的标准差是0.8949,均数是54.27,而97.5%的分位数是66,2.5%的分位数是42,由此能够看出利用Bootstrap方法再抽样计算出来的咽峡炎病患中位潜伏时间和现实分析观测中所得到的中位潜伏时间的均值差距只有0.27,而估算标准差值是0.8949,通过百分位数估算得到的百分十九十五可信区间为(42,66)个小时。估计出来的抽样分布质量和复制的次数之间具有直接联系,通常情况下,在测量标准差值的过程中,只需在复制过程中重复50到200次即可,如果想要估算出百分之九十五的可信区间,则需要进一步详细了解分布特征,从而提高估计的准确性,通过1000次重复能够得到良好的结果。

结语:综上所述,当公式架设条件没有得到满足、缺少恰当的公式对统计量进行预估以及总体分布呈现出一种未知的环境下,可以通过Bootstrap方法对统计量准确度进行合理反应,并对标准误差进行准确预估。

参考文献

陈景武,冯国双.现代医学统计方法在卫生事业管理研究中的应用[J].中国卫生事业管理,2014(03):185-186.

刘勤,金丕焕.Bootstrap方法及其在医学统计中的应用[J].中华预防医学杂志,2018(01):53-54.