APP下载

捕获再捕获抽样研究综述

2018-10-21田少娟��

科学导报·学术 2018年11期

田少娟��

作者简介:田少娟(1993—),女,山西长治人,山西财经大学2016级(统计学院)统计学

摘 要: 捕获再捕获方法早期由野生动物学家提出,应用于生态学领域,后經不断发展,目前已被广泛用于除生物科学外,社会科学、医学和公共卫生等调查研究中以及更广泛的领域中。本文从理论研究和应用领域研究两个方面评述捕获再捕获抽样方法的研究进展,并提出下一步研究方向。

关键词: 非概率抽样;捕获再捕获;估计量

【中图分类号】 O212.2 【文献标识码】 A 【文章编号】 2236-1879(2018)11-0170-01

捕获再捕获的方法早期由野生动物学家提出,用于估计限定区域内野生动物种群的大小,后经不断发展目前已被广泛用于除生物科学外,社会科学、医学和公共卫生等调查研究中,甚至有学者将捕获再捕获方法用于改进互联网搜索第三方结果精度以及更广泛的领域。捕获再捕获抽样是一种常用的非概率抽样方法,在现有的国内外文献中,对捕获再捕获方法的研究主要包括理论研究与实际应用。

一、理论研究

理论研究集中于如何提高估计精度、减小误差。最初由Lincoln(1930)发展了Petersen的估计量(简称P统计量),提出了LP估计量。随后Chapman(1951)对LP估计量做了改进,提出了新估计量即C统计量。目前,两种估计量广泛应用在实际领域中,但研究者发现了这两种估计量存在的一些缺陷,在之后的研究中不断做改进。Brittain(2009)主要探讨了不同估计量的性质,利用捕获再捕获方法估计传染病的传播情况,构建不同的估计量及它的修正形式,通过比较估计值与真实值讨论不同估计量的性质,并提出进一步优化建议。Jones(2015)等运用捕获再捕获方法估计英国布里斯托尔吸毒(或注射毒品)的发生率,并说明单纯地使用捕获再捕获方法会产生错误的结果,最后提出了解决问题的办法:要仔细考虑数据来源是否适合捕获再捕获、将列表减少到更少的异构子样本、使用协变量和纳入外部数据。国内理论研究的主要贡献有:文平(2001)介绍了捕获-再捕获抽样的思想方法,提出了一个复合估计量,改进P估计量假定样本中每个入样单元入样概率相同导致的估计量方差较大的缺陷,在之后的研究中还提出了一种多元组合估计量。杨贵军等(2011)对捕获再捕获抽样常用的LP估计量和C估计量的统计性质进行模拟比较,并提出一个新的估计量。

二、应用领域研究

实际应用领域主要在流行病学发病率、吸毒人群等隐形人群规模的估计中,随着方法的不断成熟,也有学者应用在一些新的领域,如估计商品总需求量。

在流行病学研究中的应用始于Wittes&Sidel,用捕获再捕获方法估计出生缺陷率,后来越来越多被用于传染病、滥用药物、肿瘤等流行病研究中,但大多运用两样本的捕获再捕获方法,如程慧健等人运用江西省1996-2000年传染病疫情报告和医院漏报调查作为两次捕获样本,利用捕获再捕获两样本模型估计地区的传染病发病率。杨茜茹(2017)尝试使用多样本捕获再捕获方法,利用广泛使用的对数线性模型,通过拟合各样本间的相依性,可以不考虑各样本相互独立的假设,从最简单的模型开始逐步拟合,根据离差统计量选择最优模型估计云南每个疫情地区的肺结核患者数,计算每个疫情地区肺结核患者的漏报率与漏失率。在其他领域的研究有:估计吸毒群体规模。梁伯衡,栾荣生(2004)以乐山市进入戒毒所戒毒的吸毒人员登记资料为分析数据,建立捕获再捕获使用的分析数据模型,估计当地吸毒人群基数。估计隐藏人口规模。Coumans(2017)等人研究使用捕获再捕获方法估计荷兰无家可归的人口规模,使用了2009年-2013年的荷兰人口登记表、低收入群体收入保障表、国家烟酒个体信息登记表三个数据来源,采用三样本捕获再捕获,建立对数线性模型估计无家可归人口规模。邱泓,高霖琳在对难以接触的女性性工作者规模估计的研究中对流动群体采用了捕获再捕获方法,在昆明市特定区域18个调查点开展调查,利用C统计量的无偏移计算公式估算目标人群总体规模。估计漏报率水平。张高辉,郭晓雷(2015)应用捕获再捕获方法评价山东省居民2012-2013年死因登记漏报率水平,采用分层整群抽样法,将全省所有县(市、区)按照2012年死因登记系统报告死亡率分成5层,以当地公安、民政和村(居委会)搜集到的人口死亡情况和死因登记系统已报告的死亡资料作为捕获再捕获模型,利用C提出的计算公式估算漏报率水平。

还有一些较新的研究领域:荣国平(2017)将捕获再捕获应用于软件测试中,用于预测软件评审后缺陷。智冬晓,许晓娟(2018)以互联网电商所销售的短生命周期商品为特定的实证分析对象,使用时变-行为反应模型,结合ARIMA模型分析捕获概率,对商品在整个生命周期内潜在的市场总需求量进行估计。

三、研究评述

通过对国内外捕获再捕获抽样方法的研究现状评述得出,捕获再捕获抽样方法在理论研究与实际应用领域都有广泛应用,在下一步的研究中应考虑如何优化估计量以及如何设计抽样方案将此方法应用于互联网大数据中。

参考文献

[1] Brittain. Estimators in capture–recapture studieswith two source[J] Asta Advances in Statistical Analysis, 2009, 93(1)

[2] 文平.捕获-再捕获抽样中的多元组合估计量[J].生物数学学报,2011,26(04)

[3] 杨贵军,刘艳玲,王清.捕获再捕获抽样估计量的模拟研究[J].统计与信息论坛,2011,26(03)

[4] 杨茜茹.云南省3县(市)肺结核病例存量研究[D].昆明医科大学,2017.

[5] 梁伯衡,栾荣生.捕获再捕获法估计吸毒人群基数的数据模型研究[J].中国预防医学杂志,2004(04).

[6] 张高辉,郭晓雷,鹿子龙,孙建东,徐爱强.应用捕获再捕获方法评估山东省死因登记漏报率水平[J].中国慢性病预防与控制,2015,23(05)

[7] 智冬晓,许晓娟.短生命周期商品市场总需求量估计——基于ARIMA-捕获再捕获模型的研究[J].统计与管理,2018(01)