APP下载

人口重报:人口普查面临的新挑战

2018-07-31张广宇顾宝昌

人口与经济 2018年3期
关键词:数据质量人口普查

张广宇 顾宝昌

摘要:人口普查中的重报问题长期以来一直没有得到统计部门和学者的足够重视。但是,美国2000年和2010年两次人口普查均出现大规模的人口重报,随后加拿大、英国和澳大利亚等国的统计部门也发现在各自的普查中重报现象都有明显上升的趋势。

本文回顾了这四个国家近些年举办的普查的调查方式、居住地原则、人口漏报和重报的情况,归纳了重报人口的共同特征和造成重报的原因,以及各国应对重报问题增加而采取的措施。

普查中重报现象的增加,既与普查方式的转变有关,也与人们越来越复杂的生活和居住方式、越来越频繁的人口流动,以及对人口普查的居住地原则的不同理解有关。要有效地应对重报问题,不仅要加强事后抽样工作,而且要积极利用计算机和互联网技术,通过数据匹配发现和去除重报的普查记录。文章还对中国2020年的普查应对重报问题提出了一些建议。

关键词:人口普查;重报;数据质量

中图分类号:C921.2文献标识码:A文章编号:1000-4149(2018)03-0001-12

Abstract:Overcoverage in census has long been considered as nonsignificant in comparison to undercoverage. However, it was found that both the 2000 and 2010 US decennial censuses overcounted millions of people with a net overcount outcome. Meanwhile, an increase in the magnitude of person duplications in recent censuses has been reported in Canada, the UK and Australia.

This paper reviews census residence rules, censustaking methods and coverage errors in these four countries. It summarizes common features of census duplicates and potential causes for overcount in census, and the measures taken by national statistical offices to address these issues.

The increase in overcount is not only associated with the adoption of new censustaking method while shifting away from the traditional doorknocking method, but also attributable to more frequent population movement and more complex living situations, and the resultant respondents confusion on census residence rules. To identify and remove census duplicates, it is important to both enhance the postenumeration survey, and undertake data linking between census and administrative statistics. The paper also makes some recommendations on Chinas 2020 census addressing potential overcoverage.

Keywords:census;overcoverage;data quality

我們在《中国人口科学》2017年第5期发表的“从国际视角看人口普查中的低龄儿童的漏报问题”一文中讨论了各国在人口普查中遇到的人口漏报[1],特别是低龄儿童漏报的问题。但是,影响人口普查完整性的因素不仅来自人口漏报,也来自人口重报。本文拟在前文的基础上,着重讨论近些年来各国人口普查中越来越显著的人口重报问题。

自1950年以来,世界各国举办了1600多次普查,人口漏报和普查结果的净漏报一直是人口普查面对的最主要的挑战[2]。由于人口重报的程度和影响相对较小,因而一直没有得到各国统计部门和人口学者的足够重视和深入研究。美国2000年的普查是世界上第一次在规模很大的人口中开展的人口普查中发现总人口的净重报,即重报人口大于漏登人口[3],而随后的2010年人口普查又继续发现大幅度的人口重报和漏报[4]。与此同时,加拿大、英国和澳大利亚统计部门也发现,尽管总人口的净漏报依然是近些年举办的普查的最主要的挑战,但人口的重报也呈现显著上升的趋势[5-7]。

人口普查的主要目标是完整和准确地登记一个国家在普查时点的所有居住人口,这不仅包括完整登记所有普查对象,还包括在正确的地址登记这些人口。由于人口流动,很多人在普查时点居住的地址(即现住地)与其长期居住的地址(即常住地)并不一致。而随着经济的发展和全球经济的一体化,人们生活和居住方式也越来越复杂,国内流动和国际迁移越来越频繁,在很多国家现住地和常住地不一致的人口大量增加,由此产生的对普查的居住地原则的误解相应地导致普查中重报和漏报程度的上升[8]。

在上述几个国家的人口普查实践中,人口重报问题的显现与近些年普查调查方式的改变在时间上密切相关:由于计算机和互联网技术的进步,同时也是出于节省经费的考虑,这些国家逐步放弃了传统的依靠普查员登门入户投送和收集问卷的普查方式,转而采用依靠全国性的地址名录,通过邮局向绝大多数普查对象寄送普查问卷,要求他们自行填写普查问卷,或通过邮局寄回普查表,或通过互联网完成普查。

中国2010年的第六次人口普查采取了双口径登记的原则,即流动人口既在现住地登记,也在户口登记地进行登记,然后由统计部门采取相应的措施去除重复登记的记录。这种措施有助于大大减少普查中由于现住地和常住地的分离而可能带来的漏登程度,但也相应地增加了人口重报的可能性。在六普以前,有些人口学者已经关注人口的重报问题[9]。而六普结果公布以后,更多的研究开始关注此问题,并一致认为2010年人口普查的重报问题可能比以往的普查更为显著[10-14]。回顾和借鉴其他国家分析和处理人口重报问题的经验和教训,对于更好地準备和成功举办2020年的人口普查,更好地评估普查的数据质量,具有十分积极的意义。

一、美国、加拿大、英国和澳大利亚近年人口普查中的重报问题

1.美国2000和2010年人口普查中的重报问题

美国的人口普查自1790年以来,每十年举办一次,由人口普查局具体执行。普查的对象是所有普查时点在美国生活和居住并以美国为常住地的人,包括非美国公民。从1970年普查开始,普查局已经逐步对大多数人口采取通过邮局寄送和回收问卷的方式进行普查。对于这种登记方式没有覆盖的少数人口,则采取由普查员登门入户的方式,或携带新问卷要求住户把完成的问卷邮寄回普查局,或以直接登记的方式完成普查。在普查后期的查漏补缺阶段,对还没有返回问卷的家庭,普查局或通过电话,或派普查员登门催促他们尽快完成普查[15]。

近几十年来,美国人口普查的净漏报率一直在稳定下降,1980年普查已降低到很低的水平[4]。但是,相对低的净漏报率可能隐藏了大量的人口漏报和重报的事实,这一点在2000和2010年两次普查中尤为显著(见表1)。由于美国人口的基数大,实际漏报的人口数很可观。

2000年的人口普查,普查局第一次实现通过计算机进行的实时的数据匹配,以期提高普查后期查漏补缺工作的成效。但是,还在普查正在进行的阶段,就发现有大量的家庭邮寄回不止一份问卷。进一步的分析发现大约有160万家庭重复登记,由此导致大约360万人口的重报,这些记录最终被从普查记录中删除[16]。

美国的人口普查采用事后抽样调查和人口分析两种方法独立评估普查质量。与以往的历次普查不同,对2000年普查,两种评估方法得出截然相反的结论:事后抽样调查结果认为普查大约净漏报1%的人口,而人口分析的结果则表明,结果很有可能是净重报。为此,普查局决定暂缓公布对普查数据质量的评估,一方面对两种评估方法进行回顾及检查,并重新评估普查的数据质量,另一方面积极探索新的办法研究普查中新出现的大规模的人口重报问题,例如,把普查数据与其他来源的数据进行匹配,从而发现重报的人口[17]。

2000年普查实际登记的人口为2.73亿人,在两年之后公布的研究成果,证实此次普查的结果为净重报,净重报率为0.5%,即大约净重报了133万人[3]。除了在数据处理过程中对应在普查中登记而没有登记的家庭利用统计方法进行赋值从而由系统生成虚拟的记录以外,大约有600多万人在普查中登记了一次以上[3]。而这些重报的人口并不包括在普查期间删除的由于地址重报而导致的大约360多万人的重报。研究还发现,传统的只针对净漏报率设计的事后抽样调查,不能准确发现新出现的大规模人口重报的现象[18]。

在总结经验和教训的基础上,2010年的人口普查采取了大量针对人口漏报和重报问题的改进措施。例如,在编制全国地址名录的过程中进行了大量的数据匹配和实地调查,力争在普查前去除主地址名录中重复的地址[19]。由于此次普查,所有普查对象都只填写短表,只需回答包括姓名、地址和一些关键的人口指标等问题,问卷中专门加上了关于在每一个住址是否有潜在的人口漏报和重报的两个问题。在普查期间,普查局利用计算机即时进行数据匹配和分析,发现对这两个问题的回答有疑问的问卷,就与该住址的家庭联系,争取在普查结束前就澄清和解决有关疑问[20]。

2010年普查在事后抽样调查的目标和方法方面也进行了大量的改进,该调查不仅要评估普查的净漏报率或净重报率,还要估计普查差错的具体构成,即粗重报率和粗漏报率。除此以外,还要根据不同人口特征提供相应的指标,例如种族。针对人口的重报问题,普查局在2000年普查以后就已经测试过把部分普查数据与其本身进行一对一的数据匹配,以确定重报的人口。2010年普查结束以后,普查局第一次实施了对全部普查记录本身进行数据匹配的做法,即对每一个普查记录都在全部普查记录中搜寻和匹配具有相同姓名、性别和生日等确定性特征的记录,以发现和确定重报的人口[21]。

2010年的人口普查共登记了3亿多人口。事后抽样调查结果表明,大约1600万人漏登,同时有1600万人错登,包括800万系统生成的记录,实际上大约有800 万人在普查中登记了一次以上。普查粗重报率和漏报率都是5.3%,净漏报率为-0.01%,大约净重登了3.6万人,但不具备统计显著的意义[4]。

2.加拿大2006年和2011年人口普查中的重报问题

加拿大统计局自1951年开始,每五年举办一次人口普查。普查采用常住地原则,即所有普查对象在其常住地登记,普查时点不在常住地的人口在其登记地登记为“临时/暂住人口”。2006和2011年普查的调查方式与美国相似,依靠全国地址名录,对大多数城市人口采取通过邮局寄送/回收的方式进行调查。对城市中难以调查的人口,或边远地区的人口,则专门派普查员登门,或者要求普查对象自行填写问卷然后寄回普查部门,或者直接进行调查[6]。这两次普查积极鼓励普查对象通过互联网完成普查。2006年的普查大约有18%的家庭通过互联网填写问卷,而在2011年则有54%的家庭通过互联网完成普查[6]。

自1991年普查开始,加拿大统计局不仅调查普查中的漏登问题,还调查普查中的错登,主要是重报问题。表2列出1991—2011年五次人口普查中的重报和漏报问题。尽管总的净漏报率有所下降,但粗重报率则一直呈现不断上升的趋势。例如,2011年的粗重报率是1991年的3倍,而重报的人口也从1991年普查的15万人增加到2011年的63万人(见表2)。

受美国2000年普查出现大规模重报问题的影响,加拿大统计局在2006年普查以前已经积极采取了很多有针对性的措施。例如,在普查前花大力气清理和提高普查用地址名录的准确性,力求避免因为地址名录的重复而导致普查人口的重报。不仅如此,还在2006年普查的质量评估中增加了专门的普查重报调查,主要是把普查数据与其他来源的行政统计数据进行匹配[22]。但普查结果表明,粗重报率实际比上次普查又上升了0.6个百分点。加拿大统计局总结经验教训,在2011年普查准备阶段继续采取很多有针对性的措施,但实际结果表明粗重报率依然呈现上升趋势。这个现象除了部分归因于重报调查的方法和技术[6],但更重要的是也表明普查中重报问题与漏报问题一样不可避免。

3.英国2001和2011年人口普查中的重报问题

英国(指英格兰和威尔士)的人口普查每十年举办一次,最近的一次是2011年的普查。英国以前的普查采取的是现住地原则,即普查对象均在普查时的所在地登记,但从2001年普查开始,采取常住地原则,所有人均须在其常住地进行登记。与以前历次普查相比,英国2011年的普查又有许多重要的改进。一个很重要的变化是采用美国和加拿大的普查模式,即在普查前建立完善的全国地址名录,普查时依靠此地址名录通过邮局寄送/回收问卷,普查后期依靠此地址名录进行查漏补缺的工作。不仅如此,普查对象还可以利用互联网完成普查。

在英国2001年普查以前的历次普查,人口重报都不是一个值得重视的问题。与美国和加拿大不同,这些普查都是由普查员登门入户投送和回收问卷,而且普查采取的又是现住地原则,因而大大减少了人口重报的可能性和重报的程度。从2001年开始,英国普查改用常住地原则统计人口,调查方式也改为由普查员挨家挨户投送问卷,但问卷的回收由普查对象用预先提供的信封自行寄送回普查部门。与以前普查不同,这次普查并不要求普查员必须与普查对象见面。这样一来,不仅漏报率大为提高,而且重报率也显著增加[23]。

在美国和加拿大普查先后发现重报问题已经成为一个显性的问题之后,英国统计部门加强了这方面的研究。对2001年普查数据的分析表明,此次普查粗漏报率为6%,但粗重报率也达到0.4%,大约有20万人重报[24],重报问题比以前历次普查有明显增加。研究还表明住校大学生、离婚夫妇共同抚养的小孩,和有不止一处家庭住址的人,在普查中的重报概率相对较高[23]。因而在准备和举办2011年普查的过程中,统计部门加强了对这些人群登记的检查,例如加强对学生普查登记记录的审核,努力避免他们既在学校登记,又在父母住址登记。在普查的问卷上,专门列有针对离婚夫妇共同抚养的小孩如何登记的提示[7]。

对2011年普查数据的质量评估,英国统计部门除了利用传统的事后抽样调查的方法以外,还采用美国的做法,即对普查记录本身进行数据匹配,以应对潜在增加的人口重报问题。抽样调查的结果用于估计本地人口的重报程度,而普查数据匹配的结果主要用于在全国范围内寻找重报的人口[7]。研究结果表明,2011年普查登记人口接近6000万人,粗漏报率为6.7%,但粗重报率估计在0.5%—1.0%之间,即大约重报了30万至60万人[7]。

4.澳大利亚2016年人口普查中的重报问题

澳大利亚统计局自1961年以来每五年举办一次人口普查。普查同时采用现住地和常住地原则,即所有普查对象在现住地登记,但必须在普查问卷上填写其常住地地址。所有的官方人口统计数据都是以常住地为准。2011年普查以及以前的历次普查的调查,都是采用由普查员登门投送问卷,普查对象自行填写问卷,再由普查员登门回收问卷的方式进行[25]。但是,普查对象也可选择使用普查部门提供的信封寄回问卷,或选择使用互联网完成问卷。

2016年的普查实施了很多重大的改进,一个重大的变化是采取美国、加拿大和英国的普查模式,即事先编制全国地址名录和通过邮局寄送/回收普查问卷,鼓励普查对象尽可能使用互聯网参加电子普查。事实上,使用互联网参加普查的家庭的比例在2016年超过2/3[5]。与其他国家不同的是,统计局依然雇佣了大批普查员登门提醒普查对象按时完成普查,或向要求使用书面问卷的家庭投送问卷。对边远地区的土著居民,仍然依靠普查员登门入户登记人口。

另外一个重大的变化是,吸取美国、加拿大和英国普查的经验教训,在事后抽样调查中专门加上了调查人口重报的内容[26]。表3提供了1996年至2016年五次人口普查的重报和漏报情况。除1996年普查以外,各次普查的粗漏报率比变化不大,但是粗重报率一直在逐步上升。在2011和2016年两次普查期间,粗漏报率变化不大,但是粗重报率却显著上升。漏报人口增加了将近30%,而重报的人数则几乎是上一次普查重报人数的两倍[5]。

二、重报人口的分布和特点

上述四国对普查中重报人口的特征和分布都相应做了很多研究,尽管几个国家的情况各不相同,但总结他们的研究成果,仍然可以发现重报人口有一些共同的特征。

1.有些特定人群比其他人群更容易在人口普查中重报

在美国,2000年和2010年的两次普查都发现以下几种人群更容易在普查中重报/被重报:①住校但周末回家的大学生,虽然他们应该在学校登记,但有些父母还会把孩子也包括在普查表里。②由离婚父母共同抚养的小孩,小孩因为与父亲和母亲分别居住一段时间,其父母有可能都在各自的普查表中包括了孩子的信息。③有不止一个住址的人,包括通勤上班者(平时住城市,周末回家)和有不止一处房产的人。本人和家人有可能分别填写了普查表。④在普查登记期间流动的人,包括短期旅行和搬家的人,他们也有可能在不同的地方都做了登记。⑤普查期间在监狱里的犯人。

而加拿大2011年普查的质量评估结果也显示,大约30%的重报记录属于离婚夫妇协议抚养的小孩,很显然父母双方都把孩子登记到自己的地址。接近20%的重报记录来自于既在大学登记,又在父母地址登记的在校学生,或者是新近结婚离开父母单独居住的年轻人。还有超过20%的重报记录来自于居住在亲戚或朋友家的成年人[6]。

在澳大利亚,2016年普查的事后抽样调查发现,人口的重报主要有以下三种情况:①普查时点在外地并在其现住地登记,但是家人将其包括在常住地登记的普查表中; ②普查期间搬家,同时在原住址和现住址参与了普查;③普查时点在国外,不是本次普查的对象,但却被家人包括在其常住地的普查表中[5]。

2.重报人口遍布各个年龄段,但年轻人口更容易重报

相对于其他年龄组,很多年轻人由于求学和工作的缘故而成为流动人口,不仅容易在普查中漏报,而且也容易在普查中重报。对美国最近两次普查重报人口的研究发现,重报人口几乎分布在每一个5岁年龄组,但是年轻群组比其他年龄组更容易出现重报,特别是15—24岁年龄组,同时,15岁以下儿童组和25—29岁年龄组的人群也有相对较高的重报比例[21]。年轻年龄组的人口不仅容易在普查中漏报,他们也更容易在普查中重报,这是因为他们由于求学和工作的缘故而成为流动人口的主要组成部分。

加拿大统计局对2006和2011年两次普查的分析发现,5—14岁和15—24岁年龄组比其他年龄组的人口更容易重报。研究发现,在所有这些年龄组,男性和女性人口重报的比例差不多[6]。

3.在地理范围上很多重报发生在同一地址或相近的地址

对美国2010年普查的深入研究发现,就地理范围而言,将近13%的重报是跨州登记(即登记在不同的州),另外大约23%的重报是在同一个州但不同的县登记。超过25%的重报发生在同一普查小区,也就是说,很多重报是在同一个地址登记,或者在相邻的地址登记[21]。

加拿大2006年的调查结果显示,大约20%的重报记录来自于在同一地址上的同一个家庭,一个很重要的原因是许多家庭既填写了普查问卷,又在互联网上完成了普查。另外有20%的重报记录来自于同一个家庭,但是登记为不同的地址,一个很有可能的解释是不同的家庭成员在不同的地址都登记了家庭成员的情况[27]。

4.重报人口的其他特征

在美国2010年的人口普查中,大约82%的重报发生在家庭户中,其他18%的重报发生在家庭户和非家庭户(集体户)之间,即有许多人口既在家庭户登记,也在学校、医院和旅馆等其他场合登记。在重报的家庭户中,绝大多数的重报发生在部分家庭成员中,整个家庭重报的比例相对较低,大约占1/4。美国的研究还发现,弱势群体更容易在普查中被漏登,而社会经济条件相对好一些的人群则更容易出现重报,因为他们更有条件流动或者拥有多处地址,与统计部门也更为配合。以种族划分,非西班牙裔白人的重报比例要比其他种族的人口要高。在历次美国的人口普查中,黑人和西班牙裔人口一向有比较高的漏报率[21]。

三、普查中部分人群容易重报的原因

人口的频繁流动和人们生活和居住方式的多样化和复杂化,使得人们对普查的居住地原则产生不同的理解,这无疑是造成人口重报的重要原因。但是,综合这几个国家统计部门的研究,重报问题的显著上升,在时间上与这些国家放弃传统的登门入户的调查方式转而采用新的普查方法也密切相关。

1.普查方式的变化是人口重报问题显著上升的一个重要原因

西方发达国家传统的人口普查,每次都耗资巨大临时雇佣大量的普查人员。近年来很多国家的统计部门都面临预算紧缩的压力,大量减少普查人员就成为减少普查经费最易行的措施。计算机和互联网技术的进步、普查方法的改进、行政统计数据的广泛使用,和数据匹配方法的发展等,在客观上促进很多国家采用新的普查方法。

本文回顾的四个国家逐步抛弃了传统的普查员登门入户的调查方式,转而采用新的普查方式,即编制“完整”的全国地址名录,然后依靠此地址名录通过邮局寄送/回收问卷,和进行普查后期的查漏补缺工作,并积极鼓励普查对象通过互联网完成普查。计算机和互联网技术在普查中的广泛使用,不仅提高了普查的内容的准确性,例如大大减少由于手写笔误造成的错误等,而且提高了普查后数据处理的时效性。

采用新的普查方式以后,統计部门可以大量减少普查员,但是很明显的副作用就是一名普查员不得不应对大量的普查对象,因而也就不可能多次登门入户完成投送问卷、提醒督促和回收问卷等任务。结果就是这些国家普查的漏报率都不可避免地有所上升。与此同时,问卷由普查对象自行完成,特别是由于纸质问卷和互联网问卷的同时使用,一些过于热心的普查对象就有可能提交不止一份问卷。例如,英国2011年的普查,在问卷回收阶段,就发现有24万对来自相同地址和家庭的重复的问卷[7]。

此外,依靠邮局投送和回收问卷,邮局投送工作的失误,也有可能造成普查的重报。例如,美国的研究发现,邮递员把A地址的问卷投递到B地址,那么B地址的家庭有可能填写两份问卷,构成重报,而A家庭则没有填写问卷,构成漏登。还有一种情况是在编制全国地址名录的时候,地址仍然存在,但在此之后该地址不再存在,如拆迁,邮递员可能把问卷投送到附近的地址。如果附近地址的居民填写了问卷,则有可能构成重报[17,21]。

2.普查用地址名录的质量会直接导致普查中的重报和漏报

新的普查方式依赖一个高质量的全国地址名录,如果该地址名录不能准确地去除重复的,或者相似的但实际上是同一个地址的住址,就很容易造成重报。同样,如果该地址名录遗漏一些地址,在这些地址的家庭就不会收到通过邮局寄送的问卷,那么地址的遗漏就会直接导致部分人口的漏报。

美国普查局的研究发现,在编制全国地址名录的时候,不同来源的数据有可能导致同一地址被登记为两个很相似/相近的地址,例如同一地址以“X公寓1号”和“X公寓A号”被登记两次。普查部门根据地址名录给同一家庭先后寄送了两份普查问卷,而该家庭把两份问卷都寄还给普查部门,从而造成该户家庭成员都被登记两次,形成重报[17]。这个问题在2000年普查中比较突出,在2010年的普查中得到了很好的解决。但是由于各种原因,普查局不可能全部根除地址名录中的重复地址,因而这仍然是导致人口重报的原因之一。加拿大和英国的研究也都得出相同的结论,即地址名录的重报和漏报是导致很多人口在普查中重报和漏报的重要原因[6-7]。

3.流动人口对居住地原则的不同理解导致人口的漏报和重报

很多国家的人口普查采用常住地原则,即以占用人们生活和休息大部分时间的地方为主。由于人口流动和生活方式的多样化,很多人口的常住地和现住地并不一致。因而每一次人口普查,各国统计部门都要制定详细的标准来确定一个人是否为普查对象,其常住地在何处。

例如,美国2000年的普查,对学生如何参加普查登记有如下的标准:①寄宿学校的学生在父母的地址登记;②住校的大学生在学校登记;③如果大学生在父母家常住,则在父母家的地址登记。这些标准看似详细,但与复杂的实际情况相比则还是显得过于简单。同时,不同背景的普查对象对此标准的理解又有很大的不同。美国普查局的相关研究证实,普查对象对居住地原则的误解是造成人口重报的重要原因之一[8]。

为此,美国普查局不断改进对居住地原则标准的制定。在2010年的普查中,普查局总结经验教训,对学生如何参加普查制定了更为详细的标准:①住在大专院校以下的寄宿学校的学生,仍然在父母家登记;②大专院校学生仍然在父母家居住的,在父母家登记; ③离家的大专院校学生,但在校园内或校园外居住的,在居住时间更长的地址登记;④离家的大专院校学生,并在校园内或校园外居住的,但经常回父母家度假的,在居住时间更长的校园内或校园外的地址登记;⑤在境外的美国学生不在普查范围之内;⑥在美国境内的外国学生,在校园内或校园外居住的,在居住时间更长的地址登记[28]。

4.在数据处理过程中由系统生成“虚拟人口”导致的重报

在美国和澳大利亚的人口普查记录中,还包括一些通过统计方法产生的所谓“虚拟人口”,相应的,这些国家的普查中又产生了一些由数据处理导致的人口重报。以澳大利亚的普查为例,在普查实地调查中,某一住址没有普查问卷返回,一种可能是该户家庭成员普查时点在该地居住,但拒绝参与普查。但是另一种可能是该户家庭成员在外地或国外,而普查人员没有可靠的信息确定该户人家是否应该包括在普查之中。有很多时候,普查员把问卷留在该地址,但如果邻居或朋友帮助把问卷收走,普查员就有可能错误地判断该户人家已经参与了而实际并没有参与普查。事实是,如果该户家庭普查时点在外地,也参与了普查,就有可能造成重报。同样,如果该户家庭普查时点在国外,虽然不在普查范围之内,但人数、年龄和性别等信息则通过出入境记录加入总人口汇总数据中,同样会造成重报。但是由于这种重报是在普查数据汇总过程中产生的,与普查对象在同一地址或不同地址填写两份问卷造成的重报性质不同,后一种重报是可以通过数据匹配发现,而前一种重报主要通过事后抽样调查发现[29]。

四、发现和去除重报人口的方法及挑战

人口的重报与漏报一样,是大多数国家人口普查与生俱来的问题。当重报问题开始显现的时候,美国、加拿大、英国和澳大利亚等国的统计部门,没有回避问题,而是积极探索新的方法以发现和去除重報人口。

1.改进事后抽样调查方法,把人口重报问题纳入调查重点

美国是世界上最早采用事后抽样调查方法评估普查数据质量的国家。但长期以来,事后抽样调查的主要目标就是发现普查的净漏报率,用以估计普查时点的总人口。所以,原先的调查方法并不是先分别计算出粗重报率和粗漏报率,然后再计算出净漏报率,而是直接得出净漏报率。对2000年普查及其抽样调查结果的分析还表明,当人口出现重报的时候,原先的事后抽样调查方法不仅很难发现重报,而且会得出相反的错误结论[18]。要估计普查的完整的差错构成,就必须在事后抽样调查的抽样方法、样本规模和结果估计上作出很多改进[20]。

自美国2000年普查发现大规模人口重报并改进事后抽样调查方法以后,加拿大统计局在2006年的普查中增加了专项普查重报调查,而英国统计局也在准备2011年普查的同时开始研究如何改进事后抽样调查的方法[22,25]。澳大利亚统计局也吸取这几个国家的经验教训,在2016年普查的事后抽样调查中增加了人口重报的调查内容[5]。

当然,事后抽样调查可以估计全国或大的地区范围的重报和漏报水平,但无法给出具体估计,特别是确定哪些人是重报人口。所以,这些国家都利用数据匹配的方法,特别是对普查记录本身进行数据匹配,以发现和判定重报的人口。

2.通过数据匹配的方法发现普查中重报记录

美国2000年人口普查中重报问题的发现,既得益于美国人口普查局同时实行两种独立的普查数据评估方法,更得益于普查中收集的姓名和地址等信息第一次转化为电子数据,从而能够利用计算机实行一对一的数据匹配。人口普查局在2000年普查以后开始把普查数据与其他外部数据进行匹配,以发现重报问题。2010年普查之后,更是在以前实验的基础上,开始实行把普查与其自身匹配,以从中发现重报的普查记录[21]。

加拿大统计局从2006年普查起,开始实施独立的普查重报调查[22]。但与其他抽样调查不同的是,这个调查依靠把普查数据与行政统计数据以及普查数据本身进行匹配,以估计普查的重报程度。用于匹配的数据包括出生、死亡、国际迁移、卫生、福利和税收记录等行政统计数据[6]。英国和澳大利亚统计局也积极实施把普查数据与其他行政统计数据匹配,或借鉴美国的做法,对普查数据本身进行数据匹配以发现重报的人口。

这些国家的普查都搜集普查对象的姓名、出生日期和其他人口信息,并把普查数据转换为计算机数据,因而大大促进了数据匹配工作。数据匹配有两类:一类是确定性的匹配。如果普查搜集的数据包含全部普查对象的社会保险号码、身份证号码等个人独有的信息,计算机可以很容易地进行确定性的匹配。但是如果没有这些独特的信息,就只能进行另外一类数据匹配,即概率性的匹配[30-31]。本文回顾的这些国家的数据匹配都利用概率性的匹配方法,并辅以人工判定和实地追踪调查以确定和去除重报记录。但是,他们的实践也表明,数据匹配可以辨别重报的人口,但如果不辅以实地追踪调查,也没有办法去除普查数据中的重报记录。

3.数据匹配方法上的挑战

在这些国家实行概率性数据匹配的实践中,如何准确无误地发现重报人口,仍然面临方法上的挑战。在确定普查记录是否重报时,姓名和出生日期是非常重要的变量。如果普查中两个记录具有相同的姓名、性别和出生日期,而且在同一个地址,就可以准确判定有一个记录是重报;如果是相邻的地址,如在相邻的乡镇和区县,那么也有很大的可能确定为重报。但是,如果在更大的地域范围,直至全国范围内搜寻,就会遇到方法和技术上的挑战。美国人口普查局在进行数据匹配时就遇到过“琳达·史密斯(Linda Smith)问题”,因为琳达·史密斯是非常普遍的女性姓名,在全国范围内用姓名、性别和出生日期来确定匹配的普查记录是否重报,如果有超过365个女士有相同的姓名和出生日期,就无法确定匹配的记录是不同的人重名,还是相同的人重报[16]。要想判定重报,需要引入更多的数据变量,如教育程度、婚姻状态和工作性质,等等,但普查的数据内容毕竟有限,如果人口数量很大,就会很快遇到相同的问题。

在进行数据匹配的过程中,如果匹配的普查记录并不是同一个人,而是具有一些相似特征的不同的两个人,那么其中一个记录会被去除,而真正的重报记录仍然留在普查数据之中。如果匹配的记录依靠的是出生日期和性别等关键数据,那么清理后的普查数据在年龄和性别结构方面仍然可靠,但是在其他数据方面就会有很多误差。如果一个为没有生育的育龄妇女和一个有生育的育龄妇女具有相同的姓名、性别和出生日期,但由于没有其他变量来区分她们因而被判定其中一人为重报,那么删除哪一个记录就会对利用普查数据估计生育率造成直接的影响。

总之,这些国家的数据匹配工作各有自己的问题和挑战,也在不断完善的过程之中。如何更好地进行数据匹配来辨别和判定普查中的重报记录,还是一个需要不断研究和实践的重要课题。

五、对中国2010年和2020年人口普查的一些启示

中国的人口普查依靠普遍实行的户籍登记和身份证制度,和普查员登门入户的调查方式,保证了普查能够成功举行和取得高质量的数据。虽然近些年关于普查对低龄儿童调查的质量、对总人口和生育率的估计等争论很多,但是以国际标准衡量,在中国这样一个十多亿人口的大国进行普查,能取得已有的成果已经是一个很了不起的成就。

从1982年到2000年的三次普查,人口的漏登是主要的挑战。但是,这些普查采用的是唯一的居住地原则,理论上,每个人只应登记一次,因而漏报的概率要比重报的概率大得多。针对流动人口数量庞大和人们生活方式越来越复杂的现实,国家统计局在2010年的普查中采用了双口径的方法进行调查,即流动人口同时在现住地和常住地登记,然后在数据汇总阶段由普查部门进行去除重登记录的工作。采取这样的普查方式无疑有助于减少人口的漏登,但也会给准确地评估普查的数据质量,以及发现和去除重报记录的工作带来极大的挑战。

由于国家统计局没有公布详细的事后抽样调查的结果,也没有介绍如何去除由于双口径调查以及其他原因导致的人口重报,我们并不清楚人口重报的程度究竟有多高,也不清楚重报究竟如何影响普查结果中的年龄结构,因此也就很难对六普的质量评估下更进一步的结论,并评估重报对生育率估计和总人口估计的影响。

但是,考虑到中国流动人口庞大的现实,双口径登记造成的重报规模肯定要比美国2000年普查重登的规模还要大。那么,在局部地区,如流动人口流出集中的地区,人口重报很可能大于漏报。而根据美国2000年普查的经验,采用传统的以调查净漏报率为目标的事后抽样调查方法就很难准确地发现人口的重报[18]。

从国际经验看,发现重登的普查记录最好的办法是对普查记录本身进行数据匹配。但是,中国人口众多,即使只挑选流动人口与普查数据匹配,其工作量也比美国全国普查数据匹配的工作量要大得多。这些年飞速发展的计算机和互联网技术,尤其是大数据、云计算等技术,在提高人口数据匹配的速度和准确性等方面具有十分积极的意义。但是,计算能力只是众多挑战之一,对数据匹配方法和技术的研究和选择,也是很重要的挑战。如果普查能够搜集全国统一的而且是每个个人独有的鉴别码,例如身份证号或健康保险卡号等,数据匹配可以相对容易地进行,发现和判定普查记录是否重报也相对容易。但是,如果没有这些全国统一且个人独有的鉴别码,数据匹配就只能利用概率匹配的方法进行,不确定性也就相应地大大增加,也就很难避免由于错误的匹配和去除重登记录而导致的普查数据的缺陷。

鉴于这些发达国家的经验和教训,随着我国社会经济的进一步发展,人口流动的越发频繁和多居住地人口的增多,特别是双口径普查方式的使用,或许准确地发现和去除重报人口会成为考验即将到来的2020年人口普查质量的重大挑战。

六、结论及讨论

人口普查中的重报问题,长期以来一直没有获得人口学界和统计部门的重视。但是近十多年来,美国、加拿大、英国和澳大利亚等国的普查实践表明,人口重报已经是一个不可避免而且逐步增加的问题,成为影响人口普查质量的一个新的挑战。

與全部人口相比,有些特定的人群更容易被重报,例如流动人口、有多住址的人口、住校学生和离婚夫妇共同抚养的小孩,等等。由于求学和工作的原因,年轻人群比其他人群更有可能在普查中漏报和重报。

人口的频繁流动以及人们生活和居住方式的多样化和复杂化,以及由此导致的对普查居住地原则的不同理解,无疑是造成人口重报的最重要原因。但这些国家放弃传统的登门入户的调查方式,转而采取新的普查方式,也是导致人口重报显著上升的重要原因。这些国家的普查实践也表明,改进事后抽样调查方法有助于准确发现和估计普查中的漏报问题,但利用计算机进行数据匹配是发现和判定普查记录中重报人口的主要方法。如果普查无法搜集全国统一和个人独有的鉴别码,从而进行决定性的数据匹配,那么概率性的匹配就是唯一选择。而要做到这一点,无论在装备上、方法的研究上和人员的准备上,都需要提前做好准备。

在本文结束之际,我们再次强调,中国的普查与本文回顾的四个国家现行的普查方法有很大的不同,因而面临的主要挑战也不尽相同。为了应对由于人口大规模流动可能带来的人口漏报问题,2010年中国人口普查采用的双口径登记方法,尽管减少了漏报程度,却又在事实上大大增加了普查结果中人口重报增多的风险。如果2020年普查仍然采取双口径登记的方法,那么统计部门需要积极借鉴国际经验,利用计算机和大数据技术的最新发展,提高普查的技术装备水平,同时积极组织力量研究和准备利用计算机进行数据匹配的技术和方法,及早应对潜在的相当规模的人口重报问题。同时,利用现有的2010年普查的数据,组织专家学者认真研究普查中重报的模式和程度,总结出可供2020年普查借鉴的经验和教训。

参考文献:

[1]张广宇,顾宝昌. 从国际视角看人口普查中低龄儿童的漏报问题[J].中国人口科学, 2017(5):96-109.

[2]UNITED NATIONS. World population prospects: the 2015 revision[R]. New York: United Nations, 2015.

[3]US CENSUS BUREAU. Decision on intercensal population estimates (12 March 2003)[R]. Washington, D C: U.S. Census Bureau, 2003.

[4]US CENSUS BUREAU. For immediate release: Tuesday, May 22, 2012: census bureau releases estimates of undercount and overcount in the 2010 census

[EB/OL].[2018-02-08]. https://www.census.gov/newsroom/releases/archives/2010_census/cb12-95.html.

[5]AUSTRALIAN BUREAU OF STATISTICS. Census of population and housing: details of overcount and undercount[R]. Canberra: Australian Bureau of Statistics, Cat. No. 2940.0, 2017.

[6]STATISTICS CANADA. 2011 census technical report: coverage[R]. Ottawa: Statistics Canada, 2015.

[7]OFFICE FOR NATIONAL STATISTICS. 2011 census: methods and quality report: overcount estimation and adjustment[R]. London: Office for National Statistics, 2012.

[8]NATIONAL RESEARCH COUNCIL. Once, only once, and in the right place: residence rules in the decennial census[M]//CITROC C D, NORWOOD J. Panel on the Residence Rules in the Decennial Census. Washington, D C:The National Academies Press, 2006.

[9]王广州. 对第五次人口普查数据重报问题的分析[J]. 中国人口科学,2003(1): 63-66.

[10]胡耀岭, 原新. 1982—2010年期間全国人口普查数据一致性研究[J]. 人口研究, 2013(1): 3-9.

[11]崔红艳, 徐岚, 李睿. 对2010年人口普查准确性的估计[J]. 人口研究, 2013(1): 10-21.

[12]王金营,戈艳霞. 2010年人口普查数据质量评估以及对以往人口变动分析校正[J].人口研究, 2013(1): 22-33.

[13]陶涛, 张现岺. 六普人口数据的漏报与重报[J].人口研究, 2013(1): 42-53.

[14]胡桂华,武洁,安军. 人口普查中多报人口数的估计[J]. 中国人口科学, 2016(1):41-52.

[15]MAURY M, PEMBERTON D. History: 2000 census of population and housing[R]. Washington, D C: US Census Bureau, 2009.

[16]FAY R. Probabilistic models for detecting census person duplication[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2002.

[17]MARSHALL L. Potential duplicates in the census: methodology and selection of cases for followup[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2008.

[18]MULRY M. Methodological lessons from census 2000 coverage error measurement[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2004.

[19]MULE T. Census coverage measurement estimation report: summary of estimates of coverage for persons in the United States[R].Washington, D C: US Census Bureau, 2012.

[20]WHITFORD D. Coverage improvement and measurement in the 2010 US census: innovation in response to census 2000[C]. Proceedings of the 59th International Statistical Institute World Statistics Congress, Durban, South Africa, 2009.

[21]HEIMEL S, KING R. 2010 census effectives of unduplication evaluation report[R]. Washington, D C: US Census Bureau, 2012.

[22]CLARK C. Census population coverage error: results and methods[C]. Presentation at the Federal Committee on Statistical Methodology Research Conference, Washington, D C, 2009.

[23]ABBOTT O, BROWN J. Overcoverage in the 2011 UK census[C]. Paper presented to 13th Meeting of the National Statistics Methodology Advisory Committee, 2007.

[24]BLACKWELL L, LYNCH K, SMITH J, GOLDBLATT P. Longitudinal study 1971—2001: completeness of census linkage[R]. London: Office for National Statistics, N0.10, 2003.

[25]AUSTRALIAN BUREAU OF STATISTICS. How Australia takes a census, 2011[R]. Canberra: Australian Bureau of Statistics, No.2903.0, 2011.

[26]AUSTRALIAN BUREAU OF STATISTICS. Information paper: measuring overcount and undercount in the 2016 population census[R]. Canberra: Australian Bureau of Statistics, No. 2940.0.55.002, 2016.

[27]STATISTICS CANADA.2006 census technical report: coverage[R]. Ottawa: Statistics Canada, 2010.

[28]US CENSUS BUREAU.Residence rule and residence situations for the 2010 census[EB/OL].[2018-02-08]. https://www.census.gov/population/www/cen2010/resid_rules/resid_rules.html.

[29]FELLEGI I, SUNTER A. A theory for record linkage[J]. Journal of the American Statistical Association, 1969, 64 (328): 1183-1210.

[30]CHRISTEN P. Data matching:concepts and techniques for record linkage, entity resolution, and duplicate detection[M]. Canberra: Springer, 2002.

[31]AUSTRALIAN BUREAU OF STATISTICS. Estimated resident population and effects of census systems created records[R]. Canberra: Australian Bureau of Statistics, No. 3132.0, 2002.

[責任编辑 方志]

猜你喜欢

数据质量人口普查
人口普查学问多
邮票上的人口普查
邮票上的“人口普查”
人口普查为什么既要“查人”又要“查房”
人口普查,巴基斯坦出动20万军人
电子商务平台数据质量控制系统及仿真模型分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制