基于模糊线性回归分析的我国人口估计

2011-10-24寇业富孙晓静

统计与决策 2011年4期

关键词：漏报因变量总量

寇业富，孙晓静

（中央财经大学a.中国精算研究院;b.保险学院,北京 100081）

基于模糊线性回归分析的我国人口估计

寇业富a，孙晓静b

（中央财经大学a.中国精算研究院;b.保险学院,北京 100081）

由于人口的瞒报、漏报和错报等问题，每一年度的数据并不是一个确切数，而是一个基于一定把握程度（隶属度）基础上的数，是一个典型的模糊数。文章运用模糊线性回归分析对我国的人口变化进行估计，得到了一簇为以传统的计量回归分析数据为中心值的模糊回归模型曲线。其结果对于预测问题和我国的人口预测与估计具有较好的借鉴意义和应用价值。

人口估计；模糊数学；线性回归分析

0 前言

人口统计的数据质量一般包括总量数据的质量和结构数据的质量。我国2000年人口普查表明，我国人口统计的数据质量呈下降态势，人口漏报达到1.81%（张为民，2008）。总量数据的质量和结构数据的质量之间相互影响。比如某一年龄段人口数据的漏报或重报，可能影响总量数据的质量、性别和年龄数据的错报等；总量数据的失真则必然影响到结构数据的质量。总量和结构数据的质量对于人口统计而言都非常重要，都是进行决策和科学研究的基础。本文拟主要研究我国人口总量的数据，并运用数学模型进行我国人口数据统计质量的动态量化分析。

1 模糊线性回归分析

1.1 模糊回归模型的建立

为了解决带有模糊信息的动态预测问题，在线性回归技术的基础上，提出了模糊回归预测技术（丁世飞、程述汉、苏本堂，2000）。和其他回归技术一样，模糊回归的目的是决定一个因变量和一组独立变量之间的函数关系。如（吴冲、潘启树、李汉玲，2000）提出了模糊系数为对称三角模糊数的模糊线性回归预测模型。本文从输入、输出变量都是模糊数的观念出发，给出模糊线性回归模型。为方便计，假设输入、输出变量为对称三角模糊数。

在模糊线性回归中，由于其自变量或因变量或二者都不是一个确切的实数，而是一个区间或一个模糊数，所以模糊回归在很多方面比传统的线性回归更为复杂。

与线性回归类似，我们假设因变量是若干自变量的线性组合。在我国人口数量预测中，设立双变量模糊回归模型：

在此模糊回归模型中，扰动项并未被作为一个随机变量引入线性关系中，而是被包含在输入、输出变量中。在传统的最小二乘回归中，用随机残差项解释因变量和自变量之间的不精确关系。将模糊集引入回归分析则使我们可以处理因变量和自变量都是或者其中之一为模糊数的不精确关系。我们可以对观察数据进行模糊分析和处理，然后与统计中的最小二乘回归分析类似，找出模型中回归系数的模糊最小二乘估计，也就是用模糊数代替随机变量，找出变量之间的不确定关系。在式（1）中，Y軒、X軒的隶属函数分别表示如下：

本文首先对输入、输出数据进行模糊化，使对应的模糊输出为对称三角模糊数Y軒=(y,u)，对应的模糊输入X軒为对称三角模糊数X軒=(x,v)。因为Y軒和X軒为对称三角模糊数，故模型的确定在于参数y、u和x、v的确定。

1.2 FLS(Fuzzy Least Square,模糊最小二乘)方法

李竹渝、张成（2008）研究了模糊数据的回归模型分析，其用到模糊最小二乘方法（Fuzzy Least Square，FLS)。FLS方法的基本思想是通过回归系数的选取，使得所有模糊因变量与因变量观测值之间的模糊距离最小，一般用平方和计算。与经典的回归分析中模型拟合效果评价的OLS(Ordinary Least Square)准则类似，借鉴（吴今培，2002）的方法，给出FLS方法的拟合原则如下。

从而可以定义模糊距离平方和的距离为：

通过求式（3）的最小值，即可以得到模型（1）中回归系数的FLS估计。

2 基于模糊线性回归分析的人口总量估计

根据2007年国家统计年鉴，得到从1990年到2006年各年度人口数据如表1。

由表1可以看到，从1990年到2006年人口总量的自然增长率比较平稳，没有比较明显的折点和尖点。

2.1 数据的预处理

为了利用双变量模糊回归模型，首先自变量（年度）和因变量（人口）数据进行模糊化处理。

在此进行模糊化处理的原因主要有两点：①人口的统计并不一定是在年度末或者年度末进行，无论从统计时间上还是从统计数量上，都应该是一个模糊数；②由于各种原因，现实中人口的瞒报、漏报和错报比较严重，有必要对人口数量等进行模糊化处理。即通过文献[9]的方法对于人口数据观测值进行模糊三角化处理。

另外，为了体现年度之间的关系，被解释变量取作（Y-1989）。

处理后的对称三角模糊数值如表2。

2.2 基于模糊对称三角数的计量回归分析

根据表1和表2的数据，构造模糊双变量回归模型：

（1）利用FLS方法得到模糊回归估计模型（其中自变量取年度的序列号（年度—1989））：

表1

表2

表3

（2）由式（4）得到模糊样本观测数据中心和广度的回归模型分别为：

从式（5）可以看出，人口总量的模糊三角数的中心值是年度模糊三角模糊数的中心值的线性函数，人口总量的模糊三角数的广度也是年度模糊三角模糊数的广度的线性函数。

根据式（5）的计算结果，得到基于模糊回归分析的人口估计（图1）。其中两条虚线分别代表人口总量的上下限；中心实线为样本数据观测中心值的模糊回归曲线，中心实线类似于线性回归曲线。越靠近中心线，隶属度越高，其出现的可能性就越大。

2.3 估计结果

本文引用模糊回归模型估计人口数量，一定程度上弥补了样本数据的缺少、粗糙等问题，为数据的分析和估计提供了一个新的方法，其主要特点有：

一是从理论上讲，传统的计量回归分析是用随机残差项解释因变量和自变量之间的不精确关系；模糊回归分析通过把因变量和自变量设定为模糊随机变量，解释它们之间的模糊关系。

二是从计算过程上看，传统的计量回归分析主要是利用如最小二乘法、极大似然法等，评估观测值和预测值的拟合程度，确定估计系数值；模糊回归分析通过基于两个集合之间的贴近程度估计系数值，并把模糊系数的广度作为一个因素，参与到估计系数值的计算当中去；

三是从计算结果看,传统的计量回归分析得到的是一个系数为实数的函数形式，并通过给出系数的置信区间，反映对于估计系数值的把握程度以及回归方程的显著性。模糊回归分析分别得到两个函数关系式：一是关于样本观测数据中心值的函数关系式；一是关于样本观测数据广度的函数关系式。基于两个集合之间的贴近程度估计系数值，反映了对于样本观测数据与拟合数据贴近程度的把握程度；

四是在估计传统的计量回归分析的预测值时，预测值是一个基于置信度的对称区间；模糊回归分析中，是直接根据系数的模糊假设表达式，得到基于隶属度的预测区间，并不一定满足对称性，并且也取决于模糊系数的表达式；模糊回归分析得到是一个动态的结果，人们可以根据客观情况或主观意愿，选择隶属度（把握程度），从而得到不同的预测值。

图1

3 结论

人口估计的总量数据是研究经济问题等不可或缺的指标，本文的结果将对经济决策和相关科学研究提供帮助。

一是本文运用模糊数学的概念和研究方法为研究人口统计的数据质量问题提供了一个新的思路。例如张为民（2008）指出，我国人口普查数据质量呈下降态势。因此研究人口统计的数据质量问题是一个迫切且具有现实意义的内容。在2000年人口普查中，推断普查0～9岁人口漏报多达3014万（张为民、崔红艳，2004）。这些都必将严重影响我国经济决策水平和经济发展目标的确定。

根据本文的结果，在2000年人口总量的绝对区间为[64948.59，185021.2]（万人），即以 100%的把握程度（即以 0%的错误率）说明2000年度人口总量的统计数据在64948.59万人到185021.2万人之间；如果考虑到100%的把握程度是没有实际应用价值的，因此如果控制在1%的错误率（即以99%的把握程度）下，人口总量的实际数据包含在区间为[124354.64，125585.26]（万人）内。而2000年人口普查公报的漏报率为1.81%（张为民，2008），远大于1% 。

这个结果反映了运用模糊回归分析模型的优越性：即只要把解释变量和被解释变量的中心数与广度分别进行回归后，就可以得到人口统计的结果，并且非常简单的得到在百分之几的错误率下，人口总量的取值范围。

二是实现了人口统计数据总量的动态化分析。例如在在1%的失误率下，2000年人口总量的取值区间为[124354.64，125585.26]（万人）；如果假设有 2%的失误率，则2000年人口总量的取值区间为 [123754.18，126585.62]（万人）；如果假设有5%的失误率，则2000年人口总量的取值区间为[121984.72，127985.08]（万人）；……。

即失误率越大，人口总量的取值区间就越大，实现了人口数据总量的动态化处理。这样即为我们在处理复杂问题时根据实际情况选取不同的区间值提供了依据，并且具有很好的可操作性。

三是有利于判断数据变化范围及趋势。胡英（2009）指出，对于社会经济方面的数据，点估计数据并非完全适应。在模糊线性回归分析中，分别就中心数和广度进行模糊回归估计，其估计值是三角模糊数，比较充分的考虑了统计过程中的漏报、错报、重报等现象，给出了人口数据的上下限变化范围，有利于判断人口及相应的变化趋势。

四是在引入模糊回归分析模型研究人口规模与变化趋势后，完善了根据人口基准数据推算调查数据的方法，比指数平滑法等相关研究方法更具有可操作性。

[1]张为民.对我国人口统计数据质量的几点认识[J].人口研究，2008,(9).

[2]丁世飞，程述汉，苏本堂.多元模糊回归预测模型及其应用[J].模糊回归预测模型及其应用，2000,(9).

[3]李竹渝，张成.模糊数据的回归模型结构分析 [J].统计研究，2008,(8).

[4]吴今培.模糊时间序列建模及应用[J].系统工程，2002，20（4）.

[5]张为民，崔红艳.对2000年人口普查数据准确性的估计[D].中国2000年人口普查国际研讨会论文集，中国统计出版社，2004.

[6]寇业富，李晓林.寿险公司业务结构的相似性分析及其聚类研究[J].中央财经大学学报，2009,（2）.

[7]寇业富.可数Fuzzy基数的运算法则[J].系统工程理论与实践，2003,(9).

[9]韩立岩.应用模糊数学[M].北京：首都经贸大学出版社，2004.

[10]胡英.2000～2008年中国城镇、乡村经济活动人口数量估计[J].中国人口科学，2009,(12).

F126

1002－6487（2011）04－0025-03