基于生育率组合模型的分年龄别生育率预测

2015-10-20赵佳音

统计与决策 2015年13期

赵佳音，孙骁

（北京师范大学a.教育学部；b.经济与工商管理学院，北京 100875）

0 引言

1 数据分析

总和生育率（Total Fertility Rate）倍受青睐的原因除了这个指标考虑到了性别与年龄结构的因素外，还有一个原因是其代表的含义。总和收益率可以近似看成一个妇女从进入生育年龄至生育年龄结束期间生育孩子的数量，也就是说如果总和生育率为1则代表一个妇女从15岁到49岁期间可能生育1个孩子，较前面提及的其他指更有解释力。而且对于未来人口自然增长情况可以做出一些预判。当然如果想要得到一个妇女一生所生孩子数量的准确估计需要追踪调查，但是在现有条件下，总和生育率是最好的替代指标。

可以从表1看出北京市常住人口总和生育率有以下两个特征：

（1）总体处于极低水平，平均1个妇女一生约可生育0.68至0.71个孩子，无法保证人口增长，一般情况，总和生育率需达到2.1才能保证人口数量不衰减。（2）区县之间差异显著，最低的西城区达到0.49平均下来大约两个妇女一生中才会生育一个孩子，如果总和生育率保持不变，不考虑迁移，则长此以往，西城区常住人口会变为现在的1/4，而延庆县达到1.14平均一个妇女会生育1.14个孩子。总体来说，北京市的总和生育率还是极低的，根据美国中央情报局对2013年世界224个国家和地区总和生育率的排名情况来看，北京与排名最低的新加坡0.79水平相当。

表1 2000年北京市分区县总和生育率及2010年北京市总和生育率

总和生育率可以看成分年龄别生育率的加总，分年龄别生育率则是总生育率在各个年龄上的分布，根据2000年与2010年北京市分年龄别生育率作图1。从图1可以看出生育年龄峰值从2000年的25岁推延至2010年的29岁，总和生育率有轻微的增加，生育率分布更加分散,从2000年集中在20～30岁之间扩大到2010年的20～40岁之间。年龄别生育率及其分布的变化与受教育程度、初婚年龄、婚姻状况、民族、居住地性质、城乡结构、医疗卫生水平、政府相关政策[2]、迁移情况都是相关的。

图1 2000年与2010年分年龄别生育率分布图

2 生育率分布拟合

2.1 模型介绍

生育率模型可以从归纳法和演绎法出发分成两大类。由于归纳法在定量与模拟方面发展比较成熟，因此本节的模型选择从建立在大量统计分析的归纳法出发。

现阶段对生育率分布拟合的模型主要有：龚帕兹模型（Compertz）、伽马模型(Gamma)、韦伯分布（Weibull）、对数正态分布模型（Lognormal）、泊松分布模型（Poisson）、生育率组合模型[3]，在总和生育率小于4.5的前提下，伽马与对数正态模型要好于龚帕兹模型。从精度来说，韦伯分布模型与伽马模型没有对数正态分布模型好[4，5]。

生育率组合模型的建立者是虞丽萍，生育率组合模型融合了对数正态模型与泊松分布模型，扩大了模型的使用范围，并且提高了拟合精度。模型数学表达式如下：

其中，k0代表总和生育率，α为对数正态分布与泊松分布模型的权值，通过调节α可以对不同生育率及生育率分布曲线进行拟合，扩大模型适用范围。x为育龄妇女的年龄；x0为起始生育年龄，μ代表平均生育年龄，μ越大表示平均生育年龄越大；σ表示平均生育年龄周围的生育率或生育率密度，σ越高表示平均生育年龄周围的生育率密度越高。λ为起始生育年龄与平均生育年龄之间的时间长度。

2.2 非线性最小二乘回归

将（1）式改写为随机变量模式：

其中，yi为样本i对应的生育率，xi为样本i对应的年龄，α、μ、σ、λ为参数，ui为误差项。

2000、2010年北京市分年龄别生育率最小非线性回归结果见表2，按照《2012年北京市统计年鉴》对18个区县划分，将18个区县分为首都核心功能区、城市功能拓展区、城市发展新区、与生态涵养区四部分进行回归，结果见表3～6。

对于首都核心区，从表3中可以看出崇文区和宣武区生育率组合模型中对数正态分布的部分不是很好，但是从R2来看都在90%以上，结果是可以接受的。西城和东城对参数的回归结果都十分理想，从分布情况与总和生育率数值来看四个区县都比较相近。

对于城市功能拓展区，从表4中可以看出四个区县R2都在97%以上，回归结果很好。丰台区的回归中对数正态分布模型的部分参数均为不显著，泊松分布的部分在千分之水平显著。从分布情与总和生育率数值来看海淀、崇文、朝阳比较相近，丰台区与前面三个区不相同。

对于城市发展新区来说，从表5中可以看出五个区县R2都在90%以上，回归结果很好。昌平的回归结果参数比较特殊，原因不明。顺义、通州比较相像，房山、大兴比较相像。

对于生态汉涵养区来说，从表6中可以看出，五个区县R2都在90%以上，回归结果理想。怀柔的回归结果参数比较特殊，原因不明。门头沟区、平谷县、密云县、延庆县比较相像，拟合情况见图5。

表2 2000、2010年北京市生育率分布拟合

表3 首都核心功能区：东城、西城、崇文、宣武分年龄别生育率回归

表4 城市功能拓展区：朝阳区、丰台区、石景山区、海淀区分年龄别生育率回归

表5 城市发展新区：房山区、通州区、顺义区、昌平区、大兴县分年龄别生育率回归

表6 生态涵养区：门头沟区、怀柔县、平谷县、密云县、延庆县分年龄别生育率回归

3 总和生育率预测

要做到对未来人口进行较精确的预测，需要知道预测年份的总和生育率与生育率分布模式，而这两者是未来将要发生的事情，在现实中还未发生，也就无法获得其真实数据。本节将主要对总和生育率的数值，即前面模型中提及的k进行预测。

由于影响总和生育率的因素很多，而且总和生育率存在一定的波动性，现在对于总和生育率为何会变化还没有解释清楚，也没有精确的基于教育、政策变化而导致总和生育率变化的定量预测方法。因此，可以将各种因素对总和生育率的影响看成是一种灰色的系统性的影响，通过研究已掌握的总和生育率序列内部的变化规律，进而对未来的总和生育率进行预测。这种方式在人口预测中被广泛应用，称为灰色模型（Grey Model，GM（1,1））

灰色模型的数学表达：

使用灰色模型，首先,要对生育率数列做归一化处理。假设总和生育率序列为将总和生育率序列进行一次累加，得到向量GTFR(k)，以增强规律性。

其次，建立灰色方模型程为：

可得到：

c、v为需要求解的未知参数。

再次，求解c、v，令C=[c v]T

TFRN=[tfr(2)tfr(3)….tfr(n)]T

建立灰色矩阵B

然后，进行矩阵运算得到向量C

表7 GM(1,1)估计值与原始值对比

表8 2013～2039年北京市总和生育率预测值

最后，将解得的c、v带到方程中，得到估计值

使用表3～9中2000～2012年的北京市总和生育率数值，应用GM（1,1）模型进行估计，估计中使用的程序为Matlab7.8，将2000～2012年的原始值与估计值进行对比，结果在表3～13中呈现，可以看出估计结果与原始值几乎一致，可以作为预测总和生育率的模型使用，2013～2039年结果见表7～8。使用同样的方法可以对北京市各区县总和生育率进行预测。

4 总结

本文在前人研究的基础上，对北京市分年龄别生育率分布情况以及总和生育率情况进行了分析、拟合及预测。结果表明，（1）北京市总和生育率在区县存在很大差异，但是总体处于较低水平。（2）北京市总和生育在未来一段时间会有轻微增长。（3）生育率组合模型对北京市及各区县分年龄分布拟合情况十分理想，可以在实际预测中使用。（4）随时间推移，北京市生育率分布情况有比较明显改变。

[1]尹文耀,姚引妹,李芬.生育水平评估与生育政策调整——基于中国大陆分省生育水平现状的分析[J].中国社会科学,2013,(6).

[2]陈卫,靳永爱.中国妇女生育意愿与生育行为的差异及其影响因素[J].人口学刊,2011,(2).

[3]虞丽萍,袁景淇.基于随机分布函数的分年龄别生育率组合模型[J].上海交通大学学报,2006,(9).

[4]谢韦克,黄荣清.中国妇女生育模型研究[J].人口与经济,1993,(1).

[5]韩晓庆.基于Leslie模型中国未来人口策略模拟研究[D].东北财经大学,2012.

[6]虞丽萍.人口年龄结构模型建模和预测[D].上海交通大学,2007.