APP下载

基于OMP算法的人口出生率影响因素分析

2020-04-11

广西质量监督导报 2020年2期
关键词:出生率残差原子

田 青

(西安财经大学统计学院 陕西 西安 710100)

一、引言

(一)研究背景

随着信息技术的快速发展,每天都会产生大量的数据,如何有效地从中挖掘出有用的信息越来越受到人们的关注,传统的数据处理技术已经无法满足实际需要。因此,研究新的数据信号处理技术十分必要,很多学者也十分重视这个问题的研究。传统的奈奎斯特(Nyquist)采样定律要求采样频率必须大于原始信号最高频率的2倍,这样才能尽可能多的保留原始信号的信息,才能更高质量、高精确的进行信号无失真传输。而现代庞大数据量的信号,运用奈奎斯特定律进行采样,将需要更大的存储和传输代价。随后Donoho[1]、Candes[2]等人提出了一种新型的信号处理技术——压缩感知(CS)。压缩感知技术不仅大幅地缩短了信号的处理时间,而且也大大降低了传输和存储的成本。压缩感知技术很好地解决了奈奎斯特采样定律的限制问题,且效率更高。因此,压缩感知在各领域都有很广泛的应用。由于贪婪算法相对较快,受到学者们广泛关注,本文将用贪婪算法中的OMP(正交匹配追踪)算法对人口出生率的影响因素进行研究。

自21世纪以来,随着计划生育工作的开展,中国进入了低生育率水平。目前,我国人口结构发生了很大的转变,劳动人口大幅减少,人口老龄化问题日益严重,这很不利于一个国家的可持续发展。在此情况下,我国逐步放开了计划生育政策,并在2015年全面放开了二孩生育限制。然而,根据目前的结果来看,放开的计划生育政策并没有达到预想的结果。由此可知,目前我国的低生育水平受很多因素影响,因此,研究人口出生率的影响因素至关重要。

(二)研究现状

CS理论在信号处理等多个领域得到了广泛的应用。

目前,CS理论的发展主要涉及三个核心问题:稀疏表示、编码测量和信号重构,其中重构算法是决定信号是否可以准确重构的关键步骤,因为重构算法决定了被恢复的信号在各项方面是否能满足要求。CS重构算法的经典算法之一是基追踪算法(Basis pursuit,BP)[3],它将l0极小化问题松弛为l1极小化问题,将非凸优化问题转化为凸优化问题。贪婪算法也是重构算法一个很好的选择,其中最优秀的一类算法是匹配追踪(Matching pursuit)类算法,它是根据匹配追踪(Matching pursuit,MP)算法延伸而来的[4],之后又有许多研究人员对其进行了更深的研究和改进,提出了正交匹配追踪(Orthogonal matching pursuit,OMP)算法[5]。学者们将CS应用于人脸识别、语音识别、雷达定位、遥感成像等诸多领域,对其展开了广泛的研究并取得了许多成果。

人口问题与经济发展密切相关,是我国现阶段面临的重大问题之一。Friedlander和Silver(1967)[6]通过研究发现,每个国家在不同的发展阶段,人口出生率与经济增长变量具有不同的关系。彭浩然(2014)[7]认为,中国目前低出生率的转变使得中国人口老龄化问题日益显现。袁小平(2014)[8]等运用人口年龄结构系数及其对人口出生率变动影响的贡献率指标证实人口年龄结构对出生率有显著影响。向超(2016)[9]应用逐步回归方法建立回归模型,结果表明负担少年系数、政府财政在教育医疗和社会保障方面的支出对人口出生率产生了显著的影响。张炜和朱家明(2017)[10]采用ARIMA和二次指数平滑法对人口进行组合预测。华瑞和李双亮(2018)[11]采用逐步回归法和广义差分法对模型的多重共线性和序列相关性进行修正,得出少儿抚养比与老年抚养比是影响人口出生率的主要因素。刘丽萍(2018)[12]采用Lasso回归法探讨影响人口出生率的因素,结果研究表明,国内生产总值、人均薪酬、少年儿童抚养比对人口出生率有明显的正向影响。

除了这些已知的影响因素外,还有哪些因素影响着人口出生率呢?本文选取了20个影响因素,采用OMP算法,从多个方面来研究影响人口出生率的影响因素。

二、OMP算法的相关理论

(一)压缩感知理论模型

假设有一个有限长的一维离散时间原始信号向量x∈RN,可以看作是一个N×1维的列向量,其本身就是稀疏的,非零元素的个数为K,即稀疏度为K(K≼N),测量信号向量y∈RM的长度为M,Φ∈RM×N是(M×N(M≼N))维的测量矩阵。测量信号向量y等于原始信号向量x乘以测量矩阵Φ,表达公式为:

y=Φx

(2.1)

压缩感知的信号重建就是用已知的测量信号向量y和测量矩阵Φ来进行信号重建的过程,由式(2.1)可知,用M个方程可以解出N个未知数,因此我们可以通过求解一个最优化问题来重建信号。当满足式(2.2)时,可以利用测量信号向量y和测量矩阵Φ很大概率上实现信号重建[13]。

M≥cKlog(N/K)≼N

(2.2)

其中,c是一个极小值。

如果原始信号x∈RN不是稀疏的,但可以通过稀疏基变换将其转化为另外一个域的稀疏信号,此时可以称x在稀疏基域是稀疏的,即x通过由N个标准正交基构成的M×N维稀疏基矩阵Ψ变换到Ψ域,此时x可以表示为:

x=Ψs

(2.3)

此时s是x在Ψ域的表示向量,是一个长度为N的列向量,如果这里s是稀疏的,即非零元素的个数为K且K≼N,则可以说x是一个在Ψ域上的K-稀疏信号。如今最常用的稀疏基主要有余弦变换基、小波变换基等。

则式(2.1)可以表示为:

y=Φx=ΦΨs=As

(2.4)

其中A=ΦΨ,是一个M×N维的矩阵,称为恢复矩阵。这里要注意的是基矩阵可以是一个过完备字典也可以是一个原子库[14],也就是说它可以是一个M×N(Z≥N)维的矩阵,这样只要非稀疏信号在过完备字典或原子库里可以稀疏表示即可。

根据式(2.4)、(2.1)可以发现,对本不是稀疏的原始信号x,同样也可以通过本就是稀疏信号的重建方法来进行信号重建,即利用信号的重建算法重建出s,再用式(2.3)得到信号x。

(二)OMP算法的基本思想

OMP算法是基于贪婪算法的思想通过每次迭代选择一个局部最优解来逐步逼近原始信号,基于MP算法的原子选择准则来更新原子的支撑集,通过对原子集合正交化来保证迭代的最优性,进而减少到达收敛的迭代次数[44]。MP算法是最早的一种贪婪迭代算法,但由于每次迭代的结果可能不是最优的,而是次最优的。因此需要经过多次的迭代才能获得最优的收敛结果。而OMP算法可以有效地解决这个问题,它沿用了MP算法中的原子选择准则,在重建时每次迭代可以得到支撑集的一个原子,通过递归对已选择的原子集合进行正交化来保证迭代的最优性,从而加快的收敛的速度并减少了迭代的次数。

OMP算法的基本思想是:以贪婪迭代的方法来确定传感矩阵的列,保证在之后每次选取的列和现阶段的冗余向量尽可能的接近,将采样向量中的多余部分去除。在每次迭代时,计算当前残差与观测矩阵的内积,选取关联度最大的一个原子,再加入索引集,更新残差并判断迭代次数。不断重复上述过程,通过多次迭代保证该过程一直持续到迭代次数和稀疏度相同时,则迭代才停止。

(三)OMP算法的基本步骤

OMP算法的基本步骤如下:

输入:传感矩阵Φ∈Rm×n,采样向量y∈Rm,稀疏度s;

初始化:残差r0=y,索引集Λ0=φ,迭代计数t=1;

Step1:找到残差r和传感矩阵的列φj内积中的最大值所对应的脚标λ,即λt=argmaxj=1,…,N||;

Step2:更新支撑集Λt=Λt-1∪{λt},记录找到的传感矩阵中的重建原子集合Φt=[Φt-1,φλt];

Step5:若t

OMP算法的精确度虽不及BP算法,但它迭代次数少,运算复杂度低,是使用比较广泛的一种重建算法,此算法需要在稀疏度已知的情况下使用。

三、实证分析

(一)数据来源及指标选择

本文使用的全国2007-2017年关于人口出生率影响因素的数据来源于中国统计年鉴。

人口出生率(Y)指一年内平均每一千人中出生的人数所占的比例。

出生率=(年出生人数/年平均人数)×1000%

选取人口死亡率(X1)、自然增长率(X2)、人口年龄结构0-14岁(X3)、人口年龄结构15-64岁(X4)、人口年龄结构65岁及以上(X5)、少儿抚养比(X6)、老年抚养比(X7)、婴儿死亡率(X8)、国内生产总值(X9)、居民消费水平(X10)、离婚率(X11)、人均薪酬(X12)、居民消费价格指数(X13)、人均可支配收入(X14)、人均消费支出(X15)、孕产妇死亡率(X16)、社会固定资产在教育上的投资(X17)、商品房平均销售价格(X18)、性别比(X19)、城镇登记失业率(X20)。这20个涵盖经济发展情况、人口素质以及人口结构等方面的指标,以2007-2016年的数据为训练集,再利用2017年的数据为测试集来验证模型的精确度,以此来分析对人口出生率影响最大的是哪几个因素。

(二)模型的建立

首先对数据做预处理,对已有数据进行中心化和归一化,去除量纲对回归方程所带来的影响。再用MATLAB软件分别在稀疏度s为3,4和5时建立回归模型。

表1 不同稀疏度下的回归方程

根据MATLAB软件计算出的在不同稀疏度下所生成的回归方程及其对应的残差(如表1所示),我们可以用2017年的数据进行模型验证。

表2 OMP算法中稀疏度的选择

由表2可知,稀疏度s=5时残差最小,预测误差最小,预测值最接近实际值。因此OMP算法所建立的模型为:

y=-0.3690x1-6.1012x6+0.4664x11+2.6525x12-2.2258x13

其方程系数所对应的图形如图1所示。

图1 模型系数图

从OMP算法的回归模型的估计结果可知,解释变量人口死亡率(X1)、少儿抚养比(X6)、离婚率(X11)、人均薪酬(X12)和居民消费价格指数(X13)是影响人口出生率的几个主要因素。其中人口死亡率、少儿抚养比和居民消费指数都是负向影响。X6、X12和X13对人口出生率的影响最明显。

四、结论

在我国,由于人口多、经济发展不平衡,现阶段人口老龄化情况日益严峻,人口出生率问题与经济发展密切相关。本文选取了20个影响人口出生率的影响因素,采用OMP算法提取了其中影响最大的五个因素。研究结果表明,人口死亡率、少儿抚养比、离婚率、人均薪酬和居民消费价格指数是影响人口出生率最重要的几个因素,其中少儿抚养比、人均薪酬和居民消费指数对人口出生率的影响最为明显。

猜你喜欢

出生率残差原子
基于双向GRU与残差拟合的车辆跟驰建模
No.5 2020年出生率创新低
出生率创新低,都是压力惹的祸吗?
原子究竟有多小?
原子可以结合吗?
带你认识原子
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
房价上涨抑制英国出生率:每年少生7000多名婴儿
综合电离层残差和超宽巷探测和修复北斗周跳