APP下载

自适应惩罚薄板样条回归模型

2021-12-01丁梦珍

怀化学院学报 2021年5期
关键词:薄板样条等高线

丁梦珍

(安徽科技学院信息与网络工程学院,安徽滁州233100)

1 引言

回归模型主要分为参数模型和非参数模型[1],当回归函数的形式已知,而参数未知,则该模型为参数回归模型,参数方法虽然比较简单明确,但是缺乏一定的灵活性,如果实际模型与假定相背离,那么建立的模型对实际指导毫无意义,为了使模型具有更广泛的适用范围,非参数模型应运而生,该方法无需预先假定回归函数的形式,而是基于数据结构去估计回归函数,因而适应数据变化的能力更强,具有良好的稳健性.现在人们研究比较多的非参回归拟合方法主要包括:核估计、局部多项式估计、样条估计、正交级数估计和小波估计等[2].在众多的估计方法中,样条估计依其灵活性和稳定性占据着重要的位置,如回归样条、光滑样条、惩罚样条等,而惩罚样条估计又在样条法中有着举足轻重的作用.惩罚样条最早由Eilers、Marx(1996)[3]提出,当时是为了解决广义线性光滑问题,现在已扩展到多个方面,如广义可加模型、变系数模型等,其基本思想是在目标函数中加入B样条基函数系数的差分作为惩罚项,主要用于解决高阶样条基函数计算的复杂度或估计的不可控问题.

惩罚样条估计能得到广泛的应用:一方面是由于可以使用较少的节点构造基函数,从而降低计算工作量,另一方面是其具有良好的高维扩展性.由J.Duchon(1977)[4]提出的薄板样条是一元样条到多元样条的非张量积形式的推广.在经典的惩罚薄板样条回归模型中,对每个基函数系数施加的惩罚权重是一样的,然而当数据具有强烈的局部变化特征时,这种等权重性惩罚使得模型的拟合效果不理想,因此如何提高模型的局部自适应性成为一个热门的研究课题[5].探究该问题的思路主要包括两种,其一是基于薄板样条基函数的节点个数和位置的优化选择[6],其二是针对不同基函数系数的局部惩罚权重的优化选取[7].本文基于第二种思路展开探索,通过分析薄板样条基函数的空间几何意义,引入数据的局部纵向极差的变式来表示数据的局部变化特征[8],以此构造局部惩罚权重并嵌入到回归模型的惩罚项当中.这种方法结合了数据的局部变化特征和基函数的几何意义,使得模型的惩罚权重由局部数据所驱动,从而具有局部特性.相比于经典的惩罚回归模型,该模型更适用于具有明显的局部波动特征的数据.模型的估计流程类似于经典的岭回归估计[9],参数求解简单.由函数模拟的结果表明该方法的自适应特征是非常有效和显著的,提升了模型的拟合精度.本文的第二部分内容对自然薄板样条回归模型和惩罚薄板样条回归模型作一简介;第三部分内容根据样条基函数的几何意义引入了自适应惩罚薄板样条回归模型;第四部分内容给出相应模型的函数模拟例子;最后部分内容对全文进行总结.

2 薄板样条回归模型

2.1 自然薄板样条回归模型

假设有n对观测数据{(ti,yi),i=1,2,…,n},则非参数回归模型如(1)式所示[10],

并假设E[ε|t]=0,E[y|t]=0,将看作关于二元变量t∈[a,b]×[a,b]的待估光滑函数.薄板样条g通过最小化(2)式来估计f,

其中y=(y1,y2,…,yn)′,g=(g(t1),g(t2),…,g(tn))′,惩罚函数J(g)用来度量回归函数的粗糙程度,调节参数λ控制回归函数的拟合优度与光滑度之间的平衡.二维空间上基于二阶偏导数的粗糙度惩罚项被定义为

则满足(2)式最小的薄板样条函数g(t)形式如下

式中δ=(δ1,δ2,…,δn)′和α=(α1,α2,α3)′为待定系数向量且满足约束条件Tδ=0,T为3×n矩阵,其元素Tij=øj(tk),ø1,ø2,ø3为二维空间上次数小于2的多项式构成的三维空间的一组基.||·||表示欧几里得范数,η(·)是薄板样条的核函数,其采用以下形式

现定义n阶方阵E,其元素为Eij=||η(ti-tj)||.则该模型拟合的目标函数为

且满足Tδ=0,则系数向量的估计值可由方程组(6)唯一确定

求得

其中Tr(Hλ)是帽子矩阵的迹,则使得GCV(λ)取到最小的λ值即为最优取值.

2.2 惩罚薄板样条回归模型

自然薄板样条回归模型将粗糙惩罚思想推广到二维空间,放宽了多个解释变量的线性假定,使模型在假定方面具有更强的适应性,是一般线性模型的全面扩展.但该模型是多个样条变量的非参数回归分析,如果使用全部样本作为节点,在应用时会增加不必要的工作量,这就要求通过降低节点个数即基函数维数来重新构造回归模型,即惩罚薄板样条回归模型.

此时薄板样条函数形式如下:

其中κ1<κ2<…<κK为[a,b]×[a,b]上均匀选定的节点,则惩罚薄板样条回归模型的拟合目标函数为:

3 自适应惩罚样条回归模型

由(10)式中的惩罚矩阵S的构造可知,该矩阵未考虑数据在纵向上的变化特征,且总调节参数λ对每个基函数系数δ1,δ2,…,δK的惩罚权重是相同的,同样也忽略了数据在纵向上的局部波动特征,因而惩罚薄板样条回归模型对数据的估计缺乏自适应性,而当数据在纵向上的变化有明显的局部特征时,该回归模型就难以捕捉到这些信息,进而导致拟合效果不理想.为了弥补该缺陷,本文提出一种改进的方法,其思想是将数据的局部纵向的变化特征添加到惩罚矩阵S当中,使得惩罚矩阵包含数据在纵向上的局部变化特征,该方法称之为自适应惩罚薄板样条回归模型,下面给出具体过程.

通过分析薄板样条的第k个节点位置的基函数δiη(||t-κi||)可知,该函数是关于二元变量t的凸函数,系数δK的符号决定了该曲面开口的方向,数值控制了开口的大小.|δk|越大,开口越小,曲面越尖锐,反之则开口越大,曲面越平坦.因此|δk|越大时,δiη(||t-κi||)能充分地拟合波动较剧烈的数据,反之则能精准地拟合波动较平缓的数据.从而在惩罚回归模型中,在数据波动较大的区域给予薄板样条系数较小的惩罚权重是合理的,反之则应给予薄板样条系数较大的惩罚权重,这种处理方式能够使得薄板样条在全局上准确地反映出数据的变化特征,从而增强模型的自适应性,提高模型的拟合精度.

基于上文分析,我们引入局部惩罚权重向量ω=(ω(κ1),…,ω(κK),0,…,0),并记

将(10)式中的β乘以W,此时模型拟合的目标函数为

式中P=W′SW,下面讨论如何选取惩罚权重向量ω.根据上文所述,惩罚权重应当设置成数据在纵向上的局部变化幅度的单调递减函数,本文采用以节点为中心的圆域内的数据在纵向上的极差来反映该位置的局部波动幅度,具体表达式如下:

进而构造该极差的单调递减函数

正数q用来调节惩罚权重的力度,依然根据惩罚最小二乘估计得

4 模拟

本节将给出几个具有代表性的数值模拟实例,根据拟合等高线图和统计指标来进一步说明基于本文提出的方法相比自然薄板样条(full spline)、惩罚薄板样条(p-spline)和tprs[6]的拟合效果的优良性.所有计算和作图均在R3.2.1中实现.

例1光滑函数表达式为

样本分布在[0,1]×[0,1]区域内的24×24均匀网格上,其所对应的响应变量为yi=f(xi,zi)+εi,且εi~N(0,0.052),惩罚样条的节点选择在区域内12×12均匀网格上,薄板回归样条的节点个数为144.一次随机试验结果的真实等高线及基于四种模型的拟合等高线如图1所示.

图1描绘了真实函数的等高线图及基于四种方法的拟合等高线图,通过对比可以清晰地发现,基于自适应惩罚薄板样条方法的拟合函数相对平滑一些,在边界处拟合效果的优势更加显著,且在总体上能够较准确地估计出真实函数的走势.另外引入统计指标均方误差MSE作为度量准则,即MSE值越小模型的拟合效果越好.

图1 (a)为真实函数的等高线,(b)为基于自然薄板样条回归模型的拟合等高线,(c)为基于惩罚薄板样条回归模型的拟合等高线,(d)为基于自适应惩罚薄板样条的拟合等高线,(e)基于tprs的拟合等高线.

为了尽可能降低随机因素对估计的影响,我们进行了100次独立重复试验并给出了MSE箱线图,如图2所示,显然本文提出的方法的回归效果更理想.

图2 100次独立重复实验下,基于自然薄板样条拟合、惩罚薄板样条拟合、tprs拟合与自适应惩罚薄板样条拟合的MSE箱线图.

例2光滑函数表达式为:

其中δx=0.3,δy=0.4,样本分布在[0,1]×[0,1]区域内的24×24均匀网格上,其所对应的响应变量为yi=f(xi,zi)+εi,且εi~N(0,0.12),惩罚样条的节点选择在区域内12×12均匀网格上,薄板回归样条的节点个数为144.一次随机试验结果的真实等高线及基于四种模型的拟合等高线如图3所示.

图3 (a)为真实函数的等高线,(b)为基于自然薄板样条回归模型的拟合等高线,(c)为基于惩罚薄板样条回归模型的拟合等高线,(d)为基于自适应惩罚薄板样条的拟合等高线,(e)基于tprs的拟合等高线.

图3描绘了真实函数的等高线图及基于四种方法的拟合等高线图,可见基于自适应惩罚薄板样条方法的拟合等高线明显比较平滑,有效地避免了过度波动,能够较准确地估计出真实等高线的走势,在整体上与真实等高线更加吻合.此外,四种估计方法的MSE箱线图如图4所示,说明本文所提出的方法在估计精度上优于另外两种估计方法,拟合效果更加理想.

图4 100次独立重复实验下,基于自然薄板样条拟合、惩罚薄板样条拟合、tprs拟合与自适应惩罚薄板样条拟合的MSE箱线图.

例3光滑函数表达式为

样本分布在[0,1]×[0,1]区域内的24×24均匀网格上,其所对应的响应变量为yi=f(xi,zi)+εi,且εi~N(0,0.52),惩罚样条的节点选择在区域内15×15均匀网格上,薄板回归样条的节点个数为225.一次随机试验结果的真实等高线及基于四种模型的拟合等高线如图5所示.

图5描绘了真实函数的等高线图及基于四种方法的拟合等高线图,直观上看,基于自适应惩罚薄板样条方法的拟合等高线更加接近于真实曲线,不规则的波动会减弱,光滑度得到显著的提高.另外,图6给出了四种估计方法的MSE箱线图,显然本文提出的方法的MSE减小的幅度非常明显,取得了较好的拟合效果.

图5 (a)为真实函数的等高线,(b)为基于自然薄板样条回归模型的拟合等高线,(c)为基于惩罚薄板样条回归模型的拟合等高线,(d)为基于自适应惩罚薄板样条的拟合等高线,(e)基于tprs的拟合等高线.

图6 100次独立重复实验下,基于自然薄板样条拟合、惩罚薄板样条拟合、tprs拟合与自适应惩罚薄板样条拟合的MSE箱线图.

例4光滑函数表达式为

样本分布在[-10,10]×[-10,10]区域内的24×24均匀网格上,其所对应的响应变量为yi=f(xi,zi)+εi,且εi~N(0,0.52),惩罚样条的节点选择在区域内12×12均匀网格上,薄板回归样条的节点个数为144.一次随机试验结果的真实等高线及基于四种模型的拟合等高线如图7所示.

图7 (a)为真实函数的等高线,(b)为基于自然薄板样条回归模型的拟合等高线,(c)为基于惩罚薄板样条回归模型的拟合等高线,(d)为基于自适应惩罚薄板样条的拟合等高线,(e)基于tprs的拟合等高线.

图7描绘了真实函数的等高线图及基于四种方法的拟合等高线图,从中可以发现基于自适应惩罚薄板样条方法拟合的线条更加光滑,与真实等高线有着较好的重合.此外,图8画出了四种估计方法的MSE箱线图,表明本文提出的方法的估计精度比较高,能够准确地模拟出函数真实走势.综上所述,不管是考察统计指标MSE还是观测图形,基于自适应惩罚薄板样条估计都是一种比较理想的估计方法.

图8 100次独立重复实验下,基于自然薄板样条拟合、惩罚薄板样条拟合、tprs拟合与自适应惩罚薄板样条拟合的MSE箱线图.

5 总结

如何提高回归模型的拟合精度是一个相当有意义的研究课题,本文通过增强模型的自适应性能力的途径来提高精度.文中提出了自适应惩罚薄板样条回归模型,该方法的局部惩罚权重是由节点周围区域内部分数据的纵向极差的递减函数所生成,并将其嵌入到经典惩罚回归模型的惩罚项中.其创新点在于当数据在局部区域内波动幅度较大时,模型能够给予拟合曲面较小的惩罚权重,而当数据在局部区域内波动幅度较小时,则能够给予拟合曲面较大的惩罚权重,从而由数据驱使的惩罚权重可以提升模型的自适应性,进而提高模型的拟合精度.模拟结果显示,基于极差调节的局部惩罚权重的回归模型的拟合曲面能够较精准地反映数据的局部变化特征,使得拟合曲面和真实曲面更吻合.

猜你喜欢

薄板样条等高线
铝热连轧薄板粘伤缺陷原因分析及控制措施
稀奇古怪的 一块板
多孔有限薄板应力集中系数的多项式拟合
对流-扩散方程数值解的四次B样条方法
等高线地形图的判读和应用
地形图的阅读
一种基于Fréchet距离的断裂等高线内插算法
冷轧薄板厂涂油机涂油质量的研究
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
“等高线地形图的判读”专题测试