APP下载

基于函数型数据的城市月降水量特征分析

2024-01-17郑大钊

高师理科学刊 2023年12期
关键词:降水量权重曲线

郑大钊

基于函数型数据的城市月降水量特征分析

郑大钊

(齐齐哈尔大学 理学院,黑龙江 齐齐哈尔 161006)

降水量是气象因素中极为重要的一项,降水量时间和空间上的不均匀分布在一定程度上将会导致一些地区的洪涝或干旱.基于函数型主成分分析的方法对月降水量数据进行应用分析.选取了全国31个城市23年的月降水量数据,通过引入傅里叶基函数,对其进行函数化得到降水量曲线,再利用函数型主成分分析研究.分析得到前四个主成分累积贡献为93.28%,可以解释原始数据大多数信息,降维效果比传统主成分分析更好.利用前四个函数型主成分以及对平均曲线的扰动情况,结合实际特征,给出部分地区降水量显著变化的时间.

函数型数据;月降水量;函数型主成分分析

世界气象变化的纷杂繁多,深刻影响人们的活动以及自然环境,在气象因素中,降水量时间和空间上的不均匀分布在一定程度上将会导致一些地区的洪涝或干旱.因此,研究全国各个地区降水分布的时空特征具有重要意义,可以为我国城市防洪抗旱政策的制定和实施提供有效的指导和帮助.

21世纪以来,计算机和通信技术取得了快速的发展,导致数据存储形式也在不断发展.随着这一变化,越来越多的信息以曲线和图像的形式被现代数据采集技术所收集.在这种情况下,由于高频或者超高频的数据维数过高,传统方法并不适合处理这类数据.因此,需要提出更好的数据分析方法,而函数型数据分析具有一定的实用价值,在应对高维数据方面具有十分明显的优势.国内外学术界许多学者关于函数型数据方面的研究已经取得了丰富的成果,其广泛应用于众多领域.文献[1]利用函数型聚类分析及可视化工具揭示也门的空气污染模式;文献[2]利用函数型数据模型对巴西COVID–19的死亡人数的演化进行建模分析;文献[3]利用FDA的主成分分析法分析中国碳排放的边际减排成本曲线.以上研究均是函数型数据在各个领域内的应用,但其在降水量这方面的研究应用还比较少.本文将函数型主成分分析的方法[4-10]应用于降水量数据中,对31个城市1998—2020年276个月份的月降水量数据进行分析,揭示降水量的时空特征,为提高防洪抗灾能力提供一定的参考.

1 数据来源及函数型主成分数据分析

1.1 数据来源

1.2 函数型数据分析步骤

进行函数型数据分析一般的步骤为:(1)收集和整理与所研究内容相关的原始数据;(2)从众多的基函数中选择适合所研究内容和方法的基函数,利用基函数对数据进行拟合得到函数型数据;(3)对得到的拟合后的平滑曲线求导,分析数据的动态变化特征;(4)对得到的数据的各种特征进行描述;(5)对数据进行相关的函数型分析.

1.3 函数型主成分数据分析

随着科技信息技术的飞速发展,研究人员收集到的数据类型愈来愈丰富,并且数据维度也愈来愈高,甚至于接近“无限维”,这些数据在传统的统计分析方法中的适用性并不高.函数型主成分分析的出现使得这些新型数据得到了更好的应用.在进行分析时,对数据进行拟合平滑后,都希望能尽可能多地挖掘数据本身的潜在信息,以了解和掌握数据背后的特征和性质.而主成分分析正是可以将数据进行降维,并挖掘数据背后的潜在信息的重要方法之一.

主成分的求解与传统多元统计的主成分分析有类似的地方,都是在一定的限制条件下求解最大化的问题,即

并且使得

利用协方差函数求得权重函数系数,进而得到函数型主成分分析的权重函数,最后函数型主成分分析中权重系数的特征方程为

2 城市月降水量特征分析

2.1 数据拟合

绘制31个城市的月降水量曲线,结果见图1.由图1可以看出,随着时间的变化,降水量数据逐渐呈现出一些函数性的特征,并具有明显的周期性特征,因此选择傅里叶基函数对其进行拟合.

图1 31个城市月降水量走势

选用傅里叶基函数对原始数据进行拟合时,基函数的数量越多,拟合效果越好,但是当基函数的数量过多时,采样方差将达到无法接受的程度.依据使均方误差最小来确定最合适的基函数个数.经过试验,确定基函数的个数为25.

将每一个城市1998年1月至2020年12月的月降水量曲线作为一个函数型数据.则拟合曲线模型为

将31个城市离散数据转化成函数型数据,利用R软件绘出拟合趋势图,将其近似代表1998年1月至2020年12月的降水量曲线(见图2).曲线基本反映了31个城市月降水量的具体走势.由图2可以看出,31个城市的降水量曲线波动趋势基本一致,在年首和年末均出现低降水量,而年中降水量较高,有城市最高月降水量可达到600 mL.从季节因素来看,十月份后各城市普遍都进入冬季,降水量偏低.

利用一、二阶导函数图像描述降水量变化规律,结果见图3.

图2 月降水量拟合曲线

图3 31个城市月降水量曲线的导函数

一阶导函数表示降水量的变化状态,一阶导函数为正时表示降水量充沛,一阶导函数为负时表示降水量不足;二阶导函数表示降水量的变化速率.由图3a可以看出,31个城市降水量的变化大体相同,下半年八月份以后一阶导为负的变化增多,说明八月份以后降水量普遍开始下降.由图3b可以看出,31个城市月平均降水量的上升速度和下降速度大体一致,即月均降水量较为平稳,没有形成极端气象情况.

2.2 函数型主成分分析

为了加深对月降水量总体变化特征的研究,利用R软件得到31城市月降水量的均值函数图(见图4).

图4 31个城市月降水量的均值函数曲线

由图4可以看出,全国总体降水量大体都在每年的六月份或七月份达到最高.具体来看,可以发现全国的月平均降水量在2007年至2008年中曾达到过近20年最低点,而在2016年的六月至七月曾达到近20年降水量最高点,约是以往夏季最高月均降水量的1.5倍.

基于函数型主成分理论,利用R软件的程序包,对31个城市的月降水量曲线进行FPCA分析.

计算函数主成分贡献率,前4个主成分的贡献率及累计贡献率见表1.

表1 函数主成分贡献率

由表1可以看出,前四个函数主成分的累计方差贡献率达到93.28%,说明可以解释月降水量数据的大部分信息,可以依据这四个函数主成分进行数据分析.

根据表1,利用R软件计算前四个主成分对应的权重函数系数,结果见表2.

表2 前四个函数主成分对应的权重函数系数

计算前四个主成分对应的权重函数,结果见图5.

图5 前四个主成分对应的权重函数

利用权重函数可以得到31个城市月降水量的前四个主成分得分.计算结果表明,各个城市被不同主成分给予不同程度的影响,说明影响降水量的因素各不相同.北京、天津、呼和浩特市月降水量主要受第一主成分的影响;太原、沈阳、石家庄市降水量主要受第二主成分的影响;海口、昆明、广州市降水量主要受第三主成分的影响;长沙、成都、重庆市主要受第四主成分的影响等.也有城市降水量受多重因素的影响,同时受两个以上的主成分的共同影响,如贵阳市.综合来看,对于任何一个城市来讲,降水量的影响因素是复杂的且影响程度具有差异性.

因为需要更深入地分析影响月降水量的因素,所以用R软件绘制出各主成分与均值函数的关系(见图6),其能够表示出各个主成分的变化形式,分析它们所反映的内容,然后对降水量随时间的变化特点进行分析.

图6 月降水量的函数主成分对均值的扰动

注:“-”表示减去主成分的影响情况;“+”表示加上主成分的影响情况;黑色实线表示31个城市月降水量的均值函数.

由图6a可以看出,第一函数型主成分解释了86.5%的变动,其权重函数的波动情况表现为有周期性的上下递减和递增,但一直是大于零的.其中分数越高的城市,受到高于平均降水量的影响越大,如北京、天津、呼和浩特市;得分越低也就是说明受到低于平均降水量的影响越大,如乌鲁木齐、长春市.第一权重函数始终都是正效应显著,随着时间的变化曲线没有明显的波动,一直保持着有规律性的增减.说明其表示平稳特征,可以反映外部条件综合因素的影响.

由图6b可以看出,第二函数型主成分解释了3.5%的变动.权重函数表现为有周期性的递增和递减.第二主成分得分较高的城市(如石家庄、太原市)表现为受到第二权重函数的影响较大,在五月下旬之前低于平均降水量的程度在逐渐减少,五月下旬之后高于平均降水量的程度逐渐增多.故五月下旬为降水量波动的首个时间点.得分越低的城市,则受到与之相反的影响.第二权重函数在五月下旬的波动对平均降水量有显著影响,在五月下旬之前是正效应显著,五月下旬之后,负效应显著.五月份过后的一段时间内降水量有上升的变化特征.在这一时间段内影响降水量显著波动的可能因素是季节对降水量造成的影响,在春夏交接的时期,各个城市的降水量都普遍增多,且观察均值曲线可以看出,在五月份过后平均降水量呈上升趋势同时负效应明显.因此,第二主成分描述的应该是气象系统内部的自我保护因素,避免出现极端降水量风险.

由图6c可以看出,第三函数型主成分解释了1.7%的变动,其权重函数的值基本表现为在一年中春夏季为正秋冬季为负,且存在降低的趋势,但在一些时间点会有突发性的增加或减少.对于第三主成分得分较高的城市(如海口、昆明、广州市),观察后发现在八月份之前降水量变动程度高于图中均值函数的变动,表现为先增加后减小.在此之后则低于图中均值函数的波动变多,先是与平均降水量逐渐接近后又远离.在八月初权重函数对降水量有明显影响,在八月份之前正效应显著,之后负效应显著.此时间段为降水量波动的第二个时间节点.而该时期后均值曲线呈下降特征.结合实际,八月初一般是台风登录大陆的高发以及多地自然灾害频发时期,八月份后我国大部分地区进入秋冬季,降水量明显呈下降趋势,这是产生这类降水量变化的可能原因.因此,第三主成分描述的是外部极端因素对降水量带来的影响.

第四函数型主成分解释了1.6%的变动,其权重函数鲜少波动,即第四主成分占比较高的城市,如长沙、成都、重庆市,表现特征稳定.所以,第四主成分反映的是降水量几乎不受极端天气的影响.

日前,农业生产以及人类生活愈来愈受到降水量变化异常的影响,这对农作物的生长也会造成一些不可抗力的影响,进而对粮食和一些农产品的市场价格有所影响,也就影响了人们的生活.因此,需要进一步地增加对气候以及降水量的关注,重视降水量的波动变化,并结合实际情况加以分析.极端降水量以及极端天气问题在短时间内是人类无法彻底改变的,因此更应长期关注降水量的变化规律,制定相应的措施以及补贴政策,减少气象灾害对生产生活的影响.

3 结语

本文根据收集到的1998—2020年的31个城市的月降水量数据具有周期性特征,选择傅里叶基函数对收集到的原始数据进行拟合,得到了较好的效果,从函数型的角度说明阐述了降水量曲线与时间之间的动态变化关系.利用函数型主成分分析方法对31个城市月降水量的特征进行研究,给出了一些地区的降水量显著变化的时间,分析结果可以为我国城市防洪抗旱政策的制定和实施提供有效的指导和帮助.

[1] Abduljabbar M H.Unveiling air pollution patterns in Yemen:a spatial-temporal functional data analysis[J].Environmental Science and Pollution Research International,2023(10):82-86.

[2] Aaj C,Ronaldo D,Cm M.Modeling the evolution of deaths from infectious diseases with functional data models:The case of COVID-19 in Brazil[J].Statistics in Medicine,2023,42(7):182-186.

[3] SHI Chen,XIAN Yujiao,WANG Zhixin,et al.Marginal abatement cost curve of carbon emissions in China:a functional data analysis[J].Mitigation and Adaptation Strategies for Global Change,2023,28(2):86-91.

[4] 程豪,裴瑞敏.全球化人才流动对国际合作的函数型动态效应可视化分析[J].统计与信息论坛,2022,37(11):107-116.

[5] 魏艳华,马立平,王丙参.基于函数型数据的中国人口变化趋势及地区差异[J].统计与决策,2022,38(8):82-86.

[6] 王青蓉.函数型主成分分析及函数型线性回归模型的研究及应用[D].重庆:重庆工商大学,2020.

[7] 昌霞,刘赛娥.聚类回归分析在降雨量统计数据中的应用[J].计算机与数字工程,2019,47(8):2002-2005.

[8] 宋世凯.全球变暖背景下1960—2014年中国降水时空变化特征[D].乌鲁木齐:新疆大学,2017.

[9] 梁银双,刘黎明,卢媛.基于函数型数据聚类的京津冀空气污染特征分析[J].调研世界,2017,284(5):43-48.

[10] 严明义.函数性数据的统计分析:思想、方法和应用[J].统计研究,2007,184(2):87-94.

Analysis of monthly urban precipitation characteristics based on functional data

ZHENG Dazhao

(School of Science,Qiqihar University,Qiqihar 161006,China)

Precipitation is an extremely important meteorological factor,the uneven distribution of precipitation over time and space will to some extent lead to flooding or drought in some areas.The method of functional principal component analysis is applied to analyze monthly precipitation data.The monthly precipitation data of 31 major cities in China for 23 years is selected,and the precipitation curve is obtained by introducing the Fourier basis function and functionalizing it.Then,functional principal component analysis was used for research.The analysis shows that the cumulative contribution of the first four principal components is 93.28%,which can explain most information of the original data,and the dimension reduction effect is better than the traditional principal component analysis.Finally, using the first four functional principal components and the perturbation of the average curve,combined with actual characteristics,the time of significant changes in precipitation in some regions is given.

functional data;monthly precipitation;functional principal component analysis

1007-9831(2023)12-0027-07

O29

A

10.3969/j.issn.1007-9831.2023.12.005

2023-04-02

黑龙江省教育厅基本业务专项(135109228)

郑大钊(1979-),男,黑龙江绥化人,副教授,从事应用数学研究.E-mail:zhengdazhao@163.com

猜你喜欢

降水量权重曲线
未来访谈:出版的第二增长曲线在哪里?
权重常思“浮名轻”
幸福曲线
沿平坦凸曲线Hilbert变换的L2有界性
降水量是怎么算出来的
黄台桥站多年降水量变化特征分析
为党督政勤履职 代民行权重担当
1988—2017年呼和浩特市降水演变特征分析
基于公约式权重的截短线性分组码盲识别方法
基于小波变换的三江平原旬降水量主周期识别