APP下载

广东沿海的极值风速概率分布研究

2013-08-14曹深西陈子燊

海洋通报 2013年1期
关键词:参数估计极值形状

曹深西,陈子燊

(中山大学 水资源与环境系,广东 广州 510275)

风灾是广东最为严重的自然灾害之一,主要发生于夏季,沿海地区发生频率较高。风灾不仅自身具有巨大的破坏性,还会带来严重的次生灾害,威胁人民的生命财产安全,引起系列社会问题。在土木工程设计中,特别是高大土木工程结构中,风荷载成为最主要的荷载之一。由于在风工程中,结构不仅要承受过去一个时段内的风速,还要保证某一规定期限内的结构能安全可靠的承受可能经受的风速,在设计风速时,不仅要考虑一定时期内结构的安全性,还要考虑设计的合理性,以保证不过高的设计指标而导致资源的浪费,因此极值风速的计算就显得非常重要(Palutikof,1999)。

随着极值理论的发展,学者把极值理论引入到极值风速的计算,在计算极值风速过程中,误差主要来自3个方面:样本的选取、模型的选取和模型拟合中的参数估计(段忠东,2002)。在过去的几十年中,大量学者和工程人员通过理论推导和统计计算对极值理论在风速领域方面的应用做了大量研究,以期减小计算中的各个环节的误差,提高极值风速的计算精度。

本文主要根据极值理论的3个模型对广东9个沿海气象站的极值风速统计计算,以探讨这些模型在广东沿海的应用效果。

1 抽样方法与模型介绍

1.1 抽样方法方法

AM(Annual Maximum,年最大值方法)抽样方法是每年取一个最大值组成一个新的序列。Gumbel(1958)提出每年的洪水序列中的最大值组成的极值序列,可以用极值分布去拟合,奠定了经典极值分布的基础。

由于AM方法每年只抽取一个数据,造成了数据的浪费,而在许多领域,观测时间不够长,只能得到较小的样本,样本太小又会产生较大的样本误差,因此为了增加被分析的有效数据量,以减小样本量太小造成的误差,3种主要的抽样方法被提出:r-LOS(r-largest order statistics)、POT(Peak over threshold)和 MIS(Method of Independent Storm)。r-LOS(Ying,2007)是每年选取前 r个最大的次序统计量组成极值序列;MIS抽样方法的解释见文献(Harris,1999);POT方法是选取给定的阈值(充分大)以上的观测值组成极值序列,在洪水频率的计算中也被称为PDS(Partial duration series)(Palutikof,1999)。学者和工程人员(Pickands, 1975;De, 1994;Hosking, 1985;Hosking,1987;Davison,1990;Simiu,1996)对此方法做了大量研究并广泛应用于工程实际。

1.2 Gumbel和GEV分布

Fisher和Tippett(1928)在对独立同分布的极大值渐进分布进行研究时提出了3种极值分布,分别称为极值Ⅰ型(Gumbel分布)、极值Ⅱ型(Fréchet分布)和极值Ⅲ型(Weibull分布)。

极值Ⅰ型:

极值Ⅱ型:

极值Ⅲ型:

上面的式中为位置参数,σ为尺度参数,ξ为形状参数。

Von(1936)把3个极值分布统一到一个形式,称为GEV分布(Jenkinson,1955):

当时ξ→0,为极值Ⅰ型分布(Gumbel分布);当ξ<0时,为极值Ⅱ型分(Fréchet分布);当ξ>0时,为极值Ⅲ型(We分布)。

1.3 广义pareto分布(GPD)

Pickand(1975)给出 阈值的超出量的渐近分布,即GPD分布。

如果随机变量X的分布函数为:

则称X服从GPD分布。式中u为位置参数,σ为尺度参数,ξ为形状参数。

设X的分布函数为F(x),如果Xup为其支撑上端点,X超过阈值u的超出量分布为Fu(x),如果存在广义pareto分布G(x),使得

则称X属于广义pareto分布的POT吸引场。

其中GEV分布属于GPD的POT吸引场,GPD本身属于GPD的POT吸引场,且形状参数不变,后者又称为GPD的POT稳定性(史道济,2006)。

GPD还有一个重要的性质,就是GPD超出量函数是域值u的线性函数,即

式中σ为尺度参数,ξ为形状参数。

这个性质可以作为实际应用中选取阈值的标准。

样本的超出量函数en(u)可以根据下面的公式进行估计:

式中n为样本数。

超阈值峰量数符合泊松分布:

式中,λ为年平均发生的超量数,也称为年率。

1.4 参数估计方法

模型参数的估计是计算极值风速很重要的一步,为了得到更好的参数,各种参数估计方法被提出和应用到极值分布模型。

Gumbel模型的参数估计方法中,最佳线性无偏估计(BULE)方法得到了广泛的应用;Harris(1996)对Gumbel模型进行了改进,采用权重最小二乘法进行参数估计;学者首先求得Gumbel分布的矩估计公式,并在其基础上提出概率权重矩(PWM)和线性矩(LM),并在Gumbel分布取得比较好的应用效果;对于大样本,性能优良的最大似然估计会得到更好的参数。

GPD模型的参数估计方法包括Pickand法和超出量函数法(CME)法,De(1994)提出的 De Hann法,Hosking等学者对概率权重矩、线性矩和最大似然估计在GPD模型中的应用进行了研究。

经验分布是参数估计的一个重要方面,本文使用的经验分布公式为数学期望公式:pei=m/N+1,其中pei表示经验分布频率,m为样本数据按照从小到大的顺序排列后,样本点的序列号,N表示样本数。

1.5 拟合优度检验

拟合优度的检验有很多种方法,本文选取PPCC(probabilityplotcorrelationcoefficient)、RMSE(root mean square error)检验指标作为评估模型适用性的依据。PPCC和RMSE的计算公式为:

式中,xi表示实测样本排序后的观测值,xm为xi的平均值,xei表示经验分布频率的pei对应的分位数,xem为xei的平均值。

2 实例研究

2.1 地区情况和数据描述

广东省位于亚洲大陆的东南部、太平洋西岸,濒临南海,受到3种季风气团的影响,构成了特殊的季风气候条件。大风天气成因比较复杂,从大的方面来看,造成广东各地出现最大风速的天气系统,主要是台风,其次是寒潮。

本文选取的这9个站点资料源于国家气象信息中心。测站分布在广东的沿海地带,受台风影响严重,而且由此带来的暴雨和风暴增水往往都对这些地区的造成灾害,因此精确推求最大风速,不仅为工程设计中的风荷载提供可靠的参考依据,而且对由此引起的次生灾害的防御工作也有重要意义。

观测气象站的编号和观测数据的有效时段见表1,本文选取的数据为日最大风速。

表1 数据来源和描述

2.2 GEV和Gumbel对AM抽样数据的拟合

根据经典极值理论,使用AM抽样方法分别对9个沿海站点的日最大风速进行抽样,得到9个站点的极值序列,然后分别使用Gumbel和GEV模型对9个极值序列进行拟合。Gumbel模型的参数通过MOM、PWM、ML和LSM方法求取,四种方法得到的PPCC和RMSE指标很相近,本文最终选择在大多数站点都表现得更好的PWM参数估计方法;GEV模型的参数估计方法利用PWM和ML两种参数估计方法,由于PWM方法表现更好,因此GEV模型也选取PWM参数估计方法;广州、汕头、湛江和阳江站的拟合图见图1、2、3、4,其他站点的拟合图略。

图2 Gumbel和GEV模型拟合汕头站最大风速

图4 阳江最大风速GEV和Gumbel拟合

表2 3个模型的参数与拟合优度指标

2.3 GPD模型对POT抽样数据的拟合

根据POT方法对9个站点的日最大风速数据进行抽样。根据极值分布理论,在增加有效数据量的同时必须保证数据的独立同分布,因此本文采取改进的POT抽样方法。第一,选取8天作为最小时间间隔,最小时间间隔内的最大值如果超过给定阈值,则被选取组成极值序列;第二,为了保证阈值足够大,选取历年最大值中的最小值作为备选阈值的最小值。

阈值的选取是GPD模型的重要内容,本文根据以下条件选取阈值。第一,为了满足GPD模型对数据的要求,我们选取年率大于1小于4;第二,每年的超出量数序列服从Possion分布,并采用卡方检验方法进行检验。第三,用GPD模型拟合满足条件的阈值下的极值序列,采用PWM、ML参数估计方法求取参数,计算模型的拟合优度指标,选取拟合优度指标最优的阈值。图5、6、7、8为汕头、广州、阳江和湛江气象站的GPD拟合图。

图6 汕头最大风速GPD拟合图

图7 湛江最大风速GPD拟合图

图8 阳江最大风速GPD拟合图

2.4 结果分析

由表2可知9个站点的GEV模型和Gumbel模型的尺度参数和位置参数相近,GEV的形状参数有4个站点大于0,5个站点小于0。如果形状参数大于0,分布为极值Ⅲ型,曲线上凸,如图1、3所示;如果形状参数小于0,分布为极值Ⅱ型,曲线下凸,如图2所示;凸凹程度取决于形状参数绝对值的大小,当形状参数的绝对值很小时,如阳江站,曲线几乎与Gumbel重合,Gumbel模型为直线,如图4所示。两个模型计算的极值风速值见表3。

由于GEV模型具有形状参数的调节,比Gumbel模型更灵活,在9个站点中的拟合效果也比Gumbel更好。而由于广州和阳江的形状参数的绝对值很小,GEV模型的的RMSE指标稍微差于Gumbel模型。

理论上GEV的形状参数应该和GPD的相同,但在9个站点中,GPD模型中的形状参数的差别较大,还有3个站点GEV和GPD的形状参数符号不一,本文认为这是由于样本太小造成的误差。GPD模型的形状参数与GEV一样,形状参数的符号和大小对其分布的形态有很大影响,尤其对极值风速的估计,重现期越大,所推算的极值风速对形状参数越敏感。9个站点中8个站点的形状参数为负,其中6个站点GPD模型估计的50年以上重现期的估计值比Gumbel模型大,湛江和上川岛由于形状参数绝对值很小,与Gumbel模型估计的结果相近(表3)。

GPD模型的9个站点的两项拟合指标中,只有汕头站的PPCC指标较GEV模型稍差,为此可以认为GPD模型可以更好地拟合历史数据。由于GPD模型应用了更多的历史数据,减小了抽样误差,因此本文认为GPD模型是3个模型中最合适的模型。

表3 3个模型的参数与拟合优度指标

3 结论

(1)3个模型的拟合指标都较优,推求的100年以下重遇期的极值风速相近,3个模型都是广东沿海计算极值风速的合适模型。

(2)GEV和GPD模型计算的极值风速的大小与形状参数密切相关,如果形状参数小于0,则估算的较大重遇期极值风速比Gumbel模型的要大;否则,情况相反。

(3)GPD模型倾向于给出比Gumbel和GEV模型更大的极值风速。

(4)GPD模型增加了有效数据量,取得更好的拟合优度指标,是估算极值风速的更合适的模型。

An Ying,Pandey M D,2007.The largest order statistics model for extreme wind speed estimation.J.Wind Eng.Ind.Aerodyn,95:165-182.

Davison A C,Smith R L,1990.Models for exceedances over high thresholds.Journal of the Royal Statistical Society,52:393-442.

De Haan L,1994.Extreme value statistics.In ExtremeValue Theory and Applications Vol.1(J.Galambos,J.Lechner&E.Simiu,Editors),Kluwer,Dordrecht.

Fisher R A,Tippett L H,1928.Limiting forms of the frequency distribution of the largest or smallest member of a sample.Proc Cambridge Philos Soc,24:180-190.

Gumbel E J,1958.Statistics of Extremes.New York,Columbia University Press,375.

Harris R I,1996.Gumbel re-visited-a new look at extreme value statistics applied to wind speeds.J.Wind Eng.Ind.Aerodyn.,59:1-22.

Harris R I,1999.Improvements to the‘Method of Independent Storms′.J.Wind Eng.Ind.Aerodyn,80:1-30.

Hosking J R M,Wallis J R,Wood E F,1985.Estimation of the generalized extreme-value distribution by the method of probabilityweighted moments.Technometrics,27:251-261.

Hosking J R M,Wallis J R,1987.Parameter and quantile estimation for the generalized Pareto distribution.Technometrics,29:339-349.

Jenkinson A F,1955.The frequency distribution of the annual maximum(or minimum)values of meteorological elements.Quarterly Journal of the Royal Meteorological Society,81:158-171.

Palutikof J P,Brabson B B,Lister D H,et al,1999.A review of methods to calculate extreme wind speeds.Meteorological Applications,6:119-132.

Pickands J,1975.Statistical inference using extreme order statistics,Ann.Statist,3:119-131.

Simiu E,Heckert N A,1996.Extreme wind distribution tails:a peaks over threshold approach.J.Struct.Eng.,122:539-547.

Von Mises R,1936.La Distribution de la Plus Grande de n Valeurs.Reprinted in Selected Papers,II,Amer.Math.Soc.,Providence,RI(1954):271-294.

段忠东,欧进萍,周道成,2002.极值风速的最优概率模型.土木工程学报,35(5):11-16.

广东省气象台,广东师院数学系,1975.广东省风压的分析和计算.华南师范大学学报(自然科学版),01:79-104

史道济,2006.实用极值统计方法.天津,天津科学技术出版社,30.

猜你喜欢

参数估计极值形状
挖藕 假如悲伤有形状……
基于新型DFrFT的LFM信号参数估计算法
极值点带你去“漂移”
极值点偏移拦路,三法可取
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
一类“极值点偏移”问题的解法与反思
你的形状
Logistic回归模型的几乎无偏两参数估计
看到的是什么形状
借助微分探求连续函数的极值点