APP下载

城市景观林中幼龄期红锥个体大小之统计分布模型

2013-07-29殷祚云曾令海何波祥连辉明张谦蔡燕灵陈一群蓝燕群

生态环境学报 2013年2期
关键词:伽玛优度指数分布

殷祚云,曾令海,何波祥,连辉明,张谦,蔡燕灵,陈一群,蓝燕群

广东省林业科学研究院,广东 广州 510520

红锥Castanopsis hystrix A. DC.是南亚热带地区珍贵、优良的乡土材用和景观树种,属壳斗科锥属常绿阔叶乔木,生长于海拔30~1300 m缓坡和山地常绿阔叶林中,分布于华南、华中、华东和西南地区,越南、老挝、柬埔寨、缅甸、印度等国家也有分布;广州市仅见于从化、花都两个郊区市的山地林中[1-2]。由于城市区域天然林所剩无几,野生红锥已不多见,但人们开始重视包括红锥在内的乡土阔叶树种在城市景观林建设、热带亚热带次生林经营中的应用[3-4]。

已见许多关于树种胸高直径(胸径)分布的研究[5-11],但大多局限于韦伯分布(又称威布尔分布)、正态分布等少数几种统计分布,而对于冠幅、基径(即地径)、树高等多个个体大小(Body size)指标及其综合指标,同时运用多种统计分布模型来拟合的研究,鲜有报导。最近,在生态和进化研究的一些领域,研究人员开始采用被称为“模型选择”途径,而非传统的零假设检验途径[12]。殷祚云将这种模型选择途径运用于植物群落中物种多度分布(Species abundance distribution, SAD)的研究中,提出了一个“序列模型集合”以同时模拟观察数据,从而找到了最佳模型或普适模型——对数柯西分布,并藉此阐明了不同群落不同演替阶段物种多度分布的格局与动态[13-17]。

本研究通过精心设计和详细调查,测得幼龄期红锥的多个个体大小指标(或生长指标、生长量指标)的大样本数据,用以探讨这些指标的观察分布与多种理论分布之间的相互关联,旨在寻找适合这些指标各自的最佳模型及符合所有指标的普适模型,从而阐明其统计分布规律,亦为相关研究提供参考。

1 方法

1.1 研究地概况与调查方法

广州市地处广东省中部的南亚热带季风海洋性气候区,夏热冬暖,雨量充沛,雨热同季,地带性植被为季风常绿阔叶林。设在广东省龙眼洞林场筲箕窝的试验地(北纬23°13′48″ ~ 23°13′56″、东经113°23′52″ ~ 113°24′04″)位于广州市东北郊,属丘陵地区,土壤为山地赤红壤,原为马占相思采伐迹地。2010年5月林场采用20~30 cm高、一年生的红锥容器苗进行再造林,株行距为2.5 m×3 m。2012年5月,在整个试验区内有代表性地设置了24个10 m×10 m固定样方,所处海拔101~181 m(平均136.3 m),坡度25°~37°(平均31.5°),坡向从西北、东北、西南、南面、东南到东面;逐株调查每个样方内的存活个体,所登记个体大小指标包括树高、冠幅、胸径和基径(即地径)。

1.2 统计分布模型

选择12个具有不同函数形式的主要连续型分布[14,18-21](SPSS Inc., 2004),这些理论分布多少有些貌似红锥个体大小指标的观察分布。其中,瑞利、指数分布为单参数分布,另外10个均为双参数分布。

1.2.1 正态分布(常态分布, Normal distribution) 概率密度函数(或称分布密度、密度函数,Probability density function, PDF):

累积分布函数(或称分布函数,Cumulative distribution function, CDF):

其中,均值μ为位置参数(location parameter),标准差σ为尺度参数(又称比例参数,scale parameter)。

1.2.2 瑞利分布(Rayleigh distribution)

概率密度函数:

累积分布函数:

F(x;λ)=1−e−(x/λ)2。

其中,λ是尺度参数。

瑞利分布是下述韦伯分布的特例:Rayleigh(x; λ)=Weibull(x; λ, 2)。

1.2.3 指数分布(也叫负指数分布,Exponential distribution)

概率密度函数:

累积分布函数:

F(x;λ)=1−e−λx。

其中,λ为尺度参数。

指数分布既属于韦伯分布族,也属于伽玛分布族,有:

Exp(x; λ)=Weibull(x; 1/λ, 1)=Γ(x; 1, λ)。

1.2.4 伽玛分布(亦作伽马分布,Gamma distribution)

概率密度函数:

累积分布函数:

其中,k是形状参数(Shape parameter),λ是尺度参数。

伽玛分布适用于各种形式的分布,具有理论意义,其中Γ(1, λ)为指数分布,Γ(n/2,1/2)为自由度为n的卡方分布。

1.2.5 对数正态分布(Lognormal distribution)

概率密度函数:

累积分布函数:

其中,μ为位置参数,σ为尺度参数。

1.2.6 韦伯分布(威布尔分布,Weibull distribution) 概率密度函数:

累积分布函数:

F(x;λ,k)=1−e−(x/λ)k。

其中,λ是尺度参数,k是形状参数。韦伯分布的累积分布函数是扩展的指数分布累积分布函数,且它与很多分布都有关系:当k=1,是指数分布;k=2时,是瑞利分布[18-19]。

1.2.7 柯西分布(哥西分布,Cauchy distribution)

概率密度函数:

累积分布函数:

其中,θ为位置参数,λ为尺度参数。

1.2.8 逻辑斯谛分布(逻辑斯蒂、若吉斯蒂克分布,Logistic distribution)

概率密度函数:

累积分布函数:

其中,μ是均值、位置参数,λ是尺度参数。

1.2.9 极值分布(Extreme value distribution)

概率密度函数:

累积分布函数:

其中,θ为位置参数,λ为尺度参数。

1.2.10 拉普拉斯分布(Laplace distribution)

也叫双指数分布;对应于正态分布为第二型拉普拉斯分布,又称第一型拉普拉斯分布。

概率密度函数:

累积分布函数:

其中,μ是均值、位置参数,λ是尺度参数。

1.2.11 反高斯分布(或逆高斯分布,Inverse Gaussian distribution)

概率密度函数:

累积分布函数:

其中,μ是均值、位置参数,λ是尺度参数(SPSS Inc., 2004)。

1.2.12 对数柯西分布(LogCauchy distribution)

概率密度函数:

累积分布函数:

其中,θ为位置参数,λ为尺度参数。

1.3 数据分析

分布参数估计采用最大或然法[14,16,18],也可得到或然函数值,用于计算模型对数据的拟合优度(或称适合度,Goodness of fit)标准:

AIC = −lnL + K;

CAIC = −2lnL + K(lnS + 1)。

式中,AIC=Akaike信息标准(Akaike information criterion);CAIC=一致性Akaike信息标准(Consistent AIC);lnL=或然函数值的对数;K=估计参数的个数;S=样本大小,即观测值个数。AIC和CAIC越小,模型越好[22-25]。

同时,还采用各分布的累积分布函数对各指标的累积频数数据进行基于最小二乘法的非线性回归分析,求得决定系数R2,用于模型评优;R2值越大,模型越好[16,21,26-27]。

此外,还要进行分布模型是否符合观察分布的统计显著性检验,由于红锥个体大小指标均为连续性数据,宜运用柯尔莫哥洛夫-斯米尔诺夫检验(Kolmogorov–Smirnov test, KS test)。KS检验统计量定义为:当随机变量取一系列值(通常呈等差数列)时,所得累积观察分布和累积期望分布之差的绝对值中最大的一个[19,28-29]。根据样本大小与组数的关系,确定组数;再根据极差决定组距,最后对各个指标数据进行归组[30],以用于KS检验。设3个置信水平即α=0.01、0.05和0.20,分别表示较符合、符合和极符合;KS统计量大于α=0.01水平临界值时为不符合[28]。

数据处理与分析采用几种常用软件完成[31-34],包括:SPSS 13.0 (SPSS Inc., 2004)、Microsoft Office Excel 2007 (Microsoft Corporation, 2006)、Microcal Origin 5.0 (Microcal Software, Inc., 1997)、OriginPro 7.5 (OriginLab Corporation, 2003)及Mathematica 4 (Wolfram Research, Inc., 1999)。

2 结果

在广东省龙眼洞林场筲箕窝试验地的24个固定样方内总共记录了145株红锥,其中127株可测胸径;为比较包括胸径在内的全部指标及其衍生指标的统计分布,本研究以这127株红锥为研究对象(表1)。关于峰度和偏度,4个一维(次)指标即冠幅、胸径、基径和树高以及2个二维指标冠层面积、基部面积很近似于0,可认为它们的总体分布为正态分布;胸高面积、体积明显大于0,显然是偏离正态的;三维指标中,冠层体积、基部体积比胸高体积更趋近于0,故也较为接近正态。这与后面的统计检验结果(表2—11)是一致的。

表1 广州市二年生红锥10种个体大小指标观测值的描述性统计 Table 1 Descriptive statistics of 10 observed body size indicators of 2-year Castanopsis hystrix in Guangzhou, South China

从10个指标来看,AIC和CAIC的变化趋势几乎是一样的(表2—11),且由于这2个拟合优度标准与KS统计量一样,都是越小越好[22,24],而决定系数R2则是越大越好[16,26],因而本文提出一个新的综合统计量CAIC×KS/R2,用以综合判定不同分布模型对各生长指标观察分布的拟合优度。

对于冠幅的频数分布(表2),以越小越好的综合统计量CAIC×KS/R2为标准,分布适合度大小次序为:伽玛>对数正态>反高斯>正态>极值>逻辑斯谛>韦伯>拉普拉斯>对数柯西>柯西>瑞利>指数,前3名的综合拟合优度差异不大,分别是1.79、1.84、1.93;后3名差异很大。KS检验表明,仅瑞利分布、指数分布不符合观察,柯西分布在0.05置信水平显著符合,其他分布均在0.20水平极显著符合。

表2 十二种统计分布模型对广州市二年生红锥冠幅频数分布的 拟合优度比较 Table 2 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of canopy diameter (CD) of 2-year Castanopsis hystrix in Guangzhou, South China

表3 十二种统计分布模型对广州市二年生红锥胸径频数分布的 拟合优度比较 Table 3 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of diameter at breast height (BD) of 2-year Castanopsis hystrix in Guangzhou, South China

KS检验表明,反高斯分布和指数分布不适合胸径数据,对数柯西分布和对数正态分布在0.05置信水平符合,其余6个指标都是极为符合(表3)。以综合统计量为标准进行比较,适合胸径频数分布的程度,从大到小依次是:逻辑斯谛>韦伯>极值>正态>瑞利>柯西>拉普拉斯>伽玛>对数正态>对数柯西>反高斯>指数。前3位差别不大,其后的正态、瑞利、柯西、拉普拉斯和伽玛分布差不多,再后的对数正态和对数柯西分布也很接近。

瑞利分布和指数分布不适合描述基径的观察分布,其他指标则都极显著符合(表4)。各分布模型对基径观察分布的拟合优度排序为:对数柯西>伽玛>逻辑斯谛>正态>韦伯>极值>对数正态>反高斯>拉普拉斯>柯西>瑞利>指数。位于第1位的对数柯西分布大大优于其后的3个分布,再后的韦伯、极值、对数正态、反高斯分布较为接近,拉普拉斯与柯西分布相差不大,而最后2个分布的综合统计量特别的高,因而不适合基径数据。

表4 十二种统计分布模型对广州市二年生红锥基径频数分布的 拟合优度比较 Table 4 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of ground diameter (GD) of 2-year Castanopsis hystrix in Guangzhou, South China

根据KS检验,树高分布与冠幅、基径分布一样,显然也不适合由指数和瑞利分布来描述,但极显著地服从其他8种分布模型(表5)。12个理论分布对树高数据的拟合优度排名如下:对数柯西>伽玛>拉普拉斯>逻辑斯谛>对数正态>反高斯>正态>极值>韦伯>柯西>指数>瑞利。树高与基径一样,最为适合的也是柯西分布,但与紧随其后的伽玛、拉普拉斯、逻辑斯谛分布,在综合统计量上的差异不是很大;从对数正态到柯西分布的6个分布较为接近;而位居最后的指数、瑞利分布,其综合统计量比其他分布的大1~2个数量级。

对于冠层面积,仅指数分布不符合其观察分布,正态和柯西分布在0.05置信水平符合,其他分布都是极符合(表6)。拟合优度顺序为:反高斯>对数正态>极值>伽玛>逻辑斯谛>瑞利>韦伯>对数柯西>拉普拉斯>正态>柯西>指数。仍就综合统计量而言,最适合的反高斯分布与紧接着的对数正态、极值分布相近,而后的伽玛、逻辑斯谛、瑞利和韦伯分布差不多,对数柯西、拉普拉斯、正态和柯西分布较接近,排最后的指数分布则奇高。

表5 十二种统计分布模型对广州市二年生红锥树高频数分布的 拟合优度比较 Table 5 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of tree height (HT) of 2-year Castanopsis hystrix in Guangzhou, South China

表6 十二种统计分布模型对广州市二年生红锥冠层面积频数分布的 拟合优度比较 Table 6 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of canopy area (CA) of 2-year Castanopsis hystrix in Guangzhou, South China

令人惊奇的是,单参数的指数分布竟然成为模拟胸高面积频数分布的最佳模型,排在其后的韦伯和伽玛分布,其综合统计量与指数分布的相差较小;再后的极值、逻辑斯谛、拉普拉斯分布相距不大;对数正态、柯西和对数柯西分布较为接近(表7)。拟合优度顺序为:指数>韦伯>伽玛>极值>逻辑斯谛>拉普拉斯>对数正态>柯西>对数柯西>正态>反高斯>瑞利。由KS检验可知,正态、反高斯、瑞利分布不适合模拟实测数据,对数正态分布在0.01水平较适合,柯西和对数柯西分布在0.05水平适合,其他均在0.20水平极适合。

对基部面积的拟合优度次序为:伽玛>极值>对数柯西>逻辑斯谛>韦伯>对数正态>瑞利>反高斯>拉普拉斯>正态>柯西>指数(表8)。排在第二位的极值分布综合统计量与最佳模型伽玛分布的很相近,排在第三的对数柯西分布则稍大些,而后的逻辑斯谛、韦伯、对数正态和瑞利较接近,再后的反高斯、拉普拉斯和正态分布相仿,柯西分布的综合统计量则很大,指数分布最大,高出其他分布1个数量级。KS检验也表明,拟合优度排末尾的指数分布不符合基部面积的观察分布;柯西分布在0.05置信水平符合;其他分布均在0.20水平极显著地适合观察。

表7 十二种统计分布模型对广州市二年生红锥胸高面积频数分布的 拟合优度比较 Table 7 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of area at breast height (BA) of 2-year Castanopsis hystrix in Guangzhou, South China

表8 十二种统计分布模型对广州市二年生红锥基部面积频数分布的 拟合优度比较 Table 8 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of ground area (GA) of 2-year Castanopsis hystrix in Guangzhou, South China

据KS检验可得,冠层体积分布除了不服从指数分布、较显著地服从瑞利和正态分布之外,均极显著地服从其他9种统计分布,拟合优度排位为:对数正态>反高斯>伽玛>极值>对数柯西>韦伯>拉普拉斯>逻辑斯谛>柯西>瑞利>正态>指数(表9)。其最佳模型对数正态分布的综合统计量明显低于位居第二的反高斯分布;伽玛与极值较接近;对数柯西、韦伯、拉普拉斯和逻辑斯谛相近;瑞利与正态差不多;指数分布则明显最大。

表9 十二种统计分布模型对广州市二年生红锥冠层体积频数分布的 拟合优度比较 Table 9 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of canopy volume (CV) of 2-year Castanopsis hystrix in Guangzhou, South China

表10 十二种统计分布模型对广州市二年生红锥胸高体积频数分布的拟合优度比较 Table 10 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of volume at breast height (BV) of 2-year Castanopsis hystrix in Guangzhou, South China

对于胸高体积分布的拟合优度,韦伯>伽玛>指数>对数正态>对数柯西>拉普拉斯>逻辑斯谛>极值>柯西>正态>反高斯>瑞利(表10)。综合统计量韦伯比伽玛稍低,比排第三位的指数分布低2倍以上;但与胸高面积类似,指数分布能如此适合胸高体积数据,较为少见;对数正态、对数柯西和拉普拉斯差不多;逻辑斯谛、极值和柯西较相近;从正态、反高斯到瑞利分布,综合统计量都很大,且越来越明显增大。KS检验也表明后面3个分布不适合观察分布;而对数柯西、极值和柯西分布在0.05水平上符合观察;其余分布都在0.20水平极符合。

至于基部体积,拟合优度排序为:对数柯西>伽玛>对数正态>韦伯>反高斯>极值>逻辑斯谛>拉普拉斯>正态>柯西>瑞利>指数(表11)。前3名的综合统计量较接近;紧接着的4个分布也相近;再后的逻辑斯谛、拉普拉斯、正态、柯西分布,综合统计量达到3位数;最末一位指数分布的综合统计量明显高于倒数第二位的瑞利分布。从KS检验可知,基部体积仅不服从指数分布,服从其他分布——在0.01水平较显著服从瑞利分布,在0.05水平显著服从正态、柯西和拉普拉斯分布,而在0.20水平极显著服从另外7个分布。

表11 十二种统计分布模型对广州市二年生红锥基部体积频数分布的拟合优度比较 Table 11 Comparisons of the goodness-of-fits of 12 statistical distribution models to the frequency distribution of ground volume (GV) of 2-year Castanopsis hystrix in Guangzhou, South China

综合上述结果显示(表2—11),一般说来,同样的分布模型即正态分布或柯西分布,对数尺度比之线性尺度,更适合观察分布。以综合统计量CAIC×KS/R2为评判标准,这两种类型的分布对10个指标的拟合优度顺序列举如下:

冠幅:对数正态>正态,对数柯西>柯西;

胸径:正态>对数正态,柯西>对数柯西;

基径:正态>对数正态,对数柯西>柯西;

树高:对数正态>正态,对数柯西>柯西;

冠层面积:对数正态>正态,对数柯西>柯西;

胸高面积:对数正态>正态,柯西>对数柯西;

基部面积:对数正态>正态,对数柯西>柯西;

冠层体积:对数正态>正态,对数柯西>柯西;

胸高体积:对数正态>正态,对数柯西>柯西;

基部体积:对数正态>正态,对数柯西>柯西。也就是说,在10个指标20种情形中仅有胸径、基径和胸高面积3个指标4种情形是例外,其他16种情形都是对数尺度比线性尺度为优。这显然不是偶然的。

前面的分析还表明,伽玛、韦伯、逻辑斯谛3个分布均在0.20置信水平极显著地适合描述红锥的全部10个个体大小指标,成为表现最好的3个普适模型;极值和拉普拉斯分布各仅一个指标在0.05水平符合,其他在0.20水平符合,表现也不错;对数柯西、对数正态分布及柯西分布也可以;而常用的正态分布有胸高面积和胸高体积2个指标不适合,瑞利、指数和反高斯分布分别有5个、8个和3个指标不符合。

现在比较伽玛、韦伯、逻辑斯谛3个普适分布(表2—11)。对综合统计量CAIC×KS/R2进行排名后可知,在全部10个指标中,从排名领先的指标比例来看,伽玛分布与韦伯分布为7:3,伽玛与逻辑斯谛是9:1,可见伽玛分布优于韦伯分布、明显优于逻辑斯谛分布;而已有研究中常用的韦伯分布与不常用的逻辑斯谛分布领先指标比例为4:6,韦伯分布还不如逻辑斯谛分布。综上所述,伽玛分布是最佳的普适模型,因而可用来比较所有个体大小指标内在的统计分布格局差异(图1)。

适合模拟全部10个指标统计分布的伽玛分布曲线清楚地显示出同一维度不同指标、同类指标不同维度之间偏态和峰态的差异(图1)。4个一维(次)指标分布曲线,除胸径略微左偏(正偏)外,几乎都呈左右对称的钟形曲线,这与表1的描述统计(其中胸径的偏度最大)是一致的。只有胸高面积、体积的分布曲线变成凹形(或称倒J形、双曲线形),其他指标都呈单峰形,这是与胸高面积、体积频数分布的偏度远大于0、且在10个指标中最大有关(表1),也就是它们严重违背正态分布的原因(表7、10)。2个二维指标冠层面积和基部面积的分布曲线接近钟形,另一个二维指标胸高面积呈凹形,这也与前面描述统计的结果一致(表1);3个三维(次)指标即冠层、胸高、基部体积,也表现类似格局。

各指标伽玛分布曲线的变化规律与分布参数的变化趋势是一致的。从长度(直径和高度)、面积到体积,即个体大小指标从一、二到三维(次),曲线高度越来越矮,越来越左偏,以至变为凹形(胸高面积、体积),而且越来越凹——胸高体积比胸高面积更向左凹陷。这与所拟合伽玛分布参数的变化规律相对应:从直径、面积到体积,无论冠层、胸高还是基部,形状参数k、尺度参数λ两个参数都是递减的(表12)。

图1 拟合广州市二年生红锥10种个体大小指标观察分布的 伽玛分布曲线比较 Fig.1 Comparisons of the gamma distribution curves fitting to the observed distributions of 10 body size indicators of 2-year Castanopsis hystrix in Guangzhou, South China

表12 模拟广州市二年生红锥10种个体大小指标观察分布的伽玛分布之参数最大或然估计 Table 12 Maximum likelihood estimation of the gamma distribution parameters modeling the observed distributions of 10 body size indicators of 2-year Castanopsis hystrix in Guangzhou, South China

3 讨论

幼龄期红锥的全部个体大小指标都有各自最适合的分布模型(且大多不适合常用分布),同时也存在共同遵从的分布模型,这是个性与共性的完美结合。冠幅、胸径、基径、树高、冠层面积、胸高面积、基部面积、冠层体积、胸高体积和基部体积等10个指标的最佳模型分别是伽玛、逻辑斯谛、对数柯西、对数柯西、反高斯、指数、伽玛、对数正态、韦伯和对数柯西分布,其中对数柯西分布占了3个指标,伽玛分布2个,其余均为1个。可以看出,与最佳的普适模型伽玛分布相比,对数柯西分布表现也较好——在KS检验中仅胸径、胸高面积、胸高体积3个指标为显著适合,其他7个指标均为极显著适合,这类似于生物群落中物种多度分布(SAD):分别在3个模型组成的集合和7个模型组成的集合中,都是对数柯西分布表现最佳[14,16-17]。值得注意的是,全部10个指标所服从的最佳统计分布模型都不是通常所假设的正态分布,并且只有胸高体积一个指标的观察分布服从常用的韦伯分布。

不同维度指标的统计分布具有不同的表现。10个指标拟合伽玛分布曲线显示,同一维度不同指标、同类指标不同维度之间的偏态和峰态存在明显差异。个体大小指标从长度(直径和高度)、面积到体积,即从一、二到三维(次),曲线高度越来越矮,越来越趋于正偏(即曲线高峰向左偏离均值)[35],以至变为凹形,而且越来越向左凹陷。另一方面,分布模型适合度与指标尺度有关。总的说来,对数尺度的柯西分布、正态分布(即对数柯西分布、对数正态分布)分别比线性尺度的相同分布拟合优度更大。因此,在进行基于正态分布假设的各种统计检验、推断时应格外谨慎。在某些情形下,先对观察数据——特别是较高维度的数据——进行对数等非线性尺度的转换,再进行统计分析,将会得到更有说服力的结论。在当今生态学较为热门的碳汇研究中,生物量或固碳量与三维指标,如木材蓄积量或本文提及的冠层、胸高和基部体积,通常呈线性正相关,因而在进行统计分析时,应考虑其中可能存在的非正态性或非对称性。此外,本研究中的面积指标与叶面积指数、地被物盖度和郁闭度同属二维指标,也应呈线性正相关,因此,这里所揭示的二维面积指标统计分布规律亦可为后面这些常用指标的调查研究提供借鉴。

本研究结果可为林木遗传育种、栽培和种群生态学等领域研究提供参考。仅仅考察某一树种不同种源、家系、无性系或单株之间某个个体大小指标平均值的差异显著性,是不全面的,未能充分揭示实测数据中所蕴含的大量统计信息,而应从多方位、多角度考察其间可能存在的差异,即:就各个指标,弄清它们之间其他样本统计量(如偏态、峰态和变异系数)及该指标所属总体分布的参数大小、曲线形状等方面的异同所在。值得一提的是,对特定物种的天然或人工种群的长期跟踪(尤其是定期定位)研究,有利于揭示其内在的统计分布动态规律,因而将具有更加重大的理论和实践意义。

提出一个综合评价拟合优度的统计量CAIC×KS/R2。这个统计量综合考虑了3个不同角度、多个不同方面:CAIC——考虑了最大或然函数值、参数个数和样本大小等3个方面[24-25],CAIC越小越好;KS统计量——对应于随机变量的完全取值序列(通常是等差数列),累积观察分布与累积期望分布差异绝对值中的最大值[19,28-29],也是越小越好;R2——采用最小二乘法进行非线性回归时所得最小残差(或剩余)平方和的补,考虑了随机变量全序列取值时累积观察分布与累积期望分布差异的平方和,残差越小,R2越大,模型越好[14,26]。单一标准评判模型优劣,容易得出片面乃至不实之结论。

4 结论

红锥是南亚热带地区重要的材用和景观树种,也是广东省珍贵的乡土常绿阔叶树种。现有研究很少报导运用多个统计分布模型,同时对某一树种多个个体大小指标的频数分布进行拟合和比较。本研究精心设计了广州城市景观林固定样地,仔细调查了其中二年生红锥的冠幅、胸径、基径和树高4个指标。选用12个具有不同函数形式的主要连续型分布,组成一个相对完整的模型集合,运用最大或然法和最小二乘法,同时模拟上述4个长度指标及其衍生的3个面积指标和3个体积指标。研究表明:

(1)10个指标都有各自最适合的分布模型,也共同遵从几个分布模型,其中以伽玛分布最佳,其次是逻辑斯谛分布和韦伯分布;

(2)分布曲线形状因指标的维度而异,从一维直径和高度、二维面积到三维体积,曲线变得越来越低矮、趋于正偏,甚至从单峰形变成凹形;

(3)期望概率分布对观察频数分布的拟合优度与指标的尺度有关,通常是对数尺度优于线性尺度,例如:对数柯西分布比柯西分布更适合模拟10个指标中除胸径和胸高面积之外的8个指标;

(4)一个整合一致性Akaike信息标准CAIC、Kolmogorov-Smirnov检验统计量KS和回归决定系数R2的统计量CAIC×KS/R2,可作为拟合优度的综合评价标准。

本研究可望为林木栽培育种和种群生态学等领域的研究提供借鉴。应从多方位、多角度地对某一树种不同种群各生长指标的频数分布进行比较,即针对每个指标,阐明这些种群之间除均值外的其他样本统计量(包括偏态、峰态和变异系数)及其所属总体分布的参数大小、曲线形状等方面的异同。而对特定物种的天然或人工种群的长期跟踪研究,有利于揭示其内在的统计分布动态规律,更是一个值得进一步研究的有趣课题。

致谢:本研究在野外调查和资料收集中得到了广东省林业科学研究院蔡汉兴、谢振凤、汪鹏和蔡静如,广东省龙眼洞林场朱细俭、李宇雪的大力支持,谨此表示衷心感谢!

[1] 叶华谷, 彭少麟. 广东植物多样性编目[M]. 广州: 广东世界图书出版公司, 2006.

[2] 邢福武, 曾庆文, 谢左章. 广州野生植物[M]. 贵州: 百通集团贵州科技出版社, 2007.

[3] 曾令海, 殷祚云. 热带次生林经营[M]. 广州: 广东省出版集团广东科技出版社, 2013.

[4] 朱细俭, 黄少锋, 张志鸿. 红锥混交林生长情况调查分析[J]. 广东林业科技, 2003(4): 46-48.

[5] 董文宇, 邢志远, 惠淑荣, 等. 利用Weibull分布描述日本落叶松的直径结构[J]. 沈阳农业大学学报, 2006(2): 225-228.

[6] 黄家荣, 孟宪宇, 关毓秀. 马尾松人工林直径分布神经网络模型研究[J]. 北京林业大学学报, 2006(1): 28-31.

[7] 惠淑荣, 吕永震. Weibull分布函数在林分直径结构预测模型中的应用研究[J]. 北华大学学报:自然科学版, 2003(2): 101-104.

[8] 孟京辉, 陆元昌, 刘刚, 等 海南岛热带天然林直径分布模型研究[J]. 华中农业大学学报, 2010(2): 227-230.

[9] 宁小斌, 李永亮, 刘晓农. 基于Weibull分布的林分结构可视化模拟技术研究[J]. 中南林业调查规划, 2012,02:13-17.

[10] 王秀云, 黄建松, 程光明, 等. 用Weibull分布拟合刺槐林分直径结构的研究[J]. 林业勘察设计, 2004(2):1-3.

[11] 闫东锋, 侯金芳, 张忠义, 等. 宝天曼自然保护区天然次生林林分直径分布规律研究[J]. 河南科学, 2006(3):364-367.

[12] JOHNSON J B, OMLAND K S. Model selection in ecology and evolution[J]. Trends Ecological Evolution, 2004, 19 (2), 101-108.

[13] YIN Z Y, GUO Q, REN H, et al. Seasonal changes in spatial patterns of two annual plants in the Chihuahuan Desert, USA[J]. Plant Ecology, 2005, 178(2): 189-199.

[14] YIN Z Y, PENG S L, REN H, et al. LogCauchy, log-sech and lognormal distributions of species abundances in forest communities[J]. Ecological Modelling, 2005, 184(2/4): 329-340.

[15] YIN Z Y, REN H, ZHANG Q M,et al. Species abundance in a forest community in South China: a case of Poisson lognormal distribution[J]. Journal of Integrative Plant Biology, 2005, 47(7): 801-810.

[16] 殷祚云. Modeling on Species Abundance and Distribution Patterns in Plant Communities[D]. 北京:,中国科学院研究生院, 广州: 华南植物园, 2005.

[17] 殷祚云, 任海, 彭少麟, 等. 华南退化草坡自然恢复中物种多度分布的动态与模拟[J]. 生态环境学报, 2009, 18(1): 222-228.

[18] 数学手册编写组. 数学手册[M]. 北京: 人民教育出版社,1979.

[19] 方开泰, 许建伦. 统计分布[M]. 北京: 科学出版社, 1987.

[20] 殷祚云, 廖文波. 南亚热带森林群落种-多度的对数正态分布模型研究[J]. 广西植物, 1999, 19(3): 221-224.

[21] 殷祚云. Logistic曲线拟合方法研究[J]. 数理统计与管理, 2002, 21(1): 41-46.

[22] AKAIKE H. Information theory and an extension of maximum likelihood principle [C] // PETROV B N, CSAKI F. Proceedings of the Second International Symposium of Information Theory. Budapest: Akademiai Kiado, 1973, pp 267-281.

[23] WANG W, FAMOYE F. Modeling household fertility decisions with generalized Poisson regression [J]. Journal of Population Economics, 1997, 10:273-283.

[24] GURMU S,TRIVEDI P K. Excess zeros in count models for recreation trips [J]. Journal of Business and Economic Statistics, 1996, 14: 469-477.

[25] MELKERSSON M,ROOTH D O. Modeling female fertility using inflated count data models [J]. Journal of Population Economics, 2000, 13:189-203.

[26] QUINN G P, KEOUGH M J. Experimental Design and Data Analysis for Biologists [J]. Cambridge:Cambridge University Press, 2002.

[27] 殷祚云, 任海, 曾令海, 等. 三参数增长模型拟合: 以季风常绿阔叶林中两个优势乔木种群为例[J]. 生物数学学报, 2006, 21(3): 428-434.

[28] GLOVER T J, MITCHELL K J. An Introduction to Biostatistics [M]. New York: McGraw-Hill, 2001.

[29] DETSIS V, DIAMANTOPOULOS J, KOSMAS C. Collembolan as-semblages in Lesvos Greece:effects of differences in vegetation and precipitation [J]. Acta Oecologica, 2000, 21(2):149-159.

[30] 马育华. 田间试验和统计方法[M]. 北京: 农业出版社, 1979.

[31] 宇传华, 颜杰. Excel与数据分析[M]. 北京: 电子工业出版社, 2002.

[32] 郝红伟, 施光凯. Origin 6.0实例教程[M]. 北京: 中国电力出版社, 2000.

[33] 卢纹岱, 朱一力, 沙捷, 等. SPSS for Windows从入门到精通[M]. 北京: 电子工业出版社, 1997.

[34] 杨钰, 何旭洪, 赵昊彤. Mathematica应用指南[M]. 北京: 人民邮电出版社, 1999.

[35] 杜荣骞. 生物统计学[M]. 北京: 高等教育出版社, 1985.

猜你喜欢

伽玛优度指数分布
勘 误 声 明
如何正确运用χ2检验
——拟合优度检验与SAS实现
伽玛能谱测量中Nal(Tl)探测器的性能测试
指数分布抽样基本定理及在指数分布参数统计推断中的应用
可拓方法的优度评价在输气管优化设计中的应用
二元Weinman型指数分布随机变量之和、差、积、商及比率的分布
伽玛射束立体定向放射治疗质量控制
可拓优度评价法在CRM软件供应商选择中的应用
伽玛函数与一个力学问题的解析解
指数分布与其它分布的关系