对数正态分布参数的最优区间估计及应用

2022-12-22陈修素王君琦

四川职业技术学院学报 2022年6期

朱海，陈修素，王君琦

(重庆工商大学数学与统计学院，重庆南岸 400067)

1 引言

正态分布作为数理统计中最重要的分布之一，其广泛的应用性使它成为众多学者研究的目标，其衍生出的对数正态分布也在统计学中占有一席之地，被应用于生物、金融、医疗等多个领域.多年来，不断有学者就对数正态分布的区间估计及应用作出了一些研究，黄超[1]计算出了对数正态分布参数的矩估计、极大似然估计和贝叶斯估计,并讨论了参数的区间估计；韩峰等人[2]针对产品抗辐射能力服从对数正态分布、实验样本数据为成败型实验数据的情形,运用Bayes方法给出了在给定置信度下产品平均抗辐射能力置信下限的计算方法；李秀珍[3]利用Fisher的信仰推断方法,给出了对数正态总体分布位置参数的信仰水平为1-α的信仰区间估计.本文在前面学者的研究基础上，研究了对数正态分布中尺度参数的最短区间估计问题.

2 预备知识

2.1 正态分布与对数正态分布定义

定义1 若随机变量X的概率密度函数为：

(1)

则称随机变量X服从均值为μ、方差为σ2的正态分布，记为X～N(μ,σ2).特别地，当μ=0，σ=1时，该分布称为标准正态分布.正态分布(又称高斯分布)是一种使用最为广泛的对称分布，图像关于直线x=μ对称，故μ又称为位置参数；σ为标准差，反映的是数据变量的离散程度，图像上可以决定图形的高矮胖瘦，故而称为形状参数，又或叫尺度参数.

定义2 若随机变量X取对数后服从正态分布，即存在Y=lnX～N(μ,σ2)，则称随机变量X服从对数正态分布.根据定义1，可推出其概率密度为

(2)

2.2 正态分布与对数正态分布的比较

由上述定义可知，正态分布和对数正态分布非常相似，一个是随机变量本身服从正态分布，一个是随机变量取对数后服从正态分布，对数正态分布相当于正态分布经指数变换后得到，故对数正态分布有效区间为(0,+∞)；另外，对数正态分布不再是对称分布，且总是右偏分布，其分布均值和方差均发生了变化.下面列举一些这两种分布的数字特征和常用统计量：

①对正态分布的总体X有：

②对数正态分布的总体X有：

3 对数正态分布参数σ2的区间估计和最短区间估计

众所周知，对数正态分布是常见的一种右偏分布，由于它的非对称性，平时所求的同等置信区间并不是最短区间，下面就针对对数正态分布的一种情形进行讨论.

μ未知时求σ2的置信区间：

(3)

求解可得σ2的1-α等尾置信区间为：

(4)

(5)

在讨论最短置信区间之前，我们先引入几个引理：

引理2[6]若f(x)为单峰连续密度函数，设其支撑区间为(a,b)，x0∈(a,b)为极大值点，由极大值点定义可知，当x0；则对任意x1,x2∈(a,b)，且满足af′(x2)成立.

引理3[6]在引理2成立的条件下，若x1x0(或x0>x2)，使得f(x1)=f(x2).

引理4(介值定理[7]) 设f(x)为[a,b]上的连续函数，如f(m)为f(x)的最小值，f(n)为f(x)的最大值，对满足f(m)<μ

以下讨论对数正态分布的未知参数σ2的最短置信区间问题：

(6)

现考虑引入a、b，使得

3.精读。精读，就是潜心地读，反复地读。常言说得好：读书百遍，其义自见。精读的目的是从读中获得情感体验和创造性的理解，教师要引导学生学会抓住文章中的重点句、段进行朗读体会。

(7)

(8)

其中f(x,n-1)为χ2(n-1)的概率密度函数，为：

(9)

下面应用拉格朗日乘数法求解上述问题(8)的条件最值：

首先，建立拉格朗日函数为：

令L(a,b,λ)对a,b,λ求一阶偏导数令其等于0，可得其驻点，即：

化简得：

(10)

(11)

联立(10)、(11)可求得的解A(a*,b*)，即是所要求的驻点.

下面证明A点的存在性和唯一性：

(12)

对f(x,n-1)求一阶导数，得：

(13)

令上式(13)等于0，得x**=n-3；同时可得当x∈(0,n-3)时，f′>0，函数单调递增，当x∈(n-3,+∞)时，f′<0，函数单调递减，故x**也为函数的最大值点，即有：

(14)

故对于1-a∈(0,1)(0

成立.

4 实证对比研究

取2009-2018年10年内沪市上市公司股票市盈率(%)的数据(数据来源于EPS数据库)X如下：

28.73，21.61，13.40，12.30，10.99，15.99，17.63，15.94，18.16，12.49.

将这些样本数据取对数(Y=lnX)后如下：

3.36，3.07，2.60，2.51，2.40，2.77，2.87，2.77，2.90，2.52.

通过R语言进行正态性检验，发现Y服从正态分布.现求尺度参数σ2的传统区间估计和最短区间估计(α=0.05).

(15)

代入数值得[0.03997361061，0.28159161606]，区间长度为0.24161800545.而采用(4)、(5)求得的驻点，通过MATLAB软件计算得A=(3.3226357,3.3275426)，进而计算最短置信区间为[0.02285199895,0.22885746999]，区间长度为0.20600547104.

通过结果对比可知，运用最短置信区间法所计算的区间长度比运用传统区间估计法所计算的区间长度缩短了0.0356125344.综上研究，对于股票收益率来讲，区间缩短了0.0356125344，这样的估计结果更精准，说明文章所研究的最优区间估计法的实用价值.当然，对数正态分布在实际生活中的应用越来越广泛，当需要研究参数的最优区间估计时，上述最优区间估计法具有广泛的应用价值.