APP下载

基于EM算法的Dirichlet分布的参数估计

2022-01-05葛文秀

关键词:估计值样本量参数估计

吴 琴,葛文秀

(华南师范大学数学科学学院,广东 广州 510631)

0 引言

成分数据是记录观测数据相对关系的多维数据,在科学研究和日常生活中经常用到,比如地质学中岩石的组成成分比例、家庭消费模式中不同类别所占百分比等.Dirichlet分布是处理成分数据的重要工具,但是由于随机变量各分量之间非负定和的约束限制,其统计分析具有较大的难度,传统的参数估计方法算法复杂且不能保证有效性,极大地限制了其统计分析的进展.许多学者致力于Dirichlet分布的研究.张尧庭[1]详细给出了Dirichlet分布[2]参数估计的算法,但是其提出的算法由于计算复杂且不能保证是有效估计(非负参数的估计值为负值)从而限制了其应用.Hijazi等[3]给出了如何计算Dirichlet回归模型参数的极大似然估计,但是其使用的Newton-Raphson算法严重依赖初值的选取而且存在不收敛的缺陷.Ma[4]提出了Dirichlet分布的Bayes估计,但有时存在参数不可估的现象.为了克服上述缺点,得到Dirichlet分布参数的有效估计,本文将根据Dirichlet分布的性质提出其随机表示[5],通过随机表示的具体形式引入缺失数据,构造Dirichlet分布参数估计的EM算法[6].本文提出的EM算法,不仅不依赖于初值的选取,而且能保证得到的估计为正数,也就是有效估计.最后,统计模拟结果表明,本文方法得到的估计精度良好,即使样本量不大(比如n=20),估计的偏差也是可以接受的,当样本量n=500的时候,估计值非常接近真实值.

1 预备知识

定义1[5]称m维随机向量X=(X1,…,Xm)T服从参数是α=(α1,…,αm)T的Dirichlet分布,记为X~Dirichlet(α),如果其概率密度函数如下:

其对数似然函数为

2 理论和方法

2.1 理论基础

从引理1中可以看出,Gamma分布中的参数β在Dirichlet分布中消失了.基于引理1,可以构建如下随机表示:

证明令引理1中的β=1即可.

引理2的证明可参考文献[1].

利用引理2的结论做变换Yj=sxj即可得到引理3的结论,变换的雅可比行列式为1/xj.

定理1 若X=(X1,…,Xm)T服从参数为α=(α1,…,αm)T的Dirichlet分布,X为观测数据,Y=(Y1,…,Ym)T为X的基向量,即Yj~Gamma(αj,1),j=1,…,m.则

证明

2.2 Dirichlet参数的极大似然估计

EM算法的M步为求解完全数据的对数极大似然关于参数求偏导的方程组:

但上述方程组没有显式解,用Newton-Raphson迭代法求解,具体迭代方法为

E步为求基于观测数据下缺失数据logyij的条件期望,由定理1得:

3 统计模拟

表1 不同参数下EM算法估计的模拟结果

从表1的结果中可以看出,即使样本量很小(n=20),EM算法得到的估计的偏差也是可以接受的,当样本量n=100的时候,估计的误差已经很小了,当n=500的时候,估计值非常接近真实值.此外,对于m=2和m=3两种情况对比,发现估计的功效差别不大.实际上,本文尝试了m取其他值的情况,比如m=5,其模拟结果显示功效与m=2时并无明显差异.可见本文所提出的EM方法估计精度不会随着m的增大而降低.

猜你喜欢

估计值样本量参数估计
卡方检验的应用条件
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
云上黑山羊生长曲线拟合的多模型比较
网络Meta分析研究进展系列(二十):网络Meta分析的样本量计算及精确性评估
地震动非参数化谱反演可靠性分析
家系抽样大小对云南松遗传力估算的影响
基于参数组合估计的多元控制图的优化研究
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
EM算法在闪烁噪声分布参数估计中的应用
如何快速判读指针式压力表