基于EM算法的Dirichlet分布的参数估计

2022-01-05葛文秀

东北师大学报（自然科学版） 2021年4期

吴琴，葛文秀

(华南师范大学数学科学学院，广东广州 510631)

0 引言

成分数据是记录观测数据相对关系的多维数据，在科学研究和日常生活中经常用到，比如地质学中岩石的组成成分比例、家庭消费模式中不同类别所占百分比等.Dirichlet分布是处理成分数据的重要工具，但是由于随机变量各分量之间非负定和的约束限制，其统计分析具有较大的难度，传统的参数估计方法算法复杂且不能保证有效性，极大地限制了其统计分析的进展.许多学者致力于Dirichlet分布的研究.张尧庭[1]详细给出了Dirichlet分布[2]参数估计的算法，但是其提出的算法由于计算复杂且不能保证是有效估计(非负参数的估计值为负值)从而限制了其应用.Hijazi等[3]给出了如何计算Dirichlet回归模型参数的极大似然估计，但是其使用的Newton-Raphson算法严重依赖初值的选取而且存在不收敛的缺陷.Ma[4]提出了Dirichlet分布的Bayes估计，但有时存在参数不可估的现象.为了克服上述缺点，得到Dirichlet分布参数的有效估计，本文将根据Dirichlet分布的性质提出其随机表示[5]，通过随机表示的具体形式引入缺失数据，构造Dirichlet分布参数估计的EM算法[6].本文提出的EM算法，不仅不依赖于初值的选取，而且能保证得到的估计为正数，也就是有效估计.最后，统计模拟结果表明，本文方法得到的估计精度良好，即使样本量不大(比如n=20)，估计的偏差也是可以接受的，当样本量n=500的时候，估计值非常接近真实值.

1 预备知识

定义1[5]称m维随机向量X=(X1，…，Xm)T服从参数是α=(α1，…，αm)T的Dirichlet分布，记为X～Dirichlet(α)，如果其概率密度函数如下：

其对数似然函数为

2 理论和方法

2.1 理论基础

从引理1中可以看出，Gamma分布中的参数β在Dirichlet分布中消失了.基于引理1，可以构建如下随机表示：

证明令引理1中的β=1即可.

引理2的证明可参考文献[1].

利用引理2的结论做变换Yj=sxj即可得到引理3的结论，变换的雅可比行列式为1/xj.

定理1 若X=(X1，…，Xm)T服从参数为α=(α1，…，αm)T的Dirichlet分布，X为观测数据，Y=(Y1，…，Ym)T为X的基向量，即Yj～Gamma(αj，1)，j=1，…，m.则

证明

2.2 Dirichlet参数的极大似然估计

EM算法的M步为求解完全数据的对数极大似然关于参数求偏导的方程组：

但上述方程组没有显式解，用Newton-Raphson迭代法求解，具体迭代方法为

E步为求基于观测数据下缺失数据logyij的条件期望，由定理1得：

3 统计模拟

表1 不同参数下EM算法估计的模拟结果

从表1的结果中可以看出，即使样本量很小(n=20)，EM算法得到的估计的偏差也是可以接受的，当样本量n=100的时候，估计的误差已经很小了，当n=500的时候，估计值非常接近真实值.此外，对于m=2和m=3两种情况对比，发现估计的功效差别不大.实际上，本文尝试了m取其他值的情况，比如m=5，其模拟结果显示功效与m=2时并无明显差异.可见本文所提出的EM方法估计精度不会随着m的增大而降低.