APP下载

最大熵原理及改进方法的研究现状

2022-04-18黄乾坤吴娅辉

计测技术 2022年1期
关键词:概率密度函数约束原理

黄乾坤,吴娅辉

(航空工业北京长城计量测试技术研究所,北京 100095)

0 引言

1865年德国物理学家Clausius首先提出了“熵”的概念,1948年Shannon提出了“信息熵”的概念并将其作为热力学的度量工具[1],之后学者们将“熵”的概念进一步推广到其他领域,形成了所谓的“广义熵”。1957年,统计物理学家Jaynes利用非热力学场的熵增原理提出了最大熵的概念[2-3],并给出了采用最大熵原理定量解决问题的一般方法,同时也利用最大熵原理证明了统计力学的一些分布函数。在1988年巴西物理学家C.Tsallis定义离散的Tsallis熵[4]之前,熵的讨论主要集中在广延统计学中,最大熵原理也是以Shannon熵为基础的。而由于Tsallis熵的非广延性,使得熵进一步推广到了非广延统计学中,学者们也开始了非广延统计学中Tsallis熵的研究[5-6]。这些研究使信息理论与统计物理建立起了相互联系,也使熵的概念从热力学中分离了出来。

应用最大熵原理的基本思想是:当只掌握有限信息时,应尽可能少地引入主观信息,也就是使熵最大化,并在满足已有信息作为熵约束的条件下,推导出随机变量集的概率分布。该方法被广泛应用于金融[8]、图像处理[9]、气象[10]等领域中,并展现出了巨大的实用价值和研究意义。近年来,最大熵原理也被引入计量领域,许多学者利用最大熵原理建立测量数据的概率密度分布模型,或进一步与贝叶斯方法结合,证明了最大熵原理在测量不确定度评定上的可用性和有效性[11-14]。

本文对存在和应用范围较广的Shannon最大熵原理进行阐述,介绍了最大熵原理改进方法的理论模型、计算公式、使用特点,并给出了最大熵原理约束选择、评价指标和优化算法等方面的总结与见解,为最大熵原理的进一步研究及应用提供指导与借鉴。

1 最大熵原理

在广延统计学和非广延统计学中,由于“熵”的定义不同,所推导得到的最大熵原理的内容也会不同;对于同一种“熵”,采用的约束类型不同,得到的最大熵原理的内容也会不同。本节首先介绍在两类统计学中各自主流“熵”下的最大熵模型,随后围绕Shannon熵介绍分数阶矩约束和秩约束下的最大熵原理。之后对求解最大熵优化问题的优化算法进行了阐述,经研究发现,优化算法的性能会对最大熵原理估计得到的结果产生影响,但由于其不是本文的论述重点,因此只进行必要的说明和整体的概述。

1.1 两种最大熵原理

1.1.1 Jaynes最大熵原理

Jaynes最大熵原理是建立在Shannon熵上的。设X为离散型随机变量,取值为{x1,x2,…,xn},相应的概率为P(X=xi)=pi(i=1,2…,n),则随机变量X的Shannon熵[6]为

且有

当X为连续型随机变量时,设其概率密度函数为f(x),则对应的Shannon熵[6]为

式中:Θ为积分空间,并有∫Θf(x)dx=1。

由上述H(x)的定义可知,熵的大小与概率的分布有关,在没有其他约束条件时,概率取均匀分布可以使H(x)最大,但这显然不具备太大的实用意义。为获得更准确的概率分布,需要从所掌握的信息中提取出pi或f(x)要满足的其他条件。选择随机变量的整数阶样本原点矩作为约束条件,对于连续型随机变量,由此构造的优化问题[15]为

式中:Mi为第i阶样本原点矩;m为采用的最高的样本原点矩的阶数;s.t.为使满足符号。对于式(4)的有约束优化问题,可采用拉格朗日乘子法将其转化为无约束优化问题,并可得到在熵值取得最大时,f(x)的解析式[15]为

式中:λi为采用拉格朗日乘子引入的待求解参数。将式(4)中的约束条件代入式(5)中,可进一步建立参数{λ1,λ2,…λm}解的方程组[15],即

记残差为Ri,可将上述方程组改写为非线性优化问题[15],即

采用最大熵原理求解概率密度函数的问题转化为了参数寻优问题,当残差平方和最小时,得到的λi为最优解,此时对应的熵也是在可求得解的空间中最大的。

这种建立在Shannon熵上,以整数阶样本原点矩为约束的Jaynes最大熵原理是最基本,且应用最为广泛的最大熵原理,一般称其为传统(经典)最大熵原理。

1.1.2 Tsallis最大熵原理

非广延统计学中,Tsallis熵的应用最为广泛,在非广延统计学中扮演着十分重要的角色。离散型的Tsallis熵[3]为

式中:q为非广延参数,用于衡量系统非广延程度的程度。当q→1时,Tsallis熵转化为Shannon熵[16],即

Tsallis最大熵原理是在Jaynes最大熵原理的基础上发展而来的。为方便论述,采取如下记法[16]

式中:y与x为变量;expq(lnq x)=lnr(expq x)=x。

于是离散型的Tsallis熵可以改写为如下形式[16]

对于连续的随机变量,Tsallis熵为[17]

以连续的随机变量为例,在分布未知时,选择随机变量的样本原点矩作为约束条件,构造的Tsallis熵最大熵优化问题为[17]

同样采用拉格朗日乘子法将其转化为无约束优化问题,可得到在熵值最大时,概率密度函数的解析式[17]为

吴贤东[17]给出了当随机变量概率密度分布已知时,多约束条件下Tsallis最大熵的推导过程,并对常见的分布(正态分布、对数正态分等)进行了Tsallis最大熵分布的求解。

1.2 约束的选择

1.2.1 基于分数阶矩约束的最大熵方法

Tagliani等在研究Hausdorff矩问题时,采用少数分数阶矩作为最大熵的约束条件来求解有限的Hausdorff矩问题,结果显示利用较少分数阶矩就能保证结果的精度,还可以修正因为采用大量积分矩而产生的畸变[18]。

以分数阶矩为约束条件,概率密度函数f(x)具有如下形式[18]

与经典最大熵原理类似,选择分数阶矩为约束条件的最大熵优化问题[18]为

式中:ai为统计矩阶数,是任意分数(或实数);E[xai]为x的分数阶统计矩。对该优化问题进行求解便可得到式(15)的具体表达式。

Zhang X等[19]将上述方法引入到结构可靠性分析中,结合降维处理实现了功能函数的分数阶矩估计,并进一步完善了分数阶矩约束下的最大熵原理求解概率密度函数的方法。

1.2.2 基于秩约束的最大熵方法

传统最大熵原理,如1.1.1节所述,通常采用随机变量的整数阶样本原点矩为约束条件来构造优化问题。虽然样本原点矩是总体矩的替代,但其仍包含了样本的统计信息。二阶矩反映了样本的均值和方差信息;三阶矩反映了样本的偏态信息;四阶矩反映了样本的峰态信息[20]。通常在样本量较大时,选择二到五阶矩就能较好地估计样本的概率密度分布。但在数据样本量很小时,样本矩所能提供的信息不够丰富和全面,所求得的概率密度分布可能与实际存在较大偏差。吕文[20]介绍了一种在小样本情况下采用秩来构造约束条件的最大熵方法,其中秩的分布[20]为

式中:ri为样本容量为n的顺序样本的i阶秩,其定义为

式中:oi为第i阶的顺序统计量;oi和ri均为随机变量。

由于f(ri)只与i和n有关,且随着n的增加,其形状会变得瘦而高。为便于处理,利用f(r i)的这个特点对其两端进行等面积的截断处理,使其剩下的面积为q,即需对F(oi)(F为对f的积分)增加上下界[20]

其中,bl和bh由以下公式求出[20]

因此,当给定q时,bl和bh也就相应确定了。根据以上边界条件,可得到基于秩约束的最大熵优化问题[20]

式中:di为顺序样本第i阶变量的x值;n为样本容量。对于上述优化问题,无法通过数学推导得到f(x)的理论分布,但可以采取合理近似法,将f(x)拟合为与传统最大熵一样的指数函数的形式

联合式(22)和式(23),再经优化求解便可得到f(x)。

1.3 优化求解方法

从1.1和1.2节中可以看出,无论基于何种熵、何种约束,优化问题的求解是最大熵原理应用的关键。余秀美等[21]采用基于非线性最小二乘法信赖域模型进行最大熵优化问题的求解;刘钰等[22]在研究基于密度核估计的最大熵方法中,采用序列二次规划方法进行优化问题的求解;姜瑞等[23]在研究贝叶斯方法在测量不确定度评定上的应用时,利用爬山算法实现了最大熵优化问题的求解;彭颖等[24]通过仿真数据和高层建筑地震数据验证了遗传算法求解最大熵原理下概率密度函数的有效性。

最大熵优化问题是一个典型非线性方程组(Nonlinear Equation Systems,NESs),因 此 针 对NESs求解的算法基本都能用于对它的求解。由于NESs广泛存在于网络通信、机械制造、神经网络、图形处理等众多领域[25-26],其求解算法发展已较为成熟,并可大致分为两类:基于梯度信息进行迭代的传统优化方法和基于群体优化的智能优化算法[27]。

传统优化算法包括牛顿法、共轭梯度法、最小二乘信赖域法、拟牛顿法、最速下降法等[28-29]。传统优化算法有着完备的数学理论依据,并且由于起源较早,研究和应用都较为成熟。但它们的不足也很明显:比较依赖初始点的选取;因算法迭代需要梯度信息,只能求解可微函数问题;对于多极值问题,容易陷入局部最优解问题。这些不足限制了传统优化算法在复杂问题求解领域的应用。

智能优化算法包括遗传算法[30-31]、模拟退火算法[32]、粒子群算法[33]等。智能优化算法通常从多点出发进行解的搜索,具有隐形的并行性。相比于传统优化算法,它们对初始点的选取往往不敏感;迭代过程也不使用梯度信息,对不可微NESs依旧适用;求解范围更广,不易陷入局部最优问题;并有着高效运算性和良好的鲁棒性。因此近年来智能优化算法受到了越来越多的关注,逐渐成为学者们的研究重点。然而这类算法也存在一些需要进一步解决的问题,包括:数学理论不够完善;算法收敛性的证明仍需继续研究;算法收敛速度还不够理想;NESs转化为约束问题的方法对求解的影响;多种算法混合应用以提高求解效率的研究等[27]。罗宇婷等[34]对智能优化算法进行了较为详尽的归纳和细分,并通过测试函数对几种应用广泛的主流算法进行了横向性能比较。

2 最大熵原理改进方法

2.1 基于转换函数法的最大熵原理

最大熵方法的计算过程涉及大量积分计算,而在使用计算机计算这些往往需要通过数值积分方法计算的积分时,积分区间的上下限无法像理论上那样取到无穷大。在实际计算时,如失效概率的计算,通常会选取一个以均值为中心,以十倍方差为半宽的区间[μ-10σ,μ+10σ]来进行近似计算,而这会直接引入截断误差。在概率密度函数形状集中于中心线附近时,截断处理所截掉的面积占比很小,即引入的误差很小,对结果的影响可以忽略不计。但当概率密度函数形状平而宽时,截断处理引起的误差往往是不能忽略的,甚至将导致计算结果不收敛。为了解决这个问题,李昊燃等[35]提出了一种基于转换函数的最大熵方法。

首先为了将概率密度函数的定义域由(-∞,+∞)转化为有限区间,引入具有单调性的三角函数来对定义域进行非线性变换。引入的三角变换如下[35]

式中:x∈(-∞,+∞),y∈(-1,1)。其逆变换为

式中:k为变换系数。调整k的值可以改变x和y的变换关系,如图1所示。可以看出,随着k值的增大,变换曲线逐渐变缓,y的取值也相应变小。故可根据所求问题来调节k值。

图1 不同k值下x与y的变换关系示意图[35]Fig.1 Schematic diagramof transformation relationship between x and y under different k values[35]

在此变换下,概率密度函数变换的关系为[35]

将上述三角变换代入概率密度函数中,完成变量的替换,此时Θ∈(-a,a),a为正实数,经函数变换后,最大熵原理优化问题表述如下

这种改进方法既避免了截断误差的引入,又能在一定程度上提高计算精度和计算结果的稳定性,通常不引入过高阶矩信息即可得到较精确的结果。

2.2 基于密度核估计的最大熵原理

传统最大熵原理在m取值较大时,除了求解困难会增加外,所估计得到f(x)也会更不易满足概率密度函数的基本条件

如图2所示,在3阶矩约束下得到概率密度函数曲线,无论数据的偏度如何,都会出现某一侧曲线陡增的情况,而在这些地方f(x)显然是不可积的,但截断处理又会额外增加截断误差。

图2 3阶矩最大熵密度函数不可积示意图[22]Fig.2 Schematic diagramof non-integrability of maximum entropy density function of third-order moment[22]

如果能使求f(x)满足式(28)的条件,可以在很大程度上减少截断误差。为此可以引入密度函数核估计[22]。与转换函数法变换积分区间不同,密度核函数的引入可以在原理上保证所求的概率密度函数满足其基本性质。该方法对规则或不规则、单峰或多峰分布都能够有较好的估计,且在样本量足够丰富时,能以任意精度收敛到任何未知复杂分布[36]。具体原理如下:

设K(u)为R上的给定概率密度函数,其满足概率密度函数的基本条件[37]

式中:pn(x)为总体密度函数p(x)的一个核估计;n为核密度的数量;hi>0为窗宽;αi为各个核函数的权重[38-39],并有…,n。Parzen E[36]证明了总体密度函数p(x)是一个满足式(28)条件的合理函数。

将核估计函数pn(x)代入到经典最大熵原理信息熵的定义中,则有[22]

选择整数阶样本原点矩作为约束,则最大熵优化问题为

以服从对数正态分布的概率密度函数为例说明实施该原理的一般过程[37],即

式中:x>0;-∞<μ<∞;σ>0。选用正态窗函数[22]

则总体pn(x)的核估计为[37]

为保证αi满足其取值要求,同时使待优化参数的取值空间为实数空间,进行之下变换[37]

式中:βi∈R。最终总体密度函数fln(x)的核估计变换为[37]

选取适当的n后,可确定未知参数的个数,再通过优化算法求解即可确定pn(x)的具体表达式。理论上n值越大,结果估计的越好,但同时也会增加算法的复杂度。

通过引入密度核的方法,来解决传统最大熵方法求得的概率密度函数不严格可积的问题,在避免截断误差的同时,也能在一定程度上提高估计结果的精度。

除以上两种方法,还有一类面对具体分布的改进方法:利用共轭分布法与最大熵原理结合的共轭最大熵。Savchuk V.P和Martz H.F[40]就二项分布情形,讨论了共轭分布与最大熵原理相结合确定先验分布的方法;詹昊可等[41]在Savchuk V.P的方法不适合指数分布的情况下,给出了一种新的解决思路,在多元先验信息下,讨论了共轭最大熵先验下的贝叶斯估计。

3 结论

本文根据目前已有的研究情况,对以Shannon熵为基础的最大熵原理进行了介绍,阐述了经典最大熵原理的基本内容,讨论不同约束条件下最大熵优化问题的一般形式,分析了针对经典最大熵不足的改进方法,对最大熵原理的进一步研究应用起到了促进作用。最后结合实践对最大熵原理的研究与应用现状提出以下见解:

1)在约束的选择上,目前的应用依旧以整数阶样本原点矩为主。分数阶矩约束虽已被证明有效,但应用场景比较单一,需其在更多样问题上的应用研究,以进一步检验或改善其性能。秩约束虽然在理论上能解决样本矩在样本量过小时无法提供足够样本信息的问题,但提出该方法的学者也认为秩约束尚缺乏实际验证,因此应多开展相应的实用性研究。此外,在样本量较少时,利用统计学方法对样本数据进行扩充后再选取矩约束是否可取得理想的结果也缺乏相关研究。

2)在估计结果f(x)的评价上,目前主要有两种评价方法:①考察估计的f(x)与理论曲线接近程度;②直接考察f(x)统计量(如均值、方差)与理论值的接近程度。方法①适用于样本量较大且理论曲线平而宽的对象,并能够得到均值、方差等信息。对于方法②,由于理论值往往是未知的,因此还需要利用残差平方和从侧面考察f(x)。但对于不同的问题,残差平方和的大小是不同的,因此需要进行具体研究,以指导使用者通过残差平方和的值来判断求得的f(x)是否已达到最优。

3)最大熵原理得到的结果与优化问题的求解关系甚大。目前传统优化算法虽然能够求解最大熵优化问题,但存在初始值选择较繁琐,结果不稳定的问题,并且容易出现局部极小值问题。因此需要开展智能算法求解最大熵优化问题的研究。智能算法在很大程度上突破了传统优化算法的局限性,但在求解密度核最大熵优化问题时,由于其参数较多,且不宜转化为无约束优化问题,智能算法尚未得到实际应用,因此未来需要开展相关研究,以便更有效地求解密度核最大熵优化问题。

4)在计量领域,学者们已经展开了最大熵原理在测量不确定度评定中的应用研究。但随着研究的深入和评定对象复杂度的增加,经典最大熵原理的局限性会对评定结果产生影响,因此需要展开最大熵原理改进方法在测量不确定度评定领域的应用研究,以扩大适用范围、提升评定结果的可靠性。

猜你喜欢

概率密度函数约束原理
幂分布的有效估计*
基于包络解调原理的低转速滚动轴承故障诊断
了解咳嗽祛痰原理,有效维护健康
已知f(x)如何求F(x)
基于变构模型的概率密度函数的教学探索
马和骑师
适当放手能让孩子更好地自我约束
非高斯随机分布系统自适应控制算法的研究
CAE软件操作小百科(11)
祖暅原理的推广及应用