APP下载

基于样本协方差矩阵的多维随机数生成方法

2014-07-24孙梦哲包研科

纯粹数学与应用数学 2014年6期
关键词:样本容量正态正态分布

孙梦哲,包研科

基于样本协方差矩阵的多维随机数生成方法

孙梦哲,包研科

(辽宁工程技术大学理学院,辽宁阜新123000)

对于概率模型未知的多维数据样本容量扩充问题,根据主成分分析原理以及多维正态分布的性质,讨论并给出了与已知多维样本数据有相同协方差结构的模拟数据生成算法,并在此基础上给出了变量的离散化处理方法.实现了在小样本数据基础上不改变变量间协方差结构的样本容量扩充,为小样本条件下的数学建模、检验和分析提供样本数据支撑.

多维数据;样本协方差矩阵;模拟;离散化处理

1 引言

通常,在各方面条件限制的情况下,由观察或试验得到的样本容量总是有限的.这些容量有限的样本有可能不足以支撑试验结论的验证或数学模型的建立.因此,当样本容量不够所需时,有必要通过模拟样本数据来扩充样本容量.

对于一维样本数据的模拟,大致可分为两种情形.一种是在概率模型和先验知识已知的情况下,生成与样本数据同分布的模拟数据.此类问题属于经典的蒙特卡洛模拟问题,相关论述与文献资料[1-5]较为丰富,较为权威的书籍如参考文献[6].另一种情形是对动态时间序列的模拟,此类问题的相关讨论也较为充分.此类问题的共同技术特征是先提取出时间序列的趋势特征、周期性特征等,之后再通过适当的加噪技术生成模拟数据[7-8].

然而,多维样本数据的模拟问题就复杂多了,文献中偶有讨论,且模拟过程多集中在几种特定类型的概率分布模型下进行.同样,在概率模型和先验知识未知的情况下,如何模拟出满足问题所需的样本数据,目的或旨意明确的文献较为匮乏.本文研究在已有样本数据的基础上生成模拟数据,使其在容量扩充的同时,保证模拟数据的协方差结构与样本数据的协方差结构一致,即协方差矩阵统计相等.

2 样本数据的模拟原理

本文借鉴平稳随机过程研究,以正态过程为“模特”的思想方法,在确保模拟数据与样本数据协方差结构统计相等的条件下,赋予模拟数据以正态性,方便进一步的统计分析.

2.1 问题的数学描述

设p维随机向量Y=(Y1,Y2,···,Yp),其协方差矩阵ΣY是非对角阵.通常,模拟生成容量为N的Y的样本数据矩阵时,ΣY一般未知.

本文讨论由线性变换Y=AX+µ和Y(0)生成容量为N的Y的模拟数据矩阵

的方法,其中N≫n,µ=E(Y),X=(X1,X2,···,Xp),

显然,这一问题的关键是求变换矩阵A,使得其中S1是Y(1)的协方差矩阵,µ1是Y(1)的均值向量.

2.2 模拟数据的生成

由于在Y=AX+µ与Y=AX下,ΣY始终不变(ΣY=AΣXAT).因此,本文的讨论在Y=AX下进行.

注意到ΣY为非对角阵,而ΣX为对角阵的特征,若令X=BY,则求变换矩阵B的问题可转化为在ˆΣY=S0条件下的主成分分析问题.根据主成分分析原理以及多维正态分布的性质[9],由线性变换Y=AX+µ和Y(0)生成Y(1)的算法如下:

(1)求S0=cov(Y(0))与µ0=E(Y(0));

(2)求S0的特征值与单位正交化特征向量,记S0的特征值λ1,λ2,···,λp对应的单位正交化特征向量为β1,β2,···,βp,不妨按λ1≥λ2≥···≥λp≥0排序;

(3)令B=(β1,β2,···,βp);

(4)令A=B−1;

(5)令ΣX=diag(σ21,σ22,···,σ2p),其中σ2i=λi,i=1,2,···,p;

(6)由计算机生成p维正态随机向量X~Np(0,ΣX);

(7)计算Y(1)=AX+µ0.

在上述算法中由主成分分析原理可证ΣY=BΣYBT,其中B为正交阵,B−1=BT,于是ΣY=BΣXBT,即A=B−1;又由多维正态分布的线性变换不变性,若X~Np(0,ΣX),则Y(1)=AX+µ0~NN(µ0,AΣXAT).

容易证明,模拟数据的生成算法具有如下性质:

(1)协方差结构不变,即样本数据矩阵Y(0)与模拟数据矩阵Y(1)的协方差矩阵统计相等;

(2)样本数据矩阵Y(0)与模拟数据矩阵Y(1)的均值统计相等;

(3)无论样本数据矩阵Y(0)来自怎样的分布,Y(1)都将被赋予额外的正态性.

其中,性质(1)与性质(2)是判定模拟数据是否可以实际应用的准则,判定程序是如下两个检验条件:

(1)检验假设H0:S1=S0.

(2)检验假设H0:µ1=µ0.

若两个检验均不能拒绝H0,则Y(1)可用.由于算法中µ0=E(Y(0)),X~Np(0,ΣX)且Y(1)=AX+µ0,故(2)即均值向量统计相等的检验可以省略.Y(1)额外的正态性能方便进一步计算误差或决策风险等问题的定量分析.

3 模拟数据的离散化处理方法

由于研究问题的背景不同,样本数据各维度变量的含义也不同.因此,有些变量取连续值,如长度、深度等;有些变量则取离散值,如等级、类型等.上节介绍的方法只适用于生成取连续值变量的模拟数据,若要生成取离散值变量的模拟数据,则需要对这类变量的模拟数据进行离散化处理.

设Y中第j个维度的变量Yj(j的可能取值为1,2,···,p)取m(m≤n)个不同的离散值,k=1,2,···,m,不妨按<<···<排序.Yj在Y(0)上的经验分布为:

对上节模拟数据矩阵Y(1)的第j列可按如下方法进行离散化处理:

(1)在Y(0)上统计,k=1,2,···,m的累积频率:

(3)模拟Yj的离散化取值.

设Y(1)中第j列的第i个模拟数据为,i=1,2,···,N.令

4 模拟示例与检验

为方便读者理解,以下以两个实际问题的采样数据为例,生成各样本数据的模拟数据,并对需要离散化处理的数据进行离散化处理,同时完成模拟数据与样本数据的正态性检验与协方差矩阵相等性检验.

4.1正态分布样本数据的模拟

1.绘制数据散点图

现有平顶山矿区井下采煤6维瓦斯相关样本数据,见表1.

表1 平顶山矿区井下采煤瓦斯相关样本数据

样本数据与模拟数据的散点图见图1.其中,模拟数据容量N=500(模拟数据略),已经过离散化处理.

图1 样本数据与模拟数据的散点图

2.正态性检验

通常,多维数据的正态性检验采用χ2图评估法,χ2图的绘图与检验原理可参见文献[9].

一般情况下,如果χ2图中数据的χ2点散布在一条直线附近,则认为多维数据呈正态分布;如果数据的χ2点有明显的弯曲,则认为多维数据是非正态的.有时在χ2图末端会出现个别点偏离直线的情形,但不影响多维数据正态性的判断.

样本数据与模拟数据的χ2图见图2.由图2可知,样本数据与模拟数据都近似为正态分布.

图2 样本数据与模拟数据的χ2图

3.协方差矩阵相等性检验

通过比较图1中(a)与(b)可得,样本数据与模拟数据协方差结构相似.样本数据与模拟数据的协方差结构是否统计相等,通常运用Box-M方法[9]进行检验.

检验的原假设H0与备择假设H1分别为:

Box-M检验以似然比统计量

为基础构造H0的检验统计量:

其中,

本例中,Y(0)与Y(1)的协方差矩阵分别为:

经统计计算得到,在α=0.05显著性水平下,统计量C=0.47<(21)=32.67,故接受H0,即样本数据与模拟数据协方差矩阵相等.

4.2 非正态分布样本数据的模拟

1.绘制数据散点图

现有辽东地区某河流5维水质样本数据,见表2.

表2 辽东地区某河流水质样本数据

样本数据与模拟数据的散点图见图3.其中,模拟数据容量N=100(模拟数据略),无需离散化处理.

图3 样本数据与模拟数据的散点图

2.正态性检验

样本数据与模拟数据的χ2图见图4.由图4可知,样本数据为非正态分布,而模拟数据近似为正态分布.因此,模拟数据生成算法的性质(3)得到了证明,即无论样本数据矩阵Y(0)来自怎样的分布,Y(1)都将被赋予额外的正态性.

图4 样本数据与模拟数据的χ2图

3.协方差矩阵相等性检验

本例中,Y(0)与Y(1)的协方差矩阵分别为:

经统计计算得到,在α=0.05显著性水平下C=0.56<(7)=24.99,故接受H0,即样本数据与模拟数据协方差矩阵相等.

5 结论

本文根据主成分分析原理以及多维正态分布的性质,构造了如何生成同协方差结构的模拟数据的方法,通过上述实例有效地验证了该方法的正确性及有效性.

[1]赵琪.Gibbs方法在产生多维随机数中的应用[J].中国科技信息,2008(3):246.

[2]宋艳.多维联合概率的随机模拟技术及其工程应用[D].中国海洋大学:图书馆,2004.

[3]崔海蓉,胡小平.高效率多维离散分布随机数生成算法[J].甘肃科学学报,2010,22(2):114-116.

[4]张朋,邱振国.基于单纯形分布的比例数据的回归分析[J].中国科学:数学,2014,44(1):89-104.

[5]王萍.一种修正的PS方法及其在产生相关正态随机数中的应用[D].大连理工大学:图书馆,2005.

[6]刘军.科学计算中的蒙特卡洛策略[M].北京:高等教育出版社,2009.

[7]张熙.含有周期性的时间序列中连续型缺失数据的填补方法[J].中国卫生统计,2012,29(3):318-321.

[8]黄洁.有限非平稳时间序列的模拟方法[D].苏州大学:图书馆,2012.

[9]包研科.数据分析教程[M].北京:清华大学出版社,2011.

Multidimensional random number generating method based on the sample covariance matrix

Sun Mengzhe,Bao Yanke
(Collage of Science,Liaoning Technical University,Fuxin123000,China)

For multidimensional data probability model of the unknown sample capacity expansion problem, according to the principle of principal component analysis and the properties of multidimensional Gaussian distribution,we discuss and give the multidimensional samples with known data simulation data with the same covariance structure generation algorithm,and we give the discretization processing method on the basis of the variables.We realize the expansion of sample capacity without changing the covariance structure between variables basing on small sample data.Furthermore,the algorithm supports the mathematical modeling,testing and analysis under the condition of small samples.

multidimensional data,sample covariance matrix,simulation,discretization processing

O29

A

1008-5513(2014)06-0610-08

10.3969/j.issn.1008-5513.2014.06.010

2014-07-03.

国家自然科学基金(71371091).

孙梦哲(1989-),硕士生,研究方向:数据分析.

2010 MSC:03G27

猜你喜欢

样本容量正态正态分布
关于n维正态分布线性函数服从正态分布的证明*
利用二元对数正态丰度模型预测铀资源总量
采用无核密度仪检测压实度的样本容量确定方法
分层抽样技术在课堂满意度调查中的应用研究
基于对数正态分布的出行时长可靠性计算
双幂变换下正态线性回归模型参数的假设检验
正态分布及其应用
关于二维正态分布的一个教学注记
基于泛正态阻抗云的谐波发射水平估计
基于直觉正态云模型和最优变权的变压器绝缘状态评估