APP下载

基于Copula理论的学生成绩平均值和中位数的分布特征研究

2016-05-10张晓宇徐付霞天津工业大学理学院天津300387

大学数学 2016年1期
关键词:中位数平均值

张晓宇, 徐付霞(天津工业大学理学院,天津300387)



基于Copula理论的学生成绩平均值和中位数的分布特征研究

张晓宇, 徐付霞
(天津工业大学理学院,天津300387)

[摘 要]用高斯混合模型拟合82个班级2296名学生的考试成绩分布数据.用正态分布拟合考试成绩的平均分和中位数成绩,研究两者间的相关性度量和相关结构,得到均值和中位数的联合分布函数.对两个描述集中趋势的统计量的概率统计特性进行了完备刻画.

[关键词]混合高斯模型;平均值;中位数;相关结构

1 引 言

平均值是常用的数据中心趋势度量,它对非常大或非常小的观测值较敏感,偏向尾部较厚的方向.中位数是中心趋势的耐抵性度量,它不受极端观测值的影响,对于偏度极大的数据集,中位数能够较好地描述数据分布的中心.对于有一点偏度或者没有偏度的丘型分布,均值和中位数近似相等.由于均值比中位数具有更好的数学性质,因此在推断方法中,常用均值作为中心趋势的度量,当这两个量同时用在数据的统计分析中时,就是对数据中心的很好描述.

学生成绩一般不服从对称的正态分布[1].我们调研整理了82个班级,2296名大学生的高等数学考试成绩数据,统计分析显示数据不服从正态分布,可用混合高斯模型拟合学生成绩的分布密度函数.进一步统计计算每个班级考试成绩的平均分和中位数成绩,得到82组成绩数据,研究这82个平均分或中位数成绩的分布,发现它们均服从正态分布.再研究两者间的相关性度量和相关结构,就可以得到均值和中位数的联合分布函数.这样就对两个描述集中趋势的统计量的概率统计特性进行了完备刻画.

2 学生成绩的高斯混合分布模型

82个班级,2296名大学生的高等数学考试成绩数据的几个描述性统计量值如表1,成绩分布的频率直方图如图1.

表1 学生成绩数据的描述性统计量

数据的峰度系数为3.342(>3),偏度系数为-0.986(<0),说明学生成绩的分布是尖峰厚尾左偏的.再对数据做Kolmogorov-Smirnov正态性检验的P值很小,为2.4433×10-31,说明数据与正态分布偏差很大.下面用高斯混合模型拟合学生成绩的分布密度.

高斯混合模型GMM(Gaussian Mixture Model)就是一些高斯(正态)分布的加权组合,其概率密度函数为

图1 成绩分布的频率直方图

其中参数μzi,σzi,i=1,2,…,N分别为第i个高斯成分的均值和方差,πi是第i个高斯成分的系数,满足可用EM算法估计这些参数.

EM(Expectatioin-Maximalization)是一种聚类算法,可以求出高斯分布的参数,同时将数据分类[2].混合模型聚类常通过贝叶斯信息准则(BIC)选择模型,模型的BIC值越大,该模型就越符合实际.

用R软件mclust包中的Mclust函数对成绩数据进行聚类并估计参数[3],比较聚为1到8类时的BIC值,见表2.可见当聚为4类时,BIC值最大,为-19901.21,此时的8个参数估计值见表3(这里π1+π2+π3+π4=1,且为了简化模型,假定各类方差相等).

表2 不同聚类个数的BIC值

表3 N=4模型的参数估计值

将表2的数据代入(1)式,就得到学生成绩的分布密度函数为

3 平均值和中位数的拟合正态分布

82组平均分珡X和中位数m0.5数据的统计描述见表4的第2,3行,频率直方图见图2.表4显示,平均分珡X的最大观测值是88分,最小值是39.63分,说明考试成绩的差别还是比较显著的.中位数m0.5最大观测值是95.5分,最小值是27.75分,比较平均分与中位数的几个成绩指标,发现大体上平均成绩小于中位数成绩,说明学生成绩的分布基本上是负偏态的,即成绩好的多一些.

表4 平均分珡X和中位数m0.5成绩的基本统计量

图2 平均数、中位数的直方图和正态密度曲线

虽然2296个原始成绩数据不服从正态分布,但是由图2可看出82个平均分或中位数数据有可能服从正态分布.对平均分和中位数分别作均值为67.57,标准差为10.57和均值为71.66,标准差为12.38的Kolmogorov-Smirnov正态性检验,检验的p值分别为0.2017和0.6283,说明两者均服从正态分布,即

可以将(3)和(4)式作为中位数和平均值的边缘分布,下面研究它们的相关性.

通过计算,学生成绩数据的平均值和中位数的线性相关系数为0.956,和谐性度量Kendall秩相关系数为0.848,Spearman秩相关系数为0.962.说明平均分成绩和中位数成绩之间存在较强的单增相关关系[4].为了更全面深刻地刻画中位数和平均值的相关关系,下面利用相关结构函数Copula对两者的相关性进行分析[5].

4 平均值和中位数的相关结构

先选用3类5种常用的Copula函数族进行分析,再从中挑选出与数据拟合程度较好的一种Copula.

(i)Gaussian Copula(其中α是相关参数)

(ii)t Copula(其中ρ是相关参数,k表示自由度)

Clayton Copula

(iii)Archimedean Copula族(其中β是相关参数)Gumbel Copula

Frank Copula

半参数估计是用样本经验分布函数代替边缘分布,估计Copula函数中未知参数的方法[6].其表达式为

其中θ为待估参数向量,ui,vi分别为随机变量X,Y的经验分布函数,c(ui,vi;θ)为Copula的密度函数.运用半参数法求得学生成绩的平均值和中位数的五种Copula参数估计值如表5.

表5 5种Copula函数的参数估计值

画出平均分和中位数的二元频数分布直方图,见图3.可以看出它们的下尾相关性较强,上尾相关性较弱,具有不对称的尾部分布.说明学生考试成绩的平均分和中位数对于下尾数据即较差的考分较敏感.

进一步,求解上述5种Copula函数的参数和相关系数等相关性测度指标如表6.由表6可见,5种Copula的两种秩相关系数Kendall’sτ与Spearman’sρ与样本学生成绩的两种秩相关系数τ=0.848,ρ =0.962较接近.Clayton Copula的下尾相关系数较大,上尾相关系数为0,图4显示其密度函数的尾部特征与图3较一致,所以初步认为Clayton Copula适合用来描述学生成绩的平均分和中位数之间的相关关系.

图3 平均分和中位数的频数分布直方图

图4 Clayton Copula密度函数图

表6 Copula函数的相关性测度指标

再根据距离公式[7]

表7 5种拟合Copula与经验Copula函数的欧氏距离

由表7中数据可以看出,Clayton Copula与经验Copula函数的欧氏距离最小,即误差最小,所以我们选择参数为β=8.5806的Clayton Copula函数(8)式来描述学生成绩的平均分和中位数之间的相关结构,即

由Sklar定理[5],(12)式和平均分的拟合分布(3)式、中位数的拟合分布(4)式一起构成了平均分和中位数的联合分布函数:

上述联合分布函数(13)式是对平均值和中位数之间关系的较完备刻画.比如平均分小于其平均值67.57,同时中位数小于其平均值71.66(数据见表4)的概率为F(67.57,71.66)=0.4613,同理可以求出平均分和中位数同时小于各自最小值、1/4分位数、中位数、3/4分位数、最大值的概率值,数据见表4的最后一行.

可以预见,本文所述方法还可应用于经济金融数据的统计分析,如分析城镇职工的工资水平等,将平均工资和中位数工资结合起来进行分析,可能会得到更加客观的结论.

[参 考 文 献]

[1] 尹向飞.基于混合正态分布的大学生考试成绩分布的拟合[J].统计与决策,2007(8):133-135.

[2] Aitkin M,Wilson GT.Mixture models,Outliers,and the EM algorithm[J].Technometrics,1980(22):325-331.

[3] 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

[4] 徐付霞,董永权.泥石流地貌要素的极值相关性[J].系统工程理论与实践,2009,29(2):180-185.

[5] Nelsen R B.An Introduction to Copulas[M].New York:Springer,1999.

[6] G Kim,M J Silvapulle,P Silvapulle.Comparison of semiparametric and parametric methods for estimating copulas[J].Computational Statistics &Data Analysis,2007(51):2836-2850.

[7] 李玉敦,谢开贵,胡博.基于Copula函数的多维时序风速相依模型及其在可靠性评估中的应用[J].电网技术,2013 (3):840-846.

The Dependence Between Mean and Median Score of Students and the Establishment of Composite Indicator

ZHANG Xiao-yu, XU Fu-xia
(School of Mathematics and Physics,Tianjin Polytechnic University,Tianjin 300387,China)

Abstract:The Gaussian mixture model is applied to fit the distribution of 2296students’score in 82classes.Then we fit the distribution of median and mean score use the normal distribution.We study the dependence measures and copula between median and mean statistics and get the joint probability density function of them.We provide a complete depiction of the two statistics’probabilistic properties which represent the central tendency.

Key words:Gaussian mixture model;mean;median;copula

[收稿日期]2014-11-15

[中图分类号]O212.5

[文献标识码]B

[文章编号]1672-1454(2016)01-0056-05

猜你喜欢

中位数平均值
平均值的一组新不等式
数据的数字特征教学设计
由时变Lévy噪声驱动的随机微分方程的平均值原理
中位数计算公式及数学性质的新认识
巧用1mol物质作标准 快速确定混合物组成
变力做功时运用F=F1+F2/2的条件
中位数教学设计
平面图形中构造调和平均值几例
导学案不能沦落为“习题单”:以“中位数和众数”的导学案为例
2007/2008年度桑蚕干茧质量分析报告