APP下载

基于3δ原则和箱线图法的更换变压器技改工程造价区间估计

2018-01-08李建青张云云康健

中国科技纵横 2018年23期
关键词:置信区间线图正态分布

李建青 张云云 康健

摘 要:更換变压器工程是生产技改工程的重要组成部分,分析工程造价合理性,往往需要参考已施过的工程造价数据,在对过去样本进行数据整理过程中,为获得合理投资区间,需要对异常数值进行筛选剔除。本文通过3δ原则和箱线图法对更换变压器工程单位造价进行数据整理,获得合理造价区间,为项目立项、投资计划制定提供参考。

关键词:更换变压器工程;数据整理;3δ原则;箱线图法

中图分类号:TM73 文献标识码:A 文章编号:1671-2064(2018)23-0155-03

1 样本情况

本次整理2014-2017年变压器更换工程数据共21项,整理前各电压等级单位造价样本区间分别为35kV:43.15元/kVA-104.66元/kVA,110kV:52.10元/kVA-66.06元/kVA,220kV:37.26元/kVA,具体如表1所示。

由于110kV电压等级和220kV电压等级样本均不大于5,本次不做区间整理,本次仅对35kV更换变压器工程做整理分析。

电压等级为35kV的样本描述统计如表2所示。

数据散点图如图1所示。

2 整理方法

对所有技改造价数据进行的数据分析主要分为三个部分:(1)样本的描述统计;(2)异常值剔除、异常数据分析;(3)总体的区间估计。

2.1 样本的描述统计

统计样本的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度、散点图等。

软件实现:使用spss软件进行描述性统计分析。

2.2 异常值剔除

筛除异常值的常用方法有3δ原则和箱线图法。

3δ原则;首先,运用样本数据来绘制频率分布直方图。

其次,根据频率分布直方图显示结果来拟合出概率密度曲线,并得出相应的概率密度函数。当数据服从正态分布时,根据正态分布的定义可知,μ为样本数据的均值,δ为样本数据的偏差。而距离均值3δ之外的概率为P(|×-μ|>3δ)<=0.003,这属于极小概率事件,在默认情况下我们可以认定,距离超过均值3δ之外的样本是不存在的。因此当样本数据距离平均值大于3δ时,则认为该样本数据为异常值。当数据不服从正态分布时,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定,具体如图2所示。

本报告数据整理采取箱线图法。箱线图由五部分构成,分别是最小值、中位数、最大数和两个四分位数Q1和Q2。而筛除异常值则是去除样本中小于Q1-1.5IQR或大于Q2+1.5IQR的数值。

第一步,计算出样本的第一个四分位数Q1,等于该样本中所有数值由小到大排列后第25%的数字。

第二步,计算出样本的中位数F,等于该样本中所有数值由小到大排列后第50%的数字。

第三步,计算出样本的Q2,等于该样本中所有数值由小到大排列后第75%的数字。

第四步,计算出样本的四分位距IQR。

IQR=Q2-Q1

最后,计算出Q1-1.5IQR和Q2+1.5IQR的值,并剔除两者区间外的异常值。

软件实现:使用spss、python和matlab进行绘图与计算,箱线图两个胡须的末端并非准确的1.5倍箱子长度,而是不超过该长度的最远的值,所以使用python/matlab计算异常值范围,因为造价数据为正值,对于下限为负值的改为该区间的最小值,异常值的最终确定以spss输出的箱线图结果为准。

异常值选出后,还需要根据具体工程对异常值进行分析,分析异常发生的原因,以减少后续技改造价数据填报的异常率。

2.3 总体的区间估计

区间估计是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间.其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计函数的区间称为置信区间,指总体参数值落在样本统计值某一区内的概率。

因为很多数据的样本量不大,总体分布未知,所以使用walsh平均顺序统计量构造对称中心的置信区间,这一方法不依赖于总体分布,能较精确的估计置信区间。

设x1,x2,…,xn (1)

为原始数据,是连续对称的独立同分布随机样本,θ为分布的对称中心。首先计算walsh平均值:

W(·)=1≤i≤j≤n (2)

对walsh平均值升幂排列,记为W(1),W(2)W(N),N=n(n+1)。

如果给定置信度1-α,估计θ所在区间(),由下式确定

=W(N-K+1) (3)

其中:

K≈ (4)

这里Zα/2为正态随机变量的α/2临界值,若Φ(·)为标准正态分布函数,则1-Φ(Zα/2)=。

在施行计算时,按下列步骤进行:

1)由α查正态分布表得到Zα/2;

2)由公式(4)计算出K及N-K+1;

3)把(1)由小到大排列,依次从小到大求出(2)的第K个值W(K),再从大到小求出(2)的从后向前的第K个值,即第N-K+1个值W(N-K+1);

4)由(3)式得到()。

软件实现:使用R软件进行区间估计结果的计算。对于一些电压样本量较少,R无法计算出95%或99%的置信区间的等级与方案没有给出区间估计的结果。

3 整理过程

3.1 异常值剔除

绘制35kV变压器工程单位造价箱线图并计算正常值范围15.93元/kVA-101.8元/kVA,存在异常值1个,如图3所示。

3.2 总体的区间估计

软件计算结果为7.14元/kVA-72.37元/kVA(99%)。

3.3 异常数据分析

异常数据为国网安徽肥西县供电有限责任公司2014年35kV严店变主变改造工程,该工程更换2台35kV变压器,设备费114.51万元,而项目管理费却高达85.3万元,导致单位造价达到104.66元/kVA,与平均值63.22元/kVA偏离最多,应为其他费用拆分不当所致。在本次数据整理中予以剔除。

4 样本整理结果

本次整理2014-2017年35kV更换变压器单位造价数据共16项,整理后删除异常数据1项,保留样本数据15项,整理后35kV更换变压器工程单位造价样本区间为:43.15元/kVA -98.56元/kVA,如表3所示。

整理后35kV的样本描述统计结果如表4所示。

35kV的总体区间估计如图4所示。

剔除异常值后的样本总体真值落在7.14元/kVA-72.37元/kVA的概率为99%。

猜你喜欢

置信区间线图正态分布
临床-影像组学列线图术前预测直肠癌T分期
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
基于箱线图的出厂水和管网水水质分析
列车定位中置信区间的确定方法
基于对数正态分布的出行时长可靠性计算
东山头遗址采集石器线图
正态分布题型剖析
χ2分布、t 分布、F 分布与正态分布间的关系