基于3δ原则和箱线图法的更换变压器技改工程造价区间估计
2018-01-08李建青张云云康健
李建青 张云云 康健
摘 要:更換变压器工程是生产技改工程的重要组成部分,分析工程造价合理性,往往需要参考已施过的工程造价数据,在对过去样本进行数据整理过程中,为获得合理投资区间,需要对异常数值进行筛选剔除。本文通过3δ原则和箱线图法对更换变压器工程单位造价进行数据整理,获得合理造价区间,为项目立项、投资计划制定提供参考。
关键词:更换变压器工程;数据整理;3δ原则;箱线图法
中图分类号:TM73 文献标识码:A 文章编号:1671-2064(2018)23-0155-03
1 样本情况
本次整理2014-2017年变压器更换工程数据共21项,整理前各电压等级单位造价样本区间分别为35kV:43.15元/kVA-104.66元/kVA,110kV:52.10元/kVA-66.06元/kVA,220kV:37.26元/kVA,具体如表1所示。
由于110kV电压等级和220kV电压等级样本均不大于5,本次不做区间整理,本次仅对35kV更换变压器工程做整理分析。
电压等级为35kV的样本描述统计如表2所示。
数据散点图如图1所示。
2 整理方法
对所有技改造价数据进行的数据分析主要分为三个部分:(1)样本的描述统计;(2)异常值剔除、异常数据分析;(3)总体的区间估计。
2.1 样本的描述统计
统计样本的均值、中位数、方差、标准差、极小值、极大值、范围、四分位距、偏度、峰度、散点图等。
软件实现:使用spss软件进行描述性统计分析。
2.2 异常值剔除
筛除异常值的常用方法有3δ原则和箱线图法。
3δ原则;首先,运用样本数据来绘制频率分布直方图。
其次,根据频率分布直方图显示结果来拟合出概率密度曲线,并得出相应的概率密度函数。当数据服从正态分布时,根据正态分布的定义可知,μ为样本数据的均值,δ为样本数据的偏差。而距离均值3δ之外的概率为P(|×-μ|>3δ)<=0.003,这属于极小概率事件,在默认情况下我们可以认定,距离超过均值3δ之外的样本是不存在的。因此当样本数据距离平均值大于3δ时,则认为该样本数据为异常值。当数据不服从正态分布时,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定,具体如图2所示。
本报告数据整理采取箱线图法。箱线图由五部分构成,分别是最小值、中位数、最大数和两个四分位数Q1和Q2。而筛除异常值则是去除样本中小于Q1-1.5IQR或大于Q2+1.5IQR的数值。
第一步,计算出样本的第一个四分位数Q1,等于该样本中所有数值由小到大排列后第25%的数字。
第二步,计算出样本的中位数F,等于该样本中所有数值由小到大排列后第50%的数字。
第三步,计算出样本的Q2,等于该样本中所有数值由小到大排列后第75%的数字。
第四步,计算出样本的四分位距IQR。
IQR=Q2-Q1
最后,计算出Q1-1.5IQR和Q2+1.5IQR的值,并剔除两者区间外的异常值。
软件实现:使用spss、python和matlab进行绘图与计算,箱线图两个胡须的末端并非准确的1.5倍箱子长度,而是不超过该长度的最远的值,所以使用python/matlab计算异常值范围,因为造价数据为正值,对于下限为负值的改为该区间的最小值,异常值的最终确定以spss输出的箱线图结果为准。
异常值选出后,还需要根据具体工程对异常值进行分析,分析异常发生的原因,以减少后续技改造价数据填报的异常率。
2.3 总体的区间估计
区间估计是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间.其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计函数的区间称为置信区间,指总体参数值落在样本统计值某一区内的概率。
因为很多数据的样本量不大,总体分布未知,所以使用walsh平均顺序统计量构造对称中心的置信区间,这一方法不依赖于总体分布,能较精确的估计置信区间。
设x1,x2,…,xn (1)
为原始数据,是连续对称的独立同分布随机样本,θ为分布的对称中心。首先计算walsh平均值:
W(·)=1≤i≤j≤n (2)
对walsh平均值升幂排列,记为W(1),W(2)W(N),N=n(n+1)。
如果给定置信度1-α,估计θ所在区间(),由下式确定
=W(N-K+1) (3)
其中:
K≈ (4)
这里Zα/2为正态随机变量的α/2临界值,若Φ(·)为标准正态分布函数,则1-Φ(Zα/2)=。
在施行计算时,按下列步骤进行:
1)由α查正态分布表得到Zα/2;
2)由公式(4)计算出K及N-K+1;
3)把(1)由小到大排列,依次从小到大求出(2)的第K个值W(K),再从大到小求出(2)的从后向前的第K个值,即第N-K+1个值W(N-K+1);
4)由(3)式得到()。
软件实现:使用R软件进行区间估计结果的计算。对于一些电压样本量较少,R无法计算出95%或99%的置信区间的等级与方案没有给出区间估计的结果。
3 整理过程
3.1 异常值剔除
绘制35kV变压器工程单位造价箱线图并计算正常值范围15.93元/kVA-101.8元/kVA,存在异常值1个,如图3所示。
3.2 总体的区间估计
软件计算结果为7.14元/kVA-72.37元/kVA(99%)。
3.3 异常数据分析
异常数据为国网安徽肥西县供电有限责任公司2014年35kV严店变主变改造工程,该工程更换2台35kV变压器,设备费114.51万元,而项目管理费却高达85.3万元,导致单位造价达到104.66元/kVA,与平均值63.22元/kVA偏离最多,应为其他费用拆分不当所致。在本次数据整理中予以剔除。
4 样本整理结果
本次整理2014-2017年35kV更换变压器单位造价数据共16项,整理后删除异常数据1项,保留样本数据15项,整理后35kV更换变压器工程单位造价样本区间为:43.15元/kVA -98.56元/kVA,如表3所示。
整理后35kV的样本描述统计结果如表4所示。
35kV的总体区间估计如图4所示。
剔除异常值后的样本总体真值落在7.14元/kVA-72.37元/kVA的概率为99%。