APP下载

评估工业统计数据质量之方法探讨

2021-12-02李东辉

商品与质量 2021年44期
关键词:统计数据维度工业

李东辉

山东省临沂市罗庄区统计局 山东临沂 276000

统计数据的质量包括统计数据是否精准,是否出现大量的错误,统计数据是否是实际所需要的数据类型,对实际的业务是否具有参考价值。工业企业的发展和未来计划离不开对于工业统计数据的分析,因此数据质量的好坏对于整个事业的发展都具有很重要的意义,数据质量的重要性不言而喻[1]。并且,数据收集是数据的源头所在,数据质量的优劣,直接决定后续研究的质量,因此对于统计调查数据质量的评估显得尤为重要,只有通过分析质量好的数据才能得出于实际发展所匹配的信息。

1 统计数据质量评估的概念

一个不严谨的定义是,将数据质量评估程序应用于数据集并最终获取评价对象质量状态。直白的说,就是依据一个相对完整的评估框架,按照一套确定的步骤和流程,从整体上考量某个或某些数据集对特定业务应用的满足程度,能很好满足业务应用的数据集我们称其质量较好,反之则质量较差。

统计数据的质量评估也叫统计数据的预处理,就是通过各种方法对数据进行必要的筛查,审核以及排序等工作。目的是提高数据的质量,筛选一些质量过低的数据,为后续的分析工作减轻负担,数据的质量评估主要分为三个处理步骤,即数据审核,数据筛选和数据排序[2]。

1.1 数据审核

通过设计调查等各种方法得到的原始数据。不可能做到准确无误,也不能做到全部质量在线。因此需要对原始数据进行深人细致的数据审核工作,最大限度地剔除并修正数据差错,提高统计数据的质量,这样方可为后续统计分析奠定良好的数据基础。

数据审核主要包括两个方面内容:

(1)全面性审核。主要核对应调查的单位是否齐全,应调查的内容是否有遗漏。

(2)及时性审核。主要审核是否按规定的时间获取相应数据资料,数据是否满足时效性的要求。

数据审核中的准确性审核是最为主要的,费时费力,难度较大。

1.2 数据筛选

经过数据审核,对发现的错误数据可以采用相应方法进行补充、修正,但对于某些无法进行修补的数据,或者不符合调查分析要求的数据,则需要进行数据筛选。

数据筛涉包括两方面的内容:

(1)将某些不符合要求的数据或有明显错误的数据予以剔除。

(2)是根据汇总的需要将符合某种或某些条件的数据筛选出来,而将不符合特定条件的数据先予以剔除。

1.3 数据排序

数据排序使杂乱无序的数据呈现规律性的顺序排列,不仅可以为后续的数据分析提供方便,而且在很多时候,排序本身就是进行统计分析的目的之一。

此外,统计数据的质量高低取决于统计数据的误差大小。统计数据的误差通常是指搜集到的统计数据与客观现实之间的差距。研究人员在进行问题研究时,应了解存在数据误差的可能性,因为采用错误的数据所得出的结论将比不使用数据更令人担忧。

而统计数据都来源于样本的调查,所以统计数据的误差一般分为两类,一类是抽样误差,一类是非抽样误差

(1)抽样误差。抽样误差是抽样调查所特有的误差,只有概率抽样技术才有抽样误差,而且只要进行概率抽样,就必然存在抽样误差,抽样误差是不可避免的,但是这种误差可以计算和控制。比如选择误差小的抽样方法、引人辅助变量构造复杂估计量、增大样本容量等,都可以减小抽样误差。

(2)非抽样误差。非抽样误差,是指除抽样的随机性以外的其他各种原因引起的误差,它在调查中普遍存在,在概率抽样、非概率抽样、其他的全面和非全面调查中,非抽样误差都有可能存在。

2 进行统计数据质量评估的原因

目前市面上很多的工业企业的数据分析师们都有一个通病,就是拿到一项工业统计数据后,就会立刻开始对统计数据进行统计分析,希望能够快速及时的发现数据背后隐藏的企业运行信息和工业发展的相关知识。但是忙活了很久才发现并不能提炼出太多的有用信息,甚至很多统计数据是与工业发展状况不符合的,因此浪费了大量的时间和精力。造成这一情况的一个重要因素就是在分析数据之前,忽视了对统计数据质量的评估。

为了得到的统计数据更加具有可分析性和可信度,对于数据的质量评估不可缺少,在质量评估的过程中,我们需要注意两个质量评估原则。

2.1 并非所有的数据都是有质量,有价值的数据

在实际工业发展中,工业统计数据的分析一定都是为实际业务服务的,所以并不是所有的工业统计数据都是有价值的,也不是任何误差小的统计数据都是有质量的数据。只有紧密围绕业务需求统计出来的,对工业的发展有参考价值的数据才是有价值,质量高的数据。因此,在统计数据质量评估和筛查的时候要清楚的辨认相关的数据,不相关的数据,不论质量多高,对于工业发展本身确实毫无价值的话,也属于质量低下的数据[3]。

2.2 数据质量的好坏直接影响最终的决策和结果

通常,对于工业统计数据的分析、挖掘的最终目的是希望可以通过数据发现数据背后隐藏的关于工业发展的知识和信息,从而对实际的业务或产品进行优化和改进。但是如果我们统计的数据本身的质量就十分参差不齐,甚至质量低下,那自然也很难能够通过这样质量低下的数据得出工业发展有用的结论,甚至还有可能得到错误的结论。所以,进行科学、客观的数据质量评估是非常必要且十分重要的。

3 进行工业统计数据质量评估的方法

3.1 统计数据质量评估的框架

当前普遍的观点认为,数据质量要素受行业领域、数据类型和应用目的等因素的影响极大,不存在面向所有领域和资源类型的普适性数据质量框架。但针对一个具体行业背景下的特定数据类型和业务目标,建立一组质量维度和指标体系是可行的。

对于目前我国的工业企业层面的数据分析应用,常见的数据质量分为以下八个维度:

(1)完整性。工业统计数据的完整性与数据库的完整性整体概念并不相同,工业统计数据的完整性用以描述数据集合对于具体业务的目标的覆盖程度,可以从文字和记录两个方面分析。

(2)可理解性。可理解性指标用来表述数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。

(3)一致性。一致性通常用来描述数据在不同维度的连贯性,包括数据集之间的横向连贯性和时间维度的纵向连贯性。一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。

(4)可获得性。可获得性用来描述实际业务需要的数据获取的难易程度,包括采集、清理、转化等多个环节。

(5)准确性。准确性主要反应数据集是否能够精准无误的反应真是业务情况,准确性是数据质量的重要组成部分。

(6)可靠性。反应数据集合是否值得信赖,包括数据采集、数据处理过程是否可靠等。

(7)相关性。是指数据集中包含的属性是否能很好的描述业务目标,是否能清晰的解答业务问题。第一节我们说到,我们对数据质量的定义是看数据集是否能很好的满足业务需求,相关性是数据质量的核心维度。相关性的常用指标主要就是数据字段相关度。

(8)时效性。时效性可以理解为时间维度的数据相关性,即业务需求的时间范围和数据集表示的时间范围之间的关联程度。比如我们需要分析今年第一季度的工业发展概况,但是统计数据是去年第二季度的,这种情况就是极端的时效性差。

3.2 工业统计数据质量评估一般方法

质量评估方法,即采用何种方式对数据质量进行评估,如何评定和刻画质量水平。数据质量评价方法主要分为定性和定量方法。

(1)定性法。定性法一般包括:

第三方评测法:主要是指将统计数据集合交由第三方的评测机构和组织,对数据的质量进行评估,第三方评测法的有点有三个,一是可以节省人力成本,第三方评估的技术正在朝着智能化方向发展,随着云计算、大数据等新技术的更新,自动化评估体系正在逐步完善,这能节省大量的人力成本;二十可以让第三方数据评估机构分担相关的数据质量风险;三是可以得到专业评估机构出具的第三方数据质量评估报告和证明,使得数据质量更具有权威性[4]。

用户反馈法:用户反馈法在工业统计数据中用处不大,主要是针对一些第三产业和服务业等企业进行产品升级以及服务改造等作为参考的。

专家评议法:专家评议法相对于以上两种更加具有权威性,专业人士对于数据质量的评议和评估使得数据的可参考性会大大提升,数据的质量也会提高。

(2)定量法.定量评价方法是指按照数量分析方法,从客观量化角度对数据资源进行的优选与评价。

定量法一般包括:

统计分析法:统计分析法指通过对数据的规模,获取途径等客观关系的分析研究,最终筛选出合适的数据集合并且将质量较差的数据剔除,借以达到对数据质量的有效评估,为后续数据分析工作提供高质量数据的一种评估方法

内容评估法:内容评估法主要就是对数据的内容质量进行评估,将于企业发展无关但是却正确的数据筛选出来,留下真正意义上有参考价值的数据。

(3)综合评价法。综合方法将定性和定量两种方法有机地集合起来,从两个角度对数据资源质量进行评价。常见的综合评价法包括:层次分析法、缺陷数据扣分法等。

4 工业统计数据质量评估的一般流程

4.1 需求分析

对具体业务数据的数据质量评估是以业务需求为中心进行的。数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点。因此,必须首先了解具体业务针对特定数据资源的需求特征才能建立针对性的评估指标体系。

4.2 确定评价对象及范围

确定当前评估工作应用的数据集的范围和边界,明确数据集在属性、数量、时间等维度的具体界限。需要说明的是,评估对象既可以是数据项也可以是数据集,但一定是一个确定的静态的集合。

4.3 选取质量维度及评估指标

数据质量维度是进行质量评估的具体质量反映,如正确性、准确性等。它是控制和评估数据质量的主要内容。因此,首先要依据具体业务需求选择适当的数据质量维度和评估指标。另外,要选取可测、可用的质量维度作为评估指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。

4.4 确定质量测度及其评价方法

数据质量评估在确定其具体维度和指标对象后,应该根据每个评估对象的特点,确定其评估方法。对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。

4.5 质量评估

就是根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评估数据的质量应当由多个质量维度的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考,多个质量维度的组合能提供更加丰富的信息。

4.6 结果分析并报告

评估后要对结果进行分析:对评估的数据与结果进行对比分析,确定是否达到指标;对评估的方案的有效性进行分析,确认是不是合适等[5]。最后应将质量评价结果和数据质量评价过程汇总并报告。在完整的数据质量评价结果和报告中,应该包括全部上述内容。

5 结语

现如今,工业统计数据在数据处理的过程中已经称为不可或缺的一个重要环节,评估工业统计数据质量的方法有很多种,具体要应用哪一种质量评估方法一方面取决于数据的多少,数据的类型以及数据的用处,另一方面取决于工业发展的阶段和企业的类型。有效的数据质量评估可以帮助企业筛选出有用的数据,剔除质量低下的,相关性不大的数据,并且帮助相关部门确定质量高的数据,可以极大的减轻数据分析工作的负担,提高数据分析的效率,节省大量的人力,物力和财力。

猜你喜欢

统计数据维度工业
创新视角下统计数据的提取与使用
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
国际统计数据
2017年居民消费统计数据资料
掌握4大工业元素,一秒变工业风!
统计数据
人生三维度
工业技术