APP下载

大数据挖掘技术在电力审计风险防范中的应用研究

2020-05-26黄松尚颖马薇吴婷婷

中国内部审计 2020年5期
关键词:风险防范数据挖掘大数据

黄松 尚颖 马薇 吴婷婷

[摘要]本文创新运用人工智能领域先进技术聚类分析算法,以工程结余物资风险分析为切入点,利用业务全流程数据制定评价指标标准,计算物资库龄和项目流转数,从而筛选出工程结余物资存量,总体评估审计风险,进而实现审计风险防范。

[关键词]大数据    数据挖掘    结余物资    风险防范

一、大数据挖掘技术在审计中的应用

发掘型分析是处理大数据最好的方法之一,是从大数据中寻找隐含数据规律和模式、预测将来趋势和行为的一种数据分析模式,数据挖掘技术是实现发掘型分析的有效手段。数据挖掘技术的核心是数据挖掘算法,该算法往往能找到数据中的非线性关系和因果关系,不同算法应用于不同场景。目前,基于大数据挖掘算法的大数据审计在财政、金融、电信、保险等具有海量数据的行业具有极强的生命力和效能,并逐步在财政审计、工程审计、民生专项资金和社保资金审计等方面扮演重要角色。

(一)主要数据挖掘算法介绍

作为最主要的数据挖掘算法之一,聚类分析法是将所有数据对象划分成各个子集(簇)的过程,目的是使同一簇中的对象尽量相似,不同簇中的对象差别较大。聚类算法属于无监督学习方法,因为所拥有的数据对象没有提供类型标签信息,因此只能通过观察学习,而非示例学习,聚类可发现数据内在的性质和规律,为进一步进行数据分析提供基础。主要的聚类分析方法包括划分方法、层次方法、基于密度的方法、基于网格的方法。

(二)数据挖掘过程

一般来说,数据的挖掘过程包含三个阶段:数据准备及数据预处理、数据挖掘模型的构建、模型的运用及评估。

1.数据准备及数据预处理。将审计问题转化为数据挖掘问题后,需确定与此问题相关的数据源,并将不同数据源中的数据集中到一起,形成原始审计数据。数据预处理阶段,需对数据准备得到的不完整、有“噪声”、不太理想的原始数据进行预处理,主要过程有数据清理、数据集成、数据规约和数据变换。

2.数据挖掘模型的构建。针对审计任务及转换后的数据类型,选择合适的数据挖掘技术,然后再从相应的算法库中选择适当的算法或综合运用多种算法建立数据挖掘模型。建模的過程是一个反复的过程,需通过修改模型参数并根据不同评估方法比较哪个模型对当前的分析最有效。

3.模型的运用及评估。是将经过处理的面向分析的数据输入模型并输出分析结果的过程。在设置好模型参数后,该过程可由计算机自动完成。模型的评估是指对使用该模型完成审计任务的质量作出评价,衡量模型的适用性。

(三)大数据审计开展情况

1.全业务数据中心建设。2017年底,国家电网北京市电力公司(以下简称公司)结合自身信息化发展需求和已有各专业领域信息系统建设成果数据资源,建成全业务数据中心,面向全业务范围、全数据类型、全时间维度数据提供统一的存储、管理与服务,完成企业全量业务数据汇集、数据分析统一服务的工作目标,实现业务高度融合、数据充分共享。全业务统一数据中心数据分析域如图1所示。2018年在前期工作的基础上,进一步开展夯实基础、数据扩充接入和资源在线纳管等工作,进一步规范数据存储和使用,更好地服务于大数据分析应用。截至2019年3月,共完成22套二级部署系统的接入,一级部署系统数据按需接入,业务数据接入总量达13.5TB。其中,结构化数据接入表2.2万张,数据总量5.1TB;采集量测数据共涉及7,796,798个设备,数据总量3.1T;非结构化数据总量5.3T。完成15套业务系统数据按照分系统数据仓库模型的规范化存储,为今后开展大数据分析应用奠定了基础。

2.数字化审计平台建设。基于全业务数据中心大数据资源,公司于2018年启动数字化审计平台建设,打破原有专业系统间壁垒,应用全业务数据中心的海量数据资源,对数据字段进行分析清洗,以营销、财务、工程、物资重要业务领域审计需求为依托构建智能审计模型、展示审计结果,并对存在的疑点信息、资料明细进行具体业务数据的穿透查询。通过图形化看板直观展现在线智能审计相关工作成果,使审计问题和成果可视化,帮助管理决策层快速准确掌握持续审计工作情况,为管理决策提供数据支撑。数字化审计平台如图2所示。

二、大数据挖掘算法在电力审计风险防范中的例证

为贯彻落实中央推广清洁取暖、助力生态环境保护的重要政策精神,过去五年公司投入上百亿资金大力推动配电网改造、煤改电等民生工程项目的实施。内部审计为保障公司重大项目安全稳定落地,全程对重大民生项目资金开展相关审计。通过分析重大民生项目的资金构成,发现近50%的资金用于购置物资并产生大量结余,资金风险隐患巨大。基于此,内部审计将工程物资的全流程风险防范作为民生项目的审计重点。

(一)关注工程物资管理风险

公司物资管理部门的常规物资管理全流程如图3所示。在物资采购及配送阶段,物资需求、采购、配送等环节均通过SAP系统线上操作完成,线下根据采购清单比照收货,物资管理单位全流程监控。在物资结算阶段,工程现场实际使用物资结算清单必须经公司项目管理单位、施工单位、监理单位、设备运行单位四方签字确认,设备运行单位才能将现场使用的设备投运至PMS2.0系统(设备运维精益管理系统),从而保证系统中的电网拓扑结构与实际情况一致,更好地维护电网安全稳定,进而保证工程物资结算的准确性。在结余物资退库环节,由于各属地供电公司物资仓库容纳空间的限制,大量结余物资线下不能实际退回实体库,只能寄存于其他非注册仓库。根据物资管理单位要求的库存物资线上线下账实必须一致的管理规定,线上SAP系统对结余物资并不进行退库操作,导致各属地供电公司物资中心管理人员无法掌握本单位实际结余物资存量台账,大量结余物资游离于物资监控体系之外,不能总体评估结余物资存量给公司运营管理带来的风险。基于上述分析,内部审计将工程结余物资总量作为审计重点,着力通过大数据挖掘方法总体计算出公司结余物资存量,评估风险,在审计发现问题集中爆发前提出对应的防范措施,达到“治未病”的效果。

(二)分析工程结余物资去向

1.数据来源。线上物资的需求提报、审核、收发货、结算、利库等业务操作均在SAP系统内完成,所以与此问题相关的数据源为结构化系统数据,来自于SAP系统数据。

2.结余物资去向系统分析。工程结余物资线下由于仓储容量限制以及物资管理单位要求的库存物资账实一致性的管理规定,线上并不做退回注册库操作。伴随着产生结余物资的工程项目进行结决算并关闭,为保证物资结算的准确性,结余物资线上必须退出原项目,在不能退回注册库的前提下,SAP系统中只能不停寄存于其他在建工程,如图4所示。在建工程中的所有物资必然包含全量的工程结余物资,因此,如何在在建工程所有物资中过滤出全量的工程结余物资是数据挖掘审计模型构建的重中之重。在建工程的所有物资由两部分组成:藏匿的结余物资和工程实际使用的物资。随着藏匿的结余物资在在建工程中不断流转,相较于工程实际使用物资,藏匿的结余物资有两个明显特征:一是从时间维度看,结余物资产生于之前的已决算关闭项目,藏匿的结余物资在系统内存在的时间会比实际使用物资存在时间长,可通过设立库龄指标进行区分;二是从空间维度看,藏匿的结余物资流转于各个不同在建工程,其流转项目数远大于实际使用物资流转项目数,对此可设置物资流转项目数进行区分。藏匿结余物资的库龄和项目流转数具备明显有别于实际使用物资的特征,可通过聚类算法进行数据分组,将其类内相似性最大化,再根据类间相似性最小化的原则进行分组或聚类,以两点的欧式距离为聚类规范。

3.结余物资总量获取。首先确定结余物资在SAP中的唯一去向是在建工程,再通过筛查在建工程中所有物资明细,综合分析物资的库龄、物资类型、冲转次数、移库次数等因素,计算出物资的库龄和流转项目数并将其设立为两个考核指标,建立藏匿物资识别模型。通过聚类算法计算欧式距离内的物资库龄长且流转项目数多的物资明细,即藏匿的结余物资的数量和明细,进而总体评估结余物资风险。

(三)构建数据挖掘模型

1.构建模型总体思路。模型目标是获取藏匿于在建工程的物資数量及金额;审计对象为16个属地公司、电科院、信通公司、检修分公司;主要约束条件是计算在建工程物资库龄和项目的流转次数,再通过聚类算法获取物资库龄和项目流转次数的物资明细的交集;数据来源于SAP系统。

2.梳理模型算法流程,如图5所示。

3.编制审计模型中间表,如表1所示。

4 .审计模型实施路径。在SAP系统中统计公司当前所有在建工程项目,根据已在建工程项目编码获取项目消耗的所有物料、批次,根据物料、批次统计分析是否有冲销物资,根据批次、实际消耗物资数量查询供应商的交货日期,以实际消耗物资、批次的交货日期与当前日期按月统计分析在建工程物资库龄,通过聚类算法计算得到欧式距离内的物资库龄较长物资明细;根据统计的在建工程实际消耗物料、批次判断是否为协议库存物资。如非协议库存,根据物料、批次查询所有单位的所有项目,以项目为单位统计流转次数;如是协议库存,根据物料、批次查询在本单位的所有项目,以项目为单位统计流转次数,进而获取所有物资的项目流转次数,通过聚类算法计算得到欧式距离内流转项目数多的物资明细。综合库龄长和流转项目次数多的物资明细,确定在建工程中的藏匿物资。

5.聚类分析方法应用。由于藏匿物资的库龄较长且项目流转次数较多,为区分藏匿物资,本文使用聚类方法,从时间(库龄长短)和空间(项目流转次数多少)两个维度分别得到库龄长和项目流转次数多的明细,然后取二者交集得到藏匿物资明细。

首先,分别对库龄数据和项目流转的明细进行数据标准化,具体如下:

其次,建立模糊相似矩阵,具体如下:

最后,计算明细数据的欧式距离,具体如下:

其中,i和j表示第i和第j个观测值,为第j个变量的均值,n为变量的个数,表示第k个类中第i个变量,表示第k个类中第j个变量。

基于物资库龄及项目流转数计算的物资明细的聚类分析结果如图6所示。

(四)应用数据挖掘模型

在建工程藏匿物资的数据挖掘模型已固化于SAP系统中,具体操作过程为:在模型输入界面输入“在建工程截至的年度、月份、项目编码、工厂”等,即可获取该单位藏匿物资全量明细,然后根据查询结果计算出该单位藏匿物资金额为7802.76万元,整个公司藏匿物资金额为7.23亿元。按大类分,藏匿物资明细如表2所示。按中类分,2.27亿元的装置性材料中,藏匿物资明细如表3所示;1.84亿元的辅助设备设施中,藏匿物资明细如表4所示;1.26亿元的一次设备中,藏匿物资明细如表5所示;1.00亿元的二次设备中,藏匿物资明细如表6所示;0.39亿元的通信设备中,藏匿物资明细如表7所示。

(五)大数据审计模型的评估

相较于传统审计模式,基于聚类分析方法的藏匿物资审计模型具备如下优势:

一是促进审计效能大幅提升。对16家单位的全样本审计,揭示了藏匿物资问题的总体情况,审计出隐匿于在建工程中的工程剩余物资金额7亿多元,首次全口径梳理出公司范围内的剩余物资总量,避免了抽样审计风险,提高了审计结果的准确性,极大提升了审计监督效能。从根源上梳理问题成因,研究解决措施,审计结果直接成为领导决策的重要依据。

二是服务业务管理渐趋规范。之前由于物资仓库仓储容量限制,物资管理部门为保证注册仓库仓储物资账物一致,不允许项目管理部门的结余物资退库,导致项目结余物资游离于现有物资监管体系之外。此次审计曝光藏匿物资问题后,直接促使物资管理部门改变业务管理思路,专门为非注册库的实物在SAP系统中开辟一个专属线上仓库,将全部结余物资纳入线上物资管理体系,线下根据物资清单加强物资出入库管控,消除物资非正常消耗隐患,降低了国有资产流失风险,彰显了内部审计在公司治理体系中的监督作用。

三、启示与建议

在当前审计环境下,大数据分析技术在审计过程中必将发挥越来越重要的作用。为适应这一形势,需进一步做好以下工作:一是全面提升数据质量。一切数据分析、数据挖掘的前提都是真实、高质量的数据。当数据量呈几何级数增长、数据源来自多系统且各系统之间接口规范不统一时,势必给数据质量带来一定隐患,因此须针对所分析的系统数据进行稽核,确保数据真实性,同时提高审计人员对数据质量的重视程度。二是转变审计思路。随着公司对内部审计的要求逐年提升,内部审计方法应由单一性向多样化转变。针对不同审计目标应选择具有针对性的审计方法。在传统审计方法基础上,采用统计学、分析性程序、内控评审和风险导向审计等方法,提升内部审计的精准度,加大分析力度,节约成本、降低风险,促使内部审计更加科学高效。随着转型的深入,内部审计应更加关注事中和事前,逐渐开展对企业经营管理全过程的监督和评价。

(作者单位:国家电网北京市电力公司,邮政编码:100031,电子邮箱:nash19890922@163.com)

猜你喜欢

风险防范数据挖掘大数据
数据挖掘综述
软件工程领域中的异常数据挖掘算法
中国企业海外投资风险的防范及化解
融资融券业务对券商盈利及风险的影响研究
基于大数据背景下的智慧城市建设研究
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书