APP下载

基于数据挖掘的基层央行内审模型研究

2014-08-08潘德宝

金融经济 2014年4期
关键词:数据仓库内审数据挖掘

潘德宝

摘要:近年来,人民银行各项业务信息化水平不断提高,推广使用了大量业务系统,积累了海量数据,但传统内部审计手段难以有效揭示海量数据背后隐藏的舞弊信息,本文将数据挖掘技术引入基层央行内部审计工作,构建基于数据挖掘的基层央行内审模型,以改进传统内部审计方法,适应信息化快速发展需求。

关键字:数据挖掘基层央行内审模型

一、数据挖掘技术概述

数据挖掘(DM)是一种计算机辅助技术,用于从海量的、不完全的、有噪声的、模糊的、随机的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解的知识的过程,又称数据库知识发现(KDD )。数据挖掘既能针对特定数据库进行简单的检索和查询,又能进行多层次、全方位的统计、分析、综合和推理,越来越多的组织开始对记录交易活动、经营状况和市场信息的海量数据进行数据挖掘,从而获得有价值的信息,提高组织的盈利水平和竞争能力。数据挖掘技术主要功能有:概念描述、分类预测、估值分析、关联分析和聚集分析等。

(一)概念描述。概念描述是依据分析对象的内涵,挖掘其普遍性、表征性、高层次和宏观知识,以反映同类对象的共同属性,是对数据的概括、精炼和抽象。审计人员可用概念描述的方法总结概括审计数据,并在概念层次进行呈现。

(二)分类预测。数据分类是针对分析对象的某一特定属性建立分类模型,利用该模型将数据库中分析对象划分成若干组,达到“物以类聚”的目的,分类可为某对象提供预测值,分类预测是数据挖掘中发展最充分的领域。

(三)估值分析。估值分析能测算出连续性变量的值,输入一些特定的数据,通过估值分析,得到其他难以直接获取的变量的值,然后根据分类规则进行分类。审计人员可以通过估值分析寻找异常的财务收支线索。

(四)关联分析。关联分析可以挖掘数据库中频繁出现的模式知识,即关联规则,反映了不同属性间依赖或关联关系。审计人员对审计对象数据库中的数据进行关联分析,发现异常联系,寻找审计线索,发现审计疑点。

(五)聚类分析。聚类分析面向未明确分类的数据,将数据中较接近的划归一类,同一类别数据间的相似性尽可能大,不同类别的数据间相似性尽可能小。审计人员可将具有相似性的会计数据进行聚类分组,从而发现异常账目。

二、基层央行内部审计引入数据挖掘技术的必要性

目前,中国人民银行广泛使用的业务系统有国家金库会计集中核算系统(TCBS)、货币金银信息系统和中央银行会计集中核算系统(ACS)等40余个,伴随而来的是业务处理高度电子化、控制隐性化、数据大集中、数据海量化,海量数据可能隐藏了大量的舞弊和违规信息,引入数据挖掘技术可以有效降低审计风险、提升审计能力、拓展审计范围和提高审计效率。

(一)降低审计风险。各类业务系统的普及推广,导致审计对象从传统的纸制账簿到种类繁多的电子数据的转变,审计责任和审计风险随之加大,将数据挖掘引入基层央行内部审计,对海量数据进行采集、处理和分析,能够有效发现审计线索,显著降低审计风险。

(二)提升审计能力。随着央行各项业务和管理活动信息化的进一步普及,内审部门在审查纸质材料的同时,对各类业务数据进行挖掘,能有效识别各类风险,发现控制缺陷,压缩审计成本,进而更好的服务于人民银行各项业务目标的实现。

(三)拓展审计范围。数据挖掘依托数据库技术通过计算机实现,具有高速、快捷、准确的特点。审计人员利用数据挖掘能积极开展事前审计、事中审计和效益审计,扩大审计范围、提高审计质量,逐笔进行审计、降低抽样风险,使全面审计成为可能。

(四)提高审计效率。数据挖掘使得部分审计资料的审查与分析工作依靠计算机完成,有效实现持续审计和联网审计,摆脱“数据丰富,信息贫乏”的尴尬局面,及时监测和预警各项业务风险,查找风险隐患,控制业务漏洞,审计效率显著提高。

三、基于数据挖掘的基层央行审计模型

本文根据基层央行业务实际和数据挖掘技术处理要求,构建了由数据收集、数据整理、数据挖掘和审计发布四阶段构成的基于数据挖掘的基层央行审计模型,其流程如图1所示。

(一)数据收集阶段

基层央行内审部门应结合辖区业务实际,积极开展风险评估工作,确定各业务风险排序,拟定审计项目,针对特定的审计目标和审计内容进行广泛而深入的审前调查,掌握审计的范围、审计的内容、审计所需的信息。根据审前调查情况,审计人员有目的性的收集和整理与审计相关的数据,服务于审计项目。该阶段审计人员在保证不影响被审计单位业务系统的平稳、持续运行前提下,采取诸如Microsoft SQL Server 2000数据转换工具,获取、更新和维护审计相关数据。

(二)数据整理阶段

图1基于数据挖掘的基层央行审计模型流程图

该阶段审计人员在充分分析数据质量的情况下,运用数据库各表之间的勾稽关系,剔除垃圾数据,清理、转换、载入和验证提取的数据,建立审计数据仓库,数据仓库中的审计数据是是集成的、一致的、高质量的,便于后续审计工作的开展。数据仓库是面向特定审计主题的,不同被审计单位的审计主题不尽相同,因此审计人员要为不同审计对象设计不同的数据仓库,设计数据仓库包括数据仓库模型设计及数据处理设计,是一个循环往复、不断优化的过程,需要不断地反馈不断地完善。该阶段审计人员主要任务是为采集到的审计数据建立一个独立与被审计单位数据库的数据仓库,提供适合联机分析处理和数据挖掘的数据存储环境。

(三)数据挖掘阶段

该阶段审计人员可以使用简单分析和多维分析工具对数据仓库进行数据分析,如:采用联机分析处理的切块、切片、旋转和钻取等技术,对审计数据进行比较分析、比率分析、趋势分析等。但在海量数据情况下,审计人员必须采用诸如统计分析、决策树、人工神经网络和关联规则等数据挖掘算法,对数据仓库进行数据挖掘。

1.选择数据挖掘算法。不同数据挖掘算法的思路、步骤、功能和应用领域不尽相同,审计人员应根据审计主题选择挖掘方法,以得到对审计有指导意义的知识。

2.建立数据挖掘模型。选择数据挖掘算法后,从分析数据入手,从数据仓库中提取主要变量,剔除无关变量,建立适合该算法的数据挖掘模型。

3.验证数据挖掘模型。从数据仓库中选取多个样本数据,对挖掘模型进行验证,确保数据挖掘模型实现既定审计目的。

4.运行数据挖掘模型。挖掘模型的运行由专业计算机工具完成,审计人员要认真评估挖掘结果,判定挖掘结果的准确性和有效性,保证挖掘结果得出正确审计结论。评估结果可能导致退回到之前的阶段,重新选择数据集合、数据挖掘算法或调整挖掘算法参数。

5.构造审计知识库。数据挖掘模型运行后,会呈现隐藏在数据仓库中的一些规律或者展示异常审计数据,这些规律或者异常称之为审计知识,不同的审计知识存储在一起即构成了审计知识库,审计人员利用审计知识提取审计线索或违规及风险情况。

6.循环利用审计知识库。在以后开展审计项目时,审计人员首先查看审计知识库,采用可以直接使用的审计知识,否则按照上述步骤构造适合本次审计的挖掘模型,并将新的审计知识存入审计知识库。审计知识库的循环使用提高了审计的效率,实现了资源共享,提高了审计质量。

(四)审计发布阶段

审计人员利用掌握的审计证据,对提取的审计线索、审计违规及风险状况进行解释和验证,评估形成审计结论,对审计结论进行一致性和效用性处理。主审人组织获得的审计结论,以事实确认书的形式向被审计单位征求意见,最终形成审计报告。

四、基层央行应用数据挖掘审计模型相关建议

(一)大力宣传数据挖掘理念。2012年,具有数据挖掘功能的人民银行计算机辅助审计系统正式上线运行,且在国库和货币发行业务领域进行了应用,取得了显著成效;2013年,下发了《中国人民银行办公厅关于计算机辅助审计工作的指导意见》,进一步规范计算机辅助审计相关事项。基层央行要以此为契机,大力宣传数据挖掘审计理念,集中力量开展数据挖掘审计模式攻关研究,为数据挖掘审计模式的推广应用营造氛围。

(二)着力搭建沟通协调机制。基层央行内审部门要推广数据挖掘审计模型,必须建立沟通协调机制。技术部门要按照权限提供相关业务系统的系统需求、数据库设计和数据字典等信息,并在系统研究、数据采集和数据挖掘等方面提供必要的支持和配合;相关业务部门要积极提供内审部门开展数据挖掘审计所需相关数据,不得以任何借口和理由拒绝或踢皮球;内审部门要不断探索应用数据挖掘技术的方法和路径。

(三)全力培养专业审计人才。基层央行内审部要推广数据挖掘审计模型,亟需具备数据挖掘和信息技术创新应用能力的“数据分析师”和负责业务知识研究及分析思路构建的“业务分析师”两种专业审计人才,因此,要全力加强人才培养和人员培训,统筹专业分析人才与数据分析人才、普通应用人才与高层次人才全面发展,锻造一支理论水平高、实践能力强的复合型人才队伍,推进数据挖掘技术在基层央行内部审计中的广泛应用。

参考文献:

[1]曾德胜等.基于数据挖掘的审计系统研究[J].《长春工程学院学报》,2011.12.1:124-127。

[2]白涛.“大数据”时代内部审计发展策略的理论思考-以“信息化审计”引领未来发展[J].《西南金融》,2013.2: 7-9。

[3]陈宝等.数据挖掘技术在财产保险行业非现场内部审计中的应用[J].《合作经济与科技》,2013.11:76-77。

[4]程广华.数据挖掘技术在商业银行内部审计中的应用研究[J].《金融视角》,2011.3:47-49。

猜你喜欢

数据仓库内审数据挖掘
聚焦内审转型升级 提升增值服务水平
探讨人工智能与数据挖掘发展趋势
新监管框架下银行的风控和内审体系
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究