APP下载

基于数据挖掘的审计系统研究

2011-03-12曾德胜,彭灿明,陈源

关键词:舞弊数据挖掘数据库

0 引言

近年来,随着计算机技术的高速发展和网络工具在会计工作中的广泛运用。会计数据的处理方式、存储介质、核算形式及系统内部控制制度随之发生了改变。形成了一个由人、计算机系统、网络系统、数据与程序等有机结合的人机交互的“智能型”系统,使会计工作的重心从核算转向管理。会计工作中所发生的这些巨大变化使得审计工作环境、审计工作对象、审计范围、审计线索等基本的审计要素都发生了巨大的变化,传统的审计工作方法已经不能适应这种变化的要求。因此,开展计算机审计,实施审计信息化是社会信息化的必然。

经济的不断发展,企业活动日益错综复杂,交易数量庞大,对各项交易进行记录、分析的过程很多企业已经引入人工智能进行管理,如企业资源计划系统(ERP)和供应链管理系统(SCM)等。这些系统使企业的众多交易活动都可以实时在线录入,形成包含大量会计数据乃至各方面经营管理数据的数据仓库。审计人员的职责就是从这些数据仓库所包含的海量数据中获取有用的审计证据,并发表适当的审计意见。审计对象从传统的纸制帐簿到种类繁多的电子数据的变化,致使审计责任和审计风险随之加大,运用功能更加强大的审计工具和手段,正确认识审计风险,加强风险意识,并积极有效地控制审计风险,已成为目前审计界广泛关注的问题。在信息时代用数据挖掘技术进行审计工作是审计人员面临的崭新课题。

1 在审计中引用数据挖掘技术的必要性

随着数据库技术的迅速发展及数据管理系统的广泛应用,大部分企业已经引入信息系统对企业的交易活动、经营状况及整个市场的相关行业状况等进行记录,因此企业积累的数据越来越多,形成了包含大量财务数据乃至各方面经营管理信息的数据库。激增的数据背后隐藏的许多重要信息为人们识别财务报告舞弊提供了更大范围的数据支持,但同时也带来了一些问题:一是数据过量,难以及时发现有用信息;二是数据形式不一致,难以统一处理;三是数据是不断发展的,识别舞弊的经验相对于数据往往是滞后的,这种不同步性给舞弊识别带来了巨大的潜在风险,KPMG(1998)调查发现超过1/3的舞弊事件是在偶然的情况下被发现的,只有4%的舞弊事件是由独立审计人员发现的[1];四是传统的数据分析方法无法处理庞大的数据库系统,技术工具的落后势必影响舞弊识别的广度和深度;五是新的数据处理技术为舞弊提供了越发隐蔽的新手段,电子化和网络化的数据环境也使得舞弊隐藏得更深,使识别难以入手。

目前的计算机审计软件多是利用审计人员的经验和计算机查询技术相结合的方法对被审计单位电子数据进行审计“发现其中的异常情况”,但这存在多处不足:一是审计人员的经验和知识是“有限的”,被审计对象行业跨度大,各单位情况千差万别,当审计经验无法运用时,面对海量数据真有如“瞎子摸象”;二是数据是不断发展的,审计经验相对于数据的发展往往是滞后的,这种不同步性给审计带来了巨大的潜在风险;三是对同一数据审计,不同的审计人员可能会得出完全不同的审计结论,知识的“不对称性”无法保障审计质量。

数据挖掘技术就是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式的活动。这些模式指隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华。所以把数据挖掘技术应用于审计工作中是很有必要也非常紧迫的。

2 数据挖掘的概念、功能及其在审计中的应用

2.1 数据挖掘的定义

数据挖掘(Data Mining)[2-3]就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度看一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

2.2 数据挖掘的主要功能及其在审计中的应用

目前,数据挖掘的主要功能以及所能发现的知识类型主要有以下几类:[2-4]

(1)概念描述(Concept Description)

根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象,这个概括或描述称为概念描述。比如,对一个商店所售电脑基本情况的概述总结就会获得所售电脑基本情况的一个整体概念。审计人员往往需要查询不同综合程度的被审计数据信息,以便了解被审计单位的有关各级别的财务经营信息,以便寻找审计线索。在数据库的原始概念层,数据和对象往往包含很详细的信息。我们可以用概念描述的方法将集中的数据进行总结概括,并将其在更高的概念层次上呈现出来。

(2)关联分析(Association Analysis)

关联分析就是从给定的数据集中发现频繁出现的项集模式知识(即关联规则),它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的 Apriori算法[4],之后有很多学者提出了很多改进算法,如文献[5]等。关联分析广泛应用于市场营销、事务分析等应用领域。

(3)分类与预测(Classification&Predication)

分类就是找出一组能够描述数据集典型特征的模型或函数,以便能够分类识别未知数据的归属或类别。分类模型或函数可以通过分类挖掘算法从一组训练样本数据中学习获得。根据已知的分类规则,可以预测未知数据实例的类别。分类的结果典型地表现为一个具有行为可预测性的组。在审计中,可以将分类技术有效地运用于欺诈侦测和欺诈风险分析。通过分类挖掘,对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员建立统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。比如在财务审计中,虚假财务报告从财务指标上看,就是某些财务指标显著地异于同类企业,这些能够显著显示财务舞弊征兆的财务指标包括应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等。对此,审计中可采用数据挖掘的统计分析技术对这些指标数据进行分类和预测,当预测值与审计值差距较大时,可列为审计关注的重点。

(4)聚类分析(Clustering)

分类属于有监督的学习方法,而聚类分析所分析处理的数据都是无类别属性的。聚类分析的原则是:聚类结果要使得各聚类内部数据对象间的相似度最大,而各聚类间对象的相似度最小。根据事先定义的相似度计算公式计算对象之间的相似度,然后根据相似度将数据对象划分为若干组。通过聚类,可以识别稀疏或密集的数据区域,从而发现数据的整个分布情况,以及数据属性之间所存在的有趣的、有价值的相关联系。聚类分析技术特别适用于从大量的交易数据中产生及时、准确的线索。由于舞弊方式多种多样,数据表现出来的特点也就各式各样,并不是所有的可疑账户都可以聚成一类。因此,在舞弊行为识别中,簇的数量是未知的,因舞弊方式的不同而不同。聚类分析中“簇的数量未知”这个特点刚好满足舞弊行为识别的这个要求。而且,由于其聚类分析的自动处理、非监督学习等特性使得其可以动态地适应舞弊手段的变化,也可以在一定程度上规避舞弊犯罪活动的自适应问题。

(5)异类分析(Outlier or Exception Analysis)

异类分析或称偏差分析,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群点等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。实践表明,真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,就说明数据中可能存在虚假成分。异类分析对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。审计人员可以使用异类分析技术来检查一些舞弊、违背规律和规定的行为,因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据,而且很可能以不同于一般数据的形式表现出来,通过孤立点分析方法可以有效地发现这样的异常数据。在实际操作中可以选择能够显著显示财务舞弊征兆的一些关键财务指标,如应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率等,并为其设定一个阈值,一旦财务报告的相关财务指标数值超过这个阈值,说明报告有可能存在舞弊。

3 基于数据挖掘的审计系统

本系统根据数据挖掘的方法和数据挖掘处理模型,由审计专家和数据挖掘人员共同参与的数据挖掘过程,从审计需求出发,给出了基于数据挖掘的审计系统模型,如图1所示。

图1 基于数据挖掘的审计系统模型

(1)收集原始审计数据。根据审计的目标和内容要求收集原始审计数据,导入审计系统的数据库。

(2)数据预处理。由于收集的数据存在很多不用的信息和噪声数据,非常有必要在数据挖掘前,将数据进行清洗和整理。数据预处理包括数据格式的一致化,还可以采用数据属性约简的方法对数据库中大量的属性进行约简,比如利用基于聚类的属性约简方法[6]等。当然还要根据审计需求,对清理好的数据进行筛选,把不相关的数据过滤掉。经过数据预处理,就为实施数据挖掘技术做好了数据准备。

(3)挖掘分析。利用各种挖掘技术对数据库进行挖掘分析。比如利用关联分析技术。关联分析就是给定1组或1个记录集合,通过分析记录集合,推导出相关性,目的是为了挖掘出隐含在数据间的相互关系。关联分析的目的是找出数据中隐藏的关联网。可运用数据挖掘中的关联分析技术方法,在对财务数据或经济数据进行审计时,针对同类或不同类会计科目及数据项之间可能存在的某种对应关系,以及资产负债表、利润表、现金流量表3大财务报表之间的勾稽关系,按照非财务逻辑关系的规律来查找、挖掘,从而发现一些隐藏的经济活动,为审计人员的进一步工作提供参考。如利用数据挖掘中的关联分析,可以发现一个单位的车辆数和养路费、汽车保险费等日常维护支出存在一定的关系,能够据此发现是否存在用账外资产买车的行为,进而查出小金库问题。

又如利用例外模式或者异类挖掘方法发现的审计线索。例外是指数据集中与一般数据模型不相符的那些数据。实践表明,真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,就说明数据中可能存在虚假成分。例外模式或者异类挖掘对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。审计人员可以使用例外模式或者异类挖掘技术来检查一些舞弊、违背规律和规定的行为,因为这些行为产生的数据一般是隐藏在大量正常数据下的少量数据,而且很可能以不同于一般数据的形式表现出来,通过例外模式或者异类挖掘可以有效地发现这样的异常数据。可以用文献[7]提出的方法挖掘出潜藏在大型数据库中的例外模式:burst模式。

还可以利用数据挖掘技术中的聚类分析方法进行财务分析。对审计数据进行聚类分析,将其分类,为投资者提供最佳的决策依据[8]。

(4)审计处理。通过挖掘分析,可以发现可疑的数据,这些数据就是一些交易记录。审计专家就可以重点核查这些交易记录,从中发现问题,并处理相应的问题。然后再分析、解释和数据挖掘人员进一步沟通,形成新知识,并加入到知识库中,用作新交易数据审计的判断标准。

(5)新增审计数据处理。当有新增审计数据需要处理时,可以先将数据进行预处理,然后就可以利用知识库作为判断依据,分析交易记录是否可疑,如可疑则将该交易记录加入到可疑数据库中,由审计专家对可疑数据库中的交易记录进行重点核查、分析、处理,如果有新知识,就更新到知识库中。

4 基于数据挖掘的审计系统特点

(1)能有效降低审计风险

信息环境下,审计对象从传统的纸制账簿到种类繁多的电子数据的变化,致使审计责任和审计风险随之加大。面对这一变化,如何积极有效地控制审计风险是审计界普遍关注的问题,本系统通过将数据挖掘技术应用到审计风险决策中,从而为审计人员提供科学的决策依据,降低审计风险。

(2)能拓宽审计范围,促进全面开展审计监督

一方面,审计人员通过本系统可以进行样本抽取,对异常项目进行调查测试,以确定审计重点,并可以在一定范围内逐笔审计,使得审计内容更加广泛,审计人员可以不再由于时间和工作量的原因而缩小审计范围。另一方面,由于计算机具有快速、准确的特点,利用本系统就可以积极开展事前审计、事中审计和效益审计,扩大审计范围、提高审计工作质量、减少审计风险,使全面审计成为可能。

(3)科学统计与抽样,提高审计工作效率

会计电算化提供的电子账是肉眼不可见的,对不懂计算机的审计人员来说是风险,但对可以用计算机查账的审计人员来说是有利条件。审计人员利用计算机处理数据既快速又准确的特点,使得审计资料的审查与分析工作主要由计算机完成,从而提高审计工作效率。效益审计一般比财务审计、法纪审计需要进行更多的经济定量分析和经济效益指标的计算,利用本系统开展审计,使得审计人员能挤出时间和精力开展效益审计,更能显示出计算机审计特有的优势。

(4)自主学习,不断更新知识库

本系统能根据对历史数据挖掘分析得到的各种规则、规律、模式等形成知识库,从而作为判别的依据,同时也能通过对新产生的数据进行审计分析得到新的知识,并自动更新到知识库中,可以有效地适应事务发展的需求。因此基于数据挖掘的审计系统,能够自动更新知识库,有较强的自学习能力,适合不断变化和不断发展的信息化审计对象。

5 结语

识别财务报告中的舞弊,需要从大量企业内外相关信息中寻找线索,数据挖掘技术帮助审计人员对被审计单位海量电子数据进行分析,获得审计线索,发现审计疑点。建立基于数据挖掘技术的审计系统,充分利用数据挖掘的技术优势,将会增强审计人员的审计数据分析能力,提高审计的效率和效果,尽量降低其带给利益相关者的损失,降低审计风险。

[1]陈乃激.基于财务分析的数据挖掘技术[J].中国管理信息化,2008(9):28-61.

[2]韩家炜,坎伯.数据挖掘:概念与技术[M].范明,译.北京:机械工业出版社,2001:18-21.

[3]曾德胜.数据库中Burst模式挖掘的研究与实现[D].桂林:广西师范大学,2006:1-4.

[4]Agrawal R,Imielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases[A].Peter Buneman,Sushil Joyodia.In:Proceedings of the ACM SIGMOD International Conference Management of Data[C].Washington:Acm Press,1993:207-216.

[5]钱进,孟祥萍,徐冬寅.一种有效的关联规则增量式更新算法[J].长春工程学院学报:自然科学版,2003,(03):11-14.

[6]陈源,曾德胜,谢冲.基于聚类的属性约简方法[J].计算机系统应用,2009(5):173-176.

[7]曾德胜,张师超,王日凤,等.大型时态数据库中的Burst模式挖掘[J].计算机应用,2006(10):2413-2146,2420.

[8]赵选民,薛建楼.利用数据挖掘技术分析上市公司财务状况[J].中国管理信息化,2009(3):30-32.

猜你喜欢

舞弊数据挖掘数据库
浅谈财务舞弊与防范
探讨人工智能与数据挖掘发展趋势
舞弊行为人特征分析
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
数据库
数据库
我国上市公司财务舞弊识别模型初探
一种基于Hadoop的大数据挖掘云服务及应用