APP下载

采用K—means聚类算法提高审计分析质量

2015-01-08郭红建陈一飞

中国管理信息化 2015年1期
关键词:审计质量数据挖掘聚类

郭红建+++陈一飞

[摘 要] 本文分析了数据挖掘技术在审计数据分析中应用的步骤:数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善。提出采用K-means聚类算法提高审计分析质量,并以笔者曾经参与的商业银行审计项目为案例进行分析,验证了本文算法的有效性。

[关键词] 审计质量;数据挖掘;K-means 聚类

[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2015)01- 0009- 02

1 引 言

审计数据分析有3种方法:结合审计专家经验并采用常规审计分析技术进行审计,利用审计数据分析模型进行审计,采用数据挖掘技术进行审计数据分析。采用审计数据分析模型和数据挖掘技术进行审计数据分析的应用越来越多。数据挖掘技术是一种新型数据分析和处理技术,它通过数据分析和关联技术来发现数据集合中隐藏的或不可预见的规则模式或数据关联。聚类算法是数据挖掘的一个重要方法,它的应用非常广泛。例如在审计数据分析时,审计人员运用查询、验证、挖掘等方式进行数据的观察和分析,从而达到把握总体、突出重点、精确延伸的审计目标。以海量数据为基础的深层次数据分析方式支持审计人员从不同的角度,灵活快捷地对被审计单位的电子数据进行挖掘,并以直观易懂的形式展示分析结果。

聚类算法有很多种,常用的有基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于划分的聚类算法和基于模型的聚类算法,如DBSCAN[1]聚类算法、OPTICS[2]聚类算法、STING[3]聚类算法和WaveCluster[4]聚类算法。赵慧[5]等人针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。吴文丽[6]等人通过分析蚂蚁聚类算法和K-平均算法两种不同聚类算法的基本思想,将两种算法结合得到混合聚类算法,混合聚类算法的算法性能优于蚂蚁算法和K-平均算法。王晓飞[7]等人提出了一种改进的K-均值聚类算法并将其应用于脑实质分割,由SOM神经网络对图像进行初始聚类,得到k个聚类中心值,然后以SOM神经网络获得的k个聚类中心值作为K-均值聚类算法的初始聚类中心对图像进行k-均值聚类,最终获得图像的聚类分割结果。

本文第二部分是数据挖掘技术在审计数据分析中应用的步骤,第三部分是改进K-means聚类算法提高审计分析质量, 第四部分是实验分析。

2 数据挖掘技术在审计数据分析中应用的步骤

数据挖掘技术在审计数据分析中应用的步骤可以分为数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善[8]。

审计数据采集是指根据审计目标,利用一定的技术和工具软件对被审计单位中的被审计数据进行采集的过程,该步骤是数据挖掘技术在审计方面应用的基础。审计数据的采集需要满足两个条件:其一是采集的原始数据要符合审计模型的要求;其二是通过查看数据日志充分了解被审计单位的信息系统及其工作流程。在数据采集前,审计人员应结合本次审计工作方案中的审计目的、范围、内容及重点,以及审计开始前调查了解到的被审计单位数据的组织形式,确定本次数据采集的范围、内容及重点。

审计数据的预处理步骤是数据挖掘的准备阶段,该步骤包括数据清理、数据选择和数据转换。数据采集成功后,审计人员需要对采集到的数据进行初步清理,删除冗余和明显错误的数据,可以采用的方法有两类:一是通过技术性验证,比如核对总记录数是否正确;二是进行业务性验证,比如检查借贷是否平衡,查看顺序码是否有断号或重号,以及分析各明细科目年末总余额和相应总账科目余额是否一致等,便于对噪声数据进行平滑处理,为进一步的审计数据分析作准备。在数据选择和数据转换阶段,审计人员需要根据数据挖掘的任务从数据库中选择性地提取即将进行数据挖掘的数据,并根据数据挖掘算法的要求进行数据格式转换或预处理,同时要剔除数据结构中的干扰项目,使该数据集合能更直接地反映业务情况,这也是为了提高数据挖掘的准确性。

模型建立与调整阶段是数据挖掘过程的核心步骤。针对已经准备好的被审数据,审计人员需要按照审计任务的所属类别,结合被审计单位的不同行业背景和业务类型,以及数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术,挖掘被审计数据中隐含的规律,确定即将应用的数据挖掘方法或模型并加以实现。在数据挖掘模型建立的过程中,还可以利用图表、分类矩阵和利润图等辅助分析工具。数据分类模型可以生成一个提升图,数据估计模型可以生成一个散点图。建立数据挖掘分析模型的目的是将该模型应用于对审计数据的分析,审计人员要根据这些特征对被审计单位数据进行总体评价,判断和比较审计数据在真实性、准确性、一致性等方面的质量情况。对于挖掘算法得到的数据质量不合格问题,审计人员需要根据具体情况逐一进行分析,判断该问题是否属于数据质量问题,而且还要确定这个问题是否可以纠正,对于可纠正的数据质量问题,需要及时采取相关纠正措施进行纠正,例如提请被审计单位管理人员改正数据等。对于重新获取的审计分析数据,审计人员还要采用关系模型和业务规则再次核对,如果数据已经完善则可以停止了。

3 K-means聚类算法提高审计分析质量

在审计数据分析的实践中,通常采用聚类算法对被审计单位的财务数据以及业务数据进行分组。通常说来,被审计单位的财务数据及重要业务数据的分布具有一定规律。如果某些数据经过聚类算法处理后处于稀疏区域,则可以说明该数据表现异常,相关人员需要关注。通过分析该区域其他记录的特征,能够发现审计人员需要查证的问题所具有的特征。例如对于银行的信贷业务进行审计时,可以对各种信贷业务进行聚类,划分为低风险、中风险、高风险三类,并且可以细分为不同的风险等级。采用聚类算法,我们把分好的类别与被审计单位往年数据进行比较, 从而分析出被审计单位数据的真实性与准确性。

4 实验分析

对聚类算法进行效果评测并不容易,通常用来评测聚类算法效果的指标包括召回率、准确率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]这5个指标。本文以笔者曾经参与的商业银行审计项目为案例进行分析,表1是商业银行信用风险监管指标体系。在审计过程中,笔者充分利用K-means聚类算法进行审计分析,将商业银行的大量数据进行去噪、聚类、分析、验证,得到10家商业银行信用风险状态及对应的监管指标等级划分,如表2所示。endprint

[摘 要] 本文分析了数据挖掘技术在审计数据分析中应用的步骤:数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善。提出采用K-means聚类算法提高审计分析质量,并以笔者曾经参与的商业银行审计项目为案例进行分析,验证了本文算法的有效性。

[关键词] 审计质量;数据挖掘;K-means 聚类

[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2015)01- 0009- 02

1 引 言

审计数据分析有3种方法:结合审计专家经验并采用常规审计分析技术进行审计,利用审计数据分析模型进行审计,采用数据挖掘技术进行审计数据分析。采用审计数据分析模型和数据挖掘技术进行审计数据分析的应用越来越多。数据挖掘技术是一种新型数据分析和处理技术,它通过数据分析和关联技术来发现数据集合中隐藏的或不可预见的规则模式或数据关联。聚类算法是数据挖掘的一个重要方法,它的应用非常广泛。例如在审计数据分析时,审计人员运用查询、验证、挖掘等方式进行数据的观察和分析,从而达到把握总体、突出重点、精确延伸的审计目标。以海量数据为基础的深层次数据分析方式支持审计人员从不同的角度,灵活快捷地对被审计单位的电子数据进行挖掘,并以直观易懂的形式展示分析结果。

聚类算法有很多种,常用的有基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于划分的聚类算法和基于模型的聚类算法,如DBSCAN[1]聚类算法、OPTICS[2]聚类算法、STING[3]聚类算法和WaveCluster[4]聚类算法。赵慧[5]等人针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。吴文丽[6]等人通过分析蚂蚁聚类算法和K-平均算法两种不同聚类算法的基本思想,将两种算法结合得到混合聚类算法,混合聚类算法的算法性能优于蚂蚁算法和K-平均算法。王晓飞[7]等人提出了一种改进的K-均值聚类算法并将其应用于脑实质分割,由SOM神经网络对图像进行初始聚类,得到k个聚类中心值,然后以SOM神经网络获得的k个聚类中心值作为K-均值聚类算法的初始聚类中心对图像进行k-均值聚类,最终获得图像的聚类分割结果。

本文第二部分是数据挖掘技术在审计数据分析中应用的步骤,第三部分是改进K-means聚类算法提高审计分析质量, 第四部分是实验分析。

2 数据挖掘技术在审计数据分析中应用的步骤

数据挖掘技术在审计数据分析中应用的步骤可以分为数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善[8]。

审计数据采集是指根据审计目标,利用一定的技术和工具软件对被审计单位中的被审计数据进行采集的过程,该步骤是数据挖掘技术在审计方面应用的基础。审计数据的采集需要满足两个条件:其一是采集的原始数据要符合审计模型的要求;其二是通过查看数据日志充分了解被审计单位的信息系统及其工作流程。在数据采集前,审计人员应结合本次审计工作方案中的审计目的、范围、内容及重点,以及审计开始前调查了解到的被审计单位数据的组织形式,确定本次数据采集的范围、内容及重点。

审计数据的预处理步骤是数据挖掘的准备阶段,该步骤包括数据清理、数据选择和数据转换。数据采集成功后,审计人员需要对采集到的数据进行初步清理,删除冗余和明显错误的数据,可以采用的方法有两类:一是通过技术性验证,比如核对总记录数是否正确;二是进行业务性验证,比如检查借贷是否平衡,查看顺序码是否有断号或重号,以及分析各明细科目年末总余额和相应总账科目余额是否一致等,便于对噪声数据进行平滑处理,为进一步的审计数据分析作准备。在数据选择和数据转换阶段,审计人员需要根据数据挖掘的任务从数据库中选择性地提取即将进行数据挖掘的数据,并根据数据挖掘算法的要求进行数据格式转换或预处理,同时要剔除数据结构中的干扰项目,使该数据集合能更直接地反映业务情况,这也是为了提高数据挖掘的准确性。

模型建立与调整阶段是数据挖掘过程的核心步骤。针对已经准备好的被审数据,审计人员需要按照审计任务的所属类别,结合被审计单位的不同行业背景和业务类型,以及数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术,挖掘被审计数据中隐含的规律,确定即将应用的数据挖掘方法或模型并加以实现。在数据挖掘模型建立的过程中,还可以利用图表、分类矩阵和利润图等辅助分析工具。数据分类模型可以生成一个提升图,数据估计模型可以生成一个散点图。建立数据挖掘分析模型的目的是将该模型应用于对审计数据的分析,审计人员要根据这些特征对被审计单位数据进行总体评价,判断和比较审计数据在真实性、准确性、一致性等方面的质量情况。对于挖掘算法得到的数据质量不合格问题,审计人员需要根据具体情况逐一进行分析,判断该问题是否属于数据质量问题,而且还要确定这个问题是否可以纠正,对于可纠正的数据质量问题,需要及时采取相关纠正措施进行纠正,例如提请被审计单位管理人员改正数据等。对于重新获取的审计分析数据,审计人员还要采用关系模型和业务规则再次核对,如果数据已经完善则可以停止了。

3 K-means聚类算法提高审计分析质量

在审计数据分析的实践中,通常采用聚类算法对被审计单位的财务数据以及业务数据进行分组。通常说来,被审计单位的财务数据及重要业务数据的分布具有一定规律。如果某些数据经过聚类算法处理后处于稀疏区域,则可以说明该数据表现异常,相关人员需要关注。通过分析该区域其他记录的特征,能够发现审计人员需要查证的问题所具有的特征。例如对于银行的信贷业务进行审计时,可以对各种信贷业务进行聚类,划分为低风险、中风险、高风险三类,并且可以细分为不同的风险等级。采用聚类算法,我们把分好的类别与被审计单位往年数据进行比较, 从而分析出被审计单位数据的真实性与准确性。

4 实验分析

对聚类算法进行效果评测并不容易,通常用来评测聚类算法效果的指标包括召回率、准确率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]这5个指标。本文以笔者曾经参与的商业银行审计项目为案例进行分析,表1是商业银行信用风险监管指标体系。在审计过程中,笔者充分利用K-means聚类算法进行审计分析,将商业银行的大量数据进行去噪、聚类、分析、验证,得到10家商业银行信用风险状态及对应的监管指标等级划分,如表2所示。endprint

[摘 要] 本文分析了数据挖掘技术在审计数据分析中应用的步骤:数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善。提出采用K-means聚类算法提高审计分析质量,并以笔者曾经参与的商业银行审计项目为案例进行分析,验证了本文算法的有效性。

[关键词] 审计质量;数据挖掘;K-means 聚类

[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2015)01- 0009- 02

1 引 言

审计数据分析有3种方法:结合审计专家经验并采用常规审计分析技术进行审计,利用审计数据分析模型进行审计,采用数据挖掘技术进行审计数据分析。采用审计数据分析模型和数据挖掘技术进行审计数据分析的应用越来越多。数据挖掘技术是一种新型数据分析和处理技术,它通过数据分析和关联技术来发现数据集合中隐藏的或不可预见的规则模式或数据关联。聚类算法是数据挖掘的一个重要方法,它的应用非常广泛。例如在审计数据分析时,审计人员运用查询、验证、挖掘等方式进行数据的观察和分析,从而达到把握总体、突出重点、精确延伸的审计目标。以海量数据为基础的深层次数据分析方式支持审计人员从不同的角度,灵活快捷地对被审计单位的电子数据进行挖掘,并以直观易懂的形式展示分析结果。

聚类算法有很多种,常用的有基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于划分的聚类算法和基于模型的聚类算法,如DBSCAN[1]聚类算法、OPTICS[2]聚类算法、STING[3]聚类算法和WaveCluster[4]聚类算法。赵慧[5]等人针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。吴文丽[6]等人通过分析蚂蚁聚类算法和K-平均算法两种不同聚类算法的基本思想,将两种算法结合得到混合聚类算法,混合聚类算法的算法性能优于蚂蚁算法和K-平均算法。王晓飞[7]等人提出了一种改进的K-均值聚类算法并将其应用于脑实质分割,由SOM神经网络对图像进行初始聚类,得到k个聚类中心值,然后以SOM神经网络获得的k个聚类中心值作为K-均值聚类算法的初始聚类中心对图像进行k-均值聚类,最终获得图像的聚类分割结果。

本文第二部分是数据挖掘技术在审计数据分析中应用的步骤,第三部分是改进K-means聚类算法提高审计分析质量, 第四部分是实验分析。

2 数据挖掘技术在审计数据分析中应用的步骤

数据挖掘技术在审计数据分析中应用的步骤可以分为数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善[8]。

审计数据采集是指根据审计目标,利用一定的技术和工具软件对被审计单位中的被审计数据进行采集的过程,该步骤是数据挖掘技术在审计方面应用的基础。审计数据的采集需要满足两个条件:其一是采集的原始数据要符合审计模型的要求;其二是通过查看数据日志充分了解被审计单位的信息系统及其工作流程。在数据采集前,审计人员应结合本次审计工作方案中的审计目的、范围、内容及重点,以及审计开始前调查了解到的被审计单位数据的组织形式,确定本次数据采集的范围、内容及重点。

审计数据的预处理步骤是数据挖掘的准备阶段,该步骤包括数据清理、数据选择和数据转换。数据采集成功后,审计人员需要对采集到的数据进行初步清理,删除冗余和明显错误的数据,可以采用的方法有两类:一是通过技术性验证,比如核对总记录数是否正确;二是进行业务性验证,比如检查借贷是否平衡,查看顺序码是否有断号或重号,以及分析各明细科目年末总余额和相应总账科目余额是否一致等,便于对噪声数据进行平滑处理,为进一步的审计数据分析作准备。在数据选择和数据转换阶段,审计人员需要根据数据挖掘的任务从数据库中选择性地提取即将进行数据挖掘的数据,并根据数据挖掘算法的要求进行数据格式转换或预处理,同时要剔除数据结构中的干扰项目,使该数据集合能更直接地反映业务情况,这也是为了提高数据挖掘的准确性。

模型建立与调整阶段是数据挖掘过程的核心步骤。针对已经准备好的被审数据,审计人员需要按照审计任务的所属类别,结合被审计单位的不同行业背景和业务类型,以及数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术,挖掘被审计数据中隐含的规律,确定即将应用的数据挖掘方法或模型并加以实现。在数据挖掘模型建立的过程中,还可以利用图表、分类矩阵和利润图等辅助分析工具。数据分类模型可以生成一个提升图,数据估计模型可以生成一个散点图。建立数据挖掘分析模型的目的是将该模型应用于对审计数据的分析,审计人员要根据这些特征对被审计单位数据进行总体评价,判断和比较审计数据在真实性、准确性、一致性等方面的质量情况。对于挖掘算法得到的数据质量不合格问题,审计人员需要根据具体情况逐一进行分析,判断该问题是否属于数据质量问题,而且还要确定这个问题是否可以纠正,对于可纠正的数据质量问题,需要及时采取相关纠正措施进行纠正,例如提请被审计单位管理人员改正数据等。对于重新获取的审计分析数据,审计人员还要采用关系模型和业务规则再次核对,如果数据已经完善则可以停止了。

3 K-means聚类算法提高审计分析质量

在审计数据分析的实践中,通常采用聚类算法对被审计单位的财务数据以及业务数据进行分组。通常说来,被审计单位的财务数据及重要业务数据的分布具有一定规律。如果某些数据经过聚类算法处理后处于稀疏区域,则可以说明该数据表现异常,相关人员需要关注。通过分析该区域其他记录的特征,能够发现审计人员需要查证的问题所具有的特征。例如对于银行的信贷业务进行审计时,可以对各种信贷业务进行聚类,划分为低风险、中风险、高风险三类,并且可以细分为不同的风险等级。采用聚类算法,我们把分好的类别与被审计单位往年数据进行比较, 从而分析出被审计单位数据的真实性与准确性。

4 实验分析

对聚类算法进行效果评测并不容易,通常用来评测聚类算法效果的指标包括召回率、准确率、F-Measure值、Purity[10]和Normalized Mutual Information (NMI)[11]这5个指标。本文以笔者曾经参与的商业银行审计项目为案例进行分析,表1是商业银行信用风险监管指标体系。在审计过程中,笔者充分利用K-means聚类算法进行审计分析,将商业银行的大量数据进行去噪、聚类、分析、验证,得到10家商业银行信用风险状态及对应的监管指标等级划分,如表2所示。endprint

猜你喜欢

审计质量数据挖掘聚类
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
审计服务收费放开,审计市场绩效将何去何从?
注册会计师社会资本及其对审计质量的影响
独立审计、债务融资成本和信号传递
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例