APP下载

基于数据挖掘的高校数据式审计框架探究

2021-06-10雷洋昆刘芝玮

会计之友 2021年12期
关键词:审计信息化内部审计数据挖掘

雷洋昆 刘芝玮

【摘 要】 大数据时代背景下,审计信息化是审计工作的重要思路,也是新时代审计发展的必然路径。文章基于高校数据和内审人员计算机应用水平现状,结合高校业务运行模式和业务活动特征,提出“数据式审计”是高校审计信息化的重要手段,明确了数据式审计“是手段而非目的、是分析而非统计、是整体而非局部”的基本理念。在此理念上,文章围绕“数据挖掘”技术构建了高校数据式审计框架,并结合高校办学业务、科研业务案例,深入探讨了审计框架的实务应用,为高校切实推进开展数据式审计提供了具有操作性的实现路径和应用范例。

【关键词】 内部审计; 数据式审计; 数据挖掘; 高校; 审计信息化

【中图分类号】 F239.45  【文献标识码】 A  【文章编号】 1004-5937(2021)12-0025-06

近年来,随着信息技术的飞速发展,数据信息的数量、类型、流转渠道等迎来了爆发式的增长或转变,审计信息化成为了审计工作的重要思路。习近平总书记在中央审计委员会第一次会议中明确指出,要“善于运用新技术、新手段,坚持科技强审,加强审计信息化建设,积极推进大数据审计”。审计信息化也将成为新时代审计发展的必然路径。因此,如何充分收集信息、有效利用信息,缓解“信息不对称”的困境,切实提高审计效率、拓展审计范围、突破审计深度是审计工作当前乃至今后长期的重大课题。

一、高校数据式审计研究及应用现状

审计信息化一般包括信息系统审计、数据式审计和审计信息管理系统建设。审计署原审计长刘家义曾指出:“审计出路在于信息化,信息化关键在于数字化”。因此,当审计对象、审计内容以及其所有的载体都信息化、数字化时,数据式审计也势在必行。

“数据式审计”的概念最早由石爱中等[1]提出,是指以数据为直接对象的审计方式,以系统内部控制测评为基础,通过对电子数据的收集、转换、整理、分析和验证,来实现审计目标。以此为基础,诸多学者也探讨了数据式审计的内涵及价值,如黄型君[2]通过辨析数据式审计与信息系统审计的区别,提出数据式审计的客体是电子数据,是直接与审计目标相关联的审计方式;刘汝焯[3]提出对底层数据开展审计的价值远大于加工处理后的信息;秦荣生[4]提出数据式审计能够为各类常规审计和风险管理提供多维度、多样化、多种类的数据。同时,还有部分研究者提出建设审计数据中心、采用文本挖掘技术和多维数据分析等方法均可以助力开展数据式审计[5-7]。

随着数据式审计的概念在商业审计中逐渐得以广泛应用,高浩玮[8]首先将其引入高校内审业务范畴,提出数据式审计是解决高校内部审计覆盖面与审计深度双重压力的上佳选择。2017年,教育部正式出台《關于推进直属高等学校内部审计信息化建设的意见》(教财〔2017〕10号)[9],要求“加快推进数字化审计方式,提升运用信息化技术发现问题、评价判断、宏观分析、支撑决策的能力”“探索创新审计模式方法,推动内部审计科学发展”。在教育部文件的指导下,各高校积极开展数据式审计的探索与研究,例如刘晓晨[10]总结了高校开展数据式审计在数据采集、分析、安全、平台支持及成果运用方面面临的问题,钱金金[11]提出了以“数据采集、转换、分析”为思路的高校数据式审计实施路径。

但从研究现状来看,对于高校开展数据式审计的研究仍较为宽泛,对于其实质和理念的剖析不够,对于实践的指导性和可操作性不强。从实践现状来看,客观方面,当前高校数据数量和质量还不够好,存在数据格式不统一,不同业务系统之间孤立割裂、没有形成数据的闭环,数据冗余和数据缺失共存等问题,与理想状态的数据式审计要求还存在一定差距;主观方面,高校审计人员对数据式审计的理念认知存在偏差,专业水平也有待提高。

本文将基于高校业务运行模式、业务活动特征,结合高校信息化现状,以高校办学业务、科研业务为具体实例,探讨高校如何运用“数据挖掘”技术开展数据式审计,以供高校推进审计信息化建设参考。

二、高校数据式审计的基本理念

借鉴以往研究者思路,本文提出的“数据式审计”是指以被审计单位底层数据库原始数据为切入点,在对信息系统内部控制测评的基础上,通过对底层数据及其他相关外部数据进行采集、转换、整理、分析和验证,以发现疑点、发现趋势的审计方法。

近年来,尽管高校审计信息化工作宣传和培训力度较大,但实际业务中切实开展数据式审计的并不多。主要原因在于高校认为数据式审计需要有完善的数据和高深的计算机应用技术,而这与目前高校信息化基础薄弱、内审人员计算机运用水平普遍不高的现状相矛盾。实际上,认为必须要在数据和技术齐备完善的基础上才能开展数据式审计,是对数据式审计的一种误解。高校只有首先正确理解数据式审计内涵,才能突破数据和技术的约束,充分利用现有虽不完善但也充分的数据推进数据式审计。

(一)明确数据式审计是一种审计手段,而非审计目的

目前,不管科研文献还是经典实务案例呈现出来的数据式审计都侧重于技术模型的介绍,看起来高端、复杂的技术模型让大部分高校内审人员误认为数据式审计是一种高深、费解的审计,是一种突破以往审计理念和思路的新型审计。因此,部分高校虽心心念念但不敢触碰;部分高校费时费力大动干戈,却收获甚少。其实,数据式审计仅仅是一种审计方法,是审计对象变化带来的审计分析方法的变化。从本质来讲,数据式审计并非新生事物,它是在各类信息更充足、更有效衔接的背景下,做出的一种深化的审计程序。例如,为了分析总体风险,在过去数据未信息化时代,内审人员一直采用抽样手段,以部分数据来预测总体;而在信息化时代数据充分的情况下,就可以通过采集底层数据,直接对总体数据进行分析,规避了以局部推测总体的偏差,进而挖掘了更多隐蔽的信息。但究其本质,这仅仅是分析手段和样本数量的改变,分析的思路和目的是没有变化的,还是为了发现问题、解决问题。

(二)坚持数据式审计是基于业务的数据分析,而非数据统计

高校因其目标多元、部门繁多,且各单位、各业务模块、各业务流程及其控制机制较为复杂,与其他行业信息化建设相比,还存在数据信息未实现全覆盖;数据标准、数据格式不统一;各数据库之间未衔接,未实现数据共享和数据闭环;数据冗余和数据缺失共存等问题。同时,高校内审人员计算机运用水平也普遍不高。在这种现状下,高校推进数据式审计一是要关注数据,而不是关注让内审人员望而生畏的信息系统;二是要挖掘数据,要善于在海量的数据中挖掘更多有价值的信息。这就需要内审人员在充分了解高校业务运行模式和业务特点的基础上深入分析数据,而不是对所有数据按照固有的流程进行标准化处理,或者是统计出几个固化的比率。数据式审计不是数据处理,也不是数据统计,而是需要根据审计需求,结合各单位类型性质、各业务特点规律进行灵活的调研式数据分析。如图1所示,经过数据统计,尽管数据看起来有序了,但脱离了具体业务的数据仅仅是一个个符号,无法反映数据之间的关系、突出数据的重要性及风险点。而经过数据分析,将原始杂乱无章的数据通过有效分类排序后,能做到聚焦重点、精准取证。因此,基于业务开展数据分析,紧密结合各被审单位的性质、业务特点规律及风险点,灵活考虑数据分析对象、数据分析方式及分析侧重点,是高校数据式审计有效实施的关键点。

(三)力争数据式审计立足整体,突破单个和局部思维

高校资金量庞大,2021年75所部属高校预算收支总数超过4 700亿元,庞大的业务量及资金流转亟须更加高效、精准的审计方式。传统審计往往只是对财务数据进行抽样审核,缺乏从宏观整体角度进行分析。数据的数量代表业务的规模,数据的结构代表业务的质量。在开展数据式审计的过程中,内审人员首先应该突破单个、局部思维,从总体层面对海量数据进行整合,了解数据的规模,掌握整体情况;其次,内审人员应进一步对数据结构进行分析,探索业务管理质量,以精准发现问题和风险点。通过“总体分析、发现疑点、分散核实、系统研究”,实现“突破局部立宏观、问题导向理业务、把握应然判实然、提升价值做前瞻”的高校内审目标。

三、基于数据挖掘的高校数据式审计框架分析

数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的且有价值的信息和知识的过程。基于对高校数据式审计的分析,从高校现有的财务、业务数据信息化程度出发,构建了基于“数据挖掘”技术的高校数据式审计框架,如图2所示。

借助数据挖掘工具,内审人员不仅能够实现从抽样数据到全量数据、从结构化数据到非结构化数据的挖掘整合以获取全面实时数据,还能挖掘数据之间因果、相关甚至是隐含的关系,分析数据内部潜在的规律和本质,揭示异常数据,进而达到整体分析、重点提炼、凸显疑点和风险、总结规律的审计目的,以下将以高校继续教育短训班办学业务和科研业务为例进行阐述。

(一)审计数据的采集和预处理

1.审计数据的采集和预处理要点

数据采集是数据式审计工作的起点,采集数据的范围、数量、质量将直接影响审计效益,是数据式审计有效开展的基础和保障。高校内部审计涉及的业务面广、种类繁多,内审人员在开展数据式审计时需要结合审计目的、审计重点,有针对性、有选择性地获取审计数据,既要避免数据冗余导致费时、费力且无效,又要避免数据太少无法获取有效信息。一般而言,审计数据包括结构化数据、非结构化数据和半结构化数据。传统审计方式往往局限于结构清晰、易于分析的结构化数据,如财务系统数据、人事系统数据、科研系统数据等等,而忽略了大量以其他形式存储的数据信息。事实上,面向风险、基于内部控制、以“管理+绩效”为导向的高校内部审计更多需要从非结构化数据(例如会议记录、合同协议、规章制度、网页信息等)或者介于以上两种类型之间的半结构化数据(例如各种XML、HTML文档等)中获取信息。此外,在采集信息时,高校内审人员还需拓宽数据来源,除获取单位内部信息之外,应充分利用网络爬虫、Web链接分析等技术广泛从互联网上采集外部信息,通过内、外部数据的相互印证、相互补充,提供更为全面的视角。

2.审计数据的采集和预处理示例——以高校办学业务为例

例如,在对二级学院举办继续教育短期培训班办班情况进行审计时,结合短期培训班的业务风险(主要为乱合作、乱招生、乱收费、乱发证、乱分成),内审人员应该获取下列有关数据(如图3所示)。

(1)审计是否存在未经审批就办班(乱办班)、未按审批价格收费(乱收费)的情况,应收集的数据包括学院举办短期培训班的项目材料、经学校审批的培训项目材料、互联网上的招生信息等。

(2)审计是否存在未收费就发证(乱发证)的情况,应收集的数据包括学院举办短期培训班发放的结业证书情况、每个培训班的财务收入数据等。

(3)审计合作是否存在关联(乱合作),合作分成是否合理(乱分成)的情况,应收集的数据包括短期培训班合同、企业信用信息、人事系统信息、财务支出数据等。

以上数据既包括结构化数据,也包括非结构化数据;既包括可以直接由被审计单位提供的内部数据,也包括需要通过其他部门或者互联网获取的外部数据。其中,班级项目材料、培训合同等数据可以直接由被审计单位提供,财务收支数据、结业证书数据等需要通过学校财务部门、继续教育部门获取,互联网招生信息则可以通过互联网进行广泛的检索搜集。特别地,在互联网进行信息检索过程中,除了进行随机手动检索外,还可以利用Web链接原理,以学院网址、培训信息发布网页等特定网站为中心点进行外链分析,抓取与该网站相链接的其他网站,发现正在进行招生宣传但未经过学校授权审批的培训班。采集企业信用网信息可以事先利用Python网络爬虫工具,从企业信息查询平台中批量采集企业相关信息(如法人、股东、公司地址、联系方式等公开信息)并存储为SQL格式的企业信息库,进而为后续实现批量化的关联关系审查做好准备。

完成数据挖掘后处理后,内审人员应结合业务知识及专业判断,进行数据使用。数据使用环节包括对数据分析结果的提炼归纳,以及审计结果的可视化呈现。一方面,内审人员需要提炼数据挖掘结果、归纳审计结论,对数据所反映出的问题进行深入调查和专业判断,以揭示问题和风险;另一方面,内审人员可以借鉴创新的技术方法,对审计结果进行进一步提炼和可视化呈现,从而更加直观、迅速地揭示现存问题和潜在风险,有助于高校管理者提纲挈领、有的放矢,持续提升管理质量。

综上所述,高校数据式审计框架包括数据采集、数据预处理、数据挖掘、数据后处理、数据使用五个环节,五个环节的划分只是理论上的归纳,在高校数据式审计实务操作中,整个过程并不是一个单向、一蹴而就的过程,各个环节间之间并非完全割裂独立,而是相辅相成、循环联动的。例如在数据挖掘的过程中发现了新的数据需求或挖掘到了新的审计线索,就需要回到流程初始阶段进行更加精准的数据采集工作。在数据后处理过程中通过对初步数据挖掘结果进行分析总结,可以选择更加适合的挖掘算法重新进行二次挖掘。在整个数据挖掘流程完成、得出审计结论后,又可以将审计结论作为新的文本数据、审计规范数据作为新的数据训练集重新回到数据输入环节,从而开启新一轮更深度的数据挖掘,为今后的工作提供经验和思考。

四、总结与思考

当前,高校内审人员对数据式审计的理念理解不够深入,开展数据式审计仍“举步维艰”。本文基于对数据式审计理念的剖析,以办学业务、科研业务为例展示了运用“数据挖掘”技术开展高校数据式审计的流程、内容和方法。在高校目前信息化环境未健全、内审人员信息化专业技术不完善的双重约束下,运用“数据挖掘”技术开展数据式审计的首要之道是要结合高校业务运行模式、业务发展规律和特征对数据进行分析。其次,要对现有数据进行分类分析、聚类分析(结构分析)、关联分析、孤立点分析以充分挖掘数据背后存在的信息。最后,内审人员还需“以审促建,以审促学”,一方面通过逐步开展数据式审计,促进高校管理信息化加强顶层设计,进一步完善各类财务数据、业务数据,提高数据质量,加强各部门间的信息对接和共享,形成数据闭环,为开展数据式审计打好客观基础;另一方面,高校内审人员还需在推进数据式审计时,熟悉掌握高校业务特征和发展规律,增强调研分析能力和计算机应用水平,充分发挥综合性思维和主观能动性对数据进行采集、整理和提炼、挖掘和分析,以更好地发现问题、解决问题,促进完善和提升高校治理水平。

【参考文献】

[1] 石爱中,孙俭.初释数据式审计模式[J].审计研究,2005(4):3-6.

[2] 黄型君.信息系统审计与数据式审计的比较及建议[J].商业会计,2010(11):44-45.

[3] 刘汝焯.信息环境下的计算机审计方式[J].审计与经济研究,2008(1):14-19.

[4] 秦榮生.我国内部审计的新使命与发展新路径[J].会计之友,2019(8):2-5.

[5] 刘星,牛艳芳,唐志豪.关于推进大数据审计工作的几点思考[J].审计研究,2016(5):3-7.

[6] 张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017(16):117-120.

[7] 鲍朔望.大数据环境下政府采购审计思路和技术方法探讨[J].审计研究,2016(6):13-18.

[8] 高浩玮.基于高校财务信息平台的数据审计模式及实务探究[J].审计研究,2010(6):59-65.

[9] 教育部.关于推进直属高等学校内部审计信息化建设的意见[A].教财〔2017〕10号,2017.

[10] 刘晓晨.大数据背景下高校数据式审计模式的创新与变革[J].时代金融,2020(9):134-135.

[11] 钱金金.信息化环境下高校数据式审计模式运用的探索[J].经济师,2019(7):112-117.

猜你喜欢

审计信息化内部审计数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
浅谈审计信息化建设
浅析企业如何开展ERP风险审计
浅析SAP系统在石化企业内部审计中的运用
新常态下集团公司内部审计工作研究
图书馆内部控制建设的深度思考
政府投资项目的审计信息化现状与解决办法
基于云计算的企业审计信息化应用模式探讨
一种基于Hadoop的大数据挖掘云服务及应用